Size: a a a

2019 April 24

I

Igor in Data Engineers
или докер
источник

P

Pavel in Data Engineers
Или cygwin
источник

A

Alex in Data Engineers
жду пока предложат развернуть в linux subsystem линуксовую сборку.....
источник

神風 in Data Engineers
Доброе утро. Не подскажете как передать в фильтр объект  connection, чтобы не инициализировать его при обработке каждой строчки?
источник

A

Alex in Data Engineers
в какой фильтр? =)
источник

神風 in Data Engineers
Трансформация фильтр в спарке
источник

神風 in Data Engineers
Мне датасет надо прогнать через фильтр на предмет отсева дубликатов.
источник

神風 in Data Engineers
Хочу попробовать  загнать хеши в hbase и в фильтре проверять наличие записи по хешу.
источник

神風 in Data Engineers
Не уверен, что это будет работать быстро правда.
источник

神風 in Data Engineers
Хочу попробовать.
источник

神風 in Data Engineers
Ну, есть вариант попробовать  использовать singleton. А как правильно это сделать?
источник

神風 in Data Engineers
Использовать broadcast?
источник

MB

Mikhail Butalin in Data Engineers
Вобщем split ведет себя крайне странно.

Дал сегодня split 'Post2,20190414|00000000000000000000000000000000,1556041073486.26828fbd00737da6b34f1e20ad38bbad.', 'Post2,20190418|c0000000000000000000000000000000'
реакция нулевая
источник

MB

Mikhail Butalin in Data Engineers
а просто split 'Post2,20190414|00000000000000000000000000000000,1556041073486.26828fbd00737da6b34f1e20ad38bbad.'  сразу пошёл м сделал регион Post2,20190418|23bcca5d946c3836abb33f3786e5f39a,1556089758925.58fd1583efec0050b9d8822133a25854.
источник

MB

Mikhail Butalin in Data Engineers
т.е. он ключи на своё усмотрение только
источник

AS

Andrey Smirnov in Data Engineers
Mikhail Butalin
Вобщем split ведет себя крайне странно.

Дал сегодня split 'Post2,20190414|00000000000000000000000000000000,1556041073486.26828fbd00737da6b34f1e20ad38bbad.', 'Post2,20190418|c0000000000000000000000000000000'
реакция нулевая
в значении ключа не надо указывать имя таблицы?
источник

MB

Mikhail Butalin in Data Engineers
чего?
источник

AS

Andrey Smirnov in Data Engineers
split 'Post2,20190414|00000000000000000000000000000000,1556041073486.26828fbd00737da6b34f1e20ad38bbad.', '20190418|c0000000000000000000000000000000'
источник

MB

Mikhail Butalin in Data Engineers
если просто даёшь имя региона он его дробит на 2 части, пополам
источник

AS

Andrey Smirnov in Data Engineers
Mikhail Butalin
если просто даёшь имя региона он его дробит на 2 части, пополам
логично и даже хорошо
источник