Size: a a a

2017 March 19

GP

Grigory Pomadchin in Data Engineers
источник
2017 March 20

SZ

Sergey Zolotov in Data Engineers
через коннектор вроде оно быстро выгружает в bson, так что не должно быть с этим проблем
источник

λ

λoλdog in Data Engineers
Sergey Zolotov
через коннектор вроде оно быстро выгружает в bson, так что не должно быть с этим проблем
но не 100лямов
источник

AA

Akceptor AkceptorUA [🇺🇦, IF] in Data Engineers
источник
2017 March 22

GP

Grigory Pomadchin in Data Engineers
посоны а никто не зиповал / гзиповал директории на хдфс?

надо руками писать мр джобу? готового ничего нет?
источник

B

Boris in Data Engineers
Ну можно не МР, а что-то более высокоуровневое. Например в хайве создать таблицу со сжатым стором и переложить.
Или пигом.
источник

GP

Grigory Pomadchin in Data Engineers
да, это видел
источник

λ

λoλdog in Data Engineers
А у компрешин кодека ничего нет?
источник

GP

Grigory Pomadchin in Data Engineers
ну, по файлово можно им, думаю)
источник

B

Boris in Data Engineers
Пигом 3 строчки по идее.
источник

DS

Demidov Sergey in Data Engineers
Как вариант можно использовать HAR (Hadoop ARchives), пример команды sudo -u hdfs hadoop archive -archiveName files.har -p /user/spark -r3
источник

λ

λoλdog in Data Engineers
Grigory Pomadchin
ну, по файлово можно им, думаю)
Ну эт ж 3 строчки кода
источник

GP

Grigory Pomadchin in Data Engineers
да я наверное пофайлово и сделаю; у меня стрим байтов есть; очень удобно будет сразу гзиповано файл записать
источник

NK

ID:1373407 in Data Engineers
как вы логируете шелл скрипты запущенные в оззи?
источник
2017 April 03

PK

Pavel Klemenkov in Data Engineers
Дорогие друзья! Мы строили-строили и, наконец, построили. 27 апреля собираем практиков и энтузиастов Apache Spark у себя на Мансарде!
Расскажем, как перевели (почти) все наши ETL и ML пайплайны на Spark и как переехали на вторую версию. Познакомимся и пообщаемся! https://rambler-co-e-org.timepad.ru/event/470664/
источник

NK

ID:1373407 in Data Engineers
спасибо
источник

NK

ID:1373407 in Data Engineers
Pavel Klemenkov
Дорогие друзья! Мы строили-строили и, наконец, построили. 27 апреля собираем практиков и энтузиастов Apache Spark у себя на Мансарде!
Расскажем, как перевели (почти) все наши ETL и ML пайплайны на Spark и как переехали на вторую версию. Познакомимся и пообщаемся! https://rambler-co-e-org.timepad.ru/event/470664/
в скала ру сделайте)
источник

🔝P

🔝Ivan Popovich 🔝 in Data Engineers
ID:1373407
в скала ру сделайте)
done
источник

PK

Pavel Klemenkov in Data Engineers
👍
источник
2017 April 10

NK

ID:1373407 in Data Engineers
Кто-нибудь занимался обновлением broadcast values  в стриминге апачевском, есть какие-нибудь библиотеки ?
источник