Size: a a a

2019 October 01

UD

Uncel Duk in Data Engineers
С рестартом неймнод чтение fsimage все еще одним тредом?
источник

UD

Uncel Duk in Data Engineers
(Пока в игрушечном кластере создали 50млн файлов, стартует минут 7 )
источник

ПФ

Паша Финкельштейн in Data Engineers
Anton Zadorozhniy
но вы бы слышали что придумывают люди отвечая на этот вопрос
Мне прям интересно. Я конечно не знал сколько занимает места, но мне пришло в голову только зависание из-за занятости всех дескрипторов и память
источник

ПФ

Паша Финкельштейн in Data Engineers
Anton Zadorozhniy
типо в самом плохом случае - у тебя все дескрипторы это открытые файлы
Не, подожди, там как минимум должны быть сокеты, хотя бы один, нет?
источник
2019 October 02

C

Combot in Data Engineers
Sibcast Balarabe has been banned! Reason: CAS ban.
источник

C

Combot in Data Engineers
Atucious loki has been banned! Reason: CAS ban.
источник

C

Combot in Data Engineers
雷玮杰 Buna has been banned! Reason: CAS ban.
источник

C

Combot in Data Engineers
... .... has been banned! Reason: CAS ban.
источник

OK

Oleg Kovalov in Data Engineers
Всем привет. Возникла необходимость вытягивать данные из хдфс/bigquery и скидывать в какую-то обычную базу(планируется монго), чтобы микросервисы бегали во что-то простое и не знали ничего о бигдата.

Вот и Возник вопрос: надо ли пилить свой велосипед или что-то уже есть в опенсурсе?

Заранее спасибо
источник

OK

Oleg Kovalov in Data Engineers
В общем планируется спаркжою, который периодически будет вытягивать какие-то таблицы их хдфс и вкидывать в монгу. Любое похожее решение будет интересно изучить.
источник

A

Alex in Data Engineers
Можно скупом, можно спарком, можно вообще консольной утилитой "прочитал-записал"

Вы бы объёмы примерные назвали
источник

OK

Oleg Kovalov in Data Engineers
Alex
Можно скупом, можно спарком, можно вообще консольной утилитой "прочитал-записал"

Вы бы объёмы примерные назвали
В планах спарковой джобой брать и вкидывать в бд. Данных много, но вытянуть придется мааалую часть
источник

OK

Oleg Kovalov in Data Engineers
Хотя это много вопрос относительный, но не петпбайты
источник

OK

Oleg Kovalov in Data Engineers
Да и вопроч не про перформанс, а про: пилим велик или нет
источник

A

Alex in Data Engineers
Ну вот вот из "невелосипедов":
1) sqoop
2) hive (коннекторы ко всему что только можно)
3) spark

Любое из решений можно скрестить для окрестрации и скедулинга
1) airflow (пишем описание на python)
2) oozie (xml, можно как квадратики в hue накидать, так и выгенерить откуда)
3) Pentaho
источник

A

Alex in Data Engineers
Вопрос слишком абстрактный чтобы иметь одно решение :)
источник

A

Alex in Data Engineers
И иногда велик с простым классом и параметрами src-dst запускаемый через cron тоже имеет право на существование
источник

OK

Oleg Kovalov in Data Engineers
Alex
Ну вот вот из "невелосипедов":
1) sqoop
2) hive (коннекторы ко всему что только можно)
3) spark

Любое из решений можно скрестить для окрестрации и скедулинга
1) airflow (пишем описание на python)
2) oozie (xml, можно как квадратики в hue накидать, так и выгенерить откуда)
3) Pentaho
Крутота!
источник

OK

Oleg Kovalov in Data Engineers
Alex
И иногда велик с простым классом и параметрами src-dst запускаемый через cron тоже имеет право на существование
Да, тоже рассматриваем
источник

OK

Oleg Kovalov in Data Engineers
Спасибо за инфо
источник