Size: a a a

2018 January 12

JS

John Smith in Airflow
5-6 серверов с MS SQL, в них пишется телеметрия, надо раз в сутки по ночам(или чаще) делать выгрузки, аналитику и в другое хранилище
источник

YE

Yury Emelyanov in Airflow
John Smith
5-6 серверов с MS SQL, в них пишется телеметрия, надо раз в сутки по ночам(или чаще) делать выгрузки, аналитику и в другое хранилище
Хороший кейс для airflow
источник

SS

Sergey Sheremeta in Airflow
Igor
На теорфизе нас учили что значок "много больше" это когда "хотя бы в три раза". Я, конечно, придираюсь, но у аирфлоу полно плюшек с локальным экзекьютором которые дают ему право быть почётным участником процесса
понял вас, впредь буду крайне внимательно следить за своими словами
источник

JS

John Smith in Airflow
сейчас работает своей "велосипед" на питоне
источник

JS

John Smith in Airflow
он справляется
источник

SS

Sergey Sheremeta in Airflow
̶о̶т̶л̶и̶ч̶н̶ы̶й̶ ̶к̶е̶й̶с̶ хороший кейс для Airflow
источник

JS

John Smith in Airflow
но предвидется нагрузка(больше серверов больше трафика и новые "сущности"), и думает переводить на нормальные рельсы - Apache NIFI - после тестовой нагрузки не вывозит простую выгрузку из таблиц- или память кончается, или очередь образовывается или начинаются странные проблемы с полем "id" по которому нужны новые записи
источник

JS

John Smith in Airflow
вот потому и смотрим на airflow
источник

SS

Sergey Sheremeta in Airflow
я рискну посоветовать сразу смотреть в сторону докеризации процессов Airflow
это позволит позже масштабировать его работу - тиражировать контейнеры с airflow-worker на новые сервера
источник

JS

John Smith in Airflow
да
источник

JS

John Smith in Airflow
так и планируем
источник

SS

Sergey Sheremeta in Airflow
ой. а у вас там Хадупа нет случаем?
источник

JS

John Smith in Airflow
cassandra
источник

YE

Yury Emelyanov in Airflow
Sergey Sheremeta
ой. а у вас там Хадупа нет случаем?
месос экзекутор в ярне запускать?
источник

SS

Sergey Sheremeta in Airflow
у меня Хадуп и КликХаус - основные приемники данных
с Кассандрой не подскажу
(просто рад, что чат оживился, хоть с вами будем дискутировать)
источник

YE

Yury Emelyanov in Airflow
Хотя это выдумки. Лучше как проще и разделять airflow от hadoop-а
источник

YE

Yury Emelyanov in Airflow
Sergey Sheremeta
у меня Хадуп и КликХаус - основные приемники данных
с Кассандрой не подскажу
(просто рад, что чат оживился, хоть с вами будем дискутировать)
У нас так же - хадуп и кх
источник

SS

Sergey Sheremeta in Airflow
Yury Emelyanov
месос экзекутор в ярне запускать?
нет, Celery
у меня там другие заморочки - с штатными хуками-операторами под питон 2.7, а я для айрфлоу использую питон 3.6
источник

SS

Sergey Sheremeta in Airflow
в итоге все нужные хуки-операторы переопределяем в виде плагинов
источник

SS

Sergey Sheremeta in Airflow
Yury Emelyanov
Хотя это выдумки. Лучше как проще и разделять airflow от hadoop-а
Юрий, у вас машина, на которой работает airflow-worker, включена в кластер Хадупа? управляется CM/Ambari? или это внешний сервер, с которого вы коннектитесь к WebHDFS/Hive через kerberos?
источник