Size: a a a

2021 March 04

AZ

Anton Zadorozhniy in Data Engineers
ну вот оказывается не так просто, да и код накопленный за 30 лет не очень помогает (интел не очень поддерживает в этом, что логично)
источник

SB

Serg Bara in Data Engineers
С oozie кто-нибудь работает или это считается легаси в наши дни?
источник

VP

Vitaly Pismarev in Data Engineers
Всем привет

А кто как DDL-ки для BigQuery хранит? В каком виде?
источник

SI

Sergey Ivanychev in Data Engineers
Serg Bara
С oozie кто-нибудь работает или это считается легаси в наши дни?
Да! Мигрируемся с него на Airflow :)
источник

VP

Vitaly Pismarev in Data Engineers
Навскидку есть вариант экспорта schema definitions в json
источник

A

Alex in Data Engineers
Serg Bara
С oozie кто-нибудь работает или это считается легаси в наши дни?
Кто то мигрирует, мы пока используем (сложно представить как эйрфлоу потянет почти 4к джобов)
источник

SB

Serg Bara in Data Engineers
Sergey Ivanychev
Да! Мигрируемся с него на Airflow :)
А не сталкивались с проблемой - неправильные статусы в yarn у oozie приложений. Даже если скрипт упал, в yarn видим succeed...
источник

A

Alex in Data Engineers
конкретно шёл екшены не используем, но были случаи когда зависимая джоба не совсем корректный статус возвращала и узи считать что норм
источник

AZ

Anton Zadorozhniy in Data Engineers
Vitaly Pismarev
Всем привет

А кто как DDL-ки для BigQuery хранит? В каком виде?
видел параметризованные скрипты на шелле которые дергают bq mk :)
источник

NN

No Name in Data Engineers
Alex
Кто то мигрирует, мы пока используем (сложно представить как эйрфлоу потянет почти 4к джобов)
А почему нет? Где узкое место?
источник

SB

Serg Bara in Data Engineers
Alex
конкретно шёл екшены не используем, но были случаи когда зависимая джоба не совсем корректный статус возвращала и узи считать что норм
а как-то удалось это побороть?
источник

VP

Vitaly Pismarev in Data Engineers
Anton Zadorozhniy
видел параметризованные скрипты на шелле которые дергают bq mk :)
Я вот не могу найти как комментарий добавить средствами SQL ( Все ссылки на апи и рестки
источник

VP

Vitaly Pismarev in Data Engineers
комментарий на колонку
источник

AZ

Anton Zadorozhniy in Data Engineers
col_a INT64 OPTIONS(description="Not sure what to store here")
источник

AZ

Anton Zadorozhniy in Data Engineers
обычно в JSON все-таки, по-моему у них create table можно только через веб-консоль толкнуть
источник

AZ

Anton Zadorozhniy in Data Engineers
а с JSON можно через bq
источник

A

Alex in Data Engineers
No Name
А почему нет? Где узкое место?
Ну пока из того что видел к ейрфлоу много вопросов:

1. Узи позволяет работать с собой чисто по ресту, эйрфлоу для скедулинша приложения с пользовательской машины требует доступ в базу. Рест с год назад был в процессе. Давать доступ на запись в базу 100+ человекам как-то стрёмно, а держать вагон мелких эйрфлоу оверхед по менеджменту

2. Оози сам умеет в локализацию, эйрфлоу нет, ожидается что код на воркерах уже есть. Если для какого кубика это норм, то для хадупа это опа (я описывал как у нас в одном хадуп кластере вагон разных спарков живёт)

3. Скедулер у эйрфлоу в единственном экземпляре, то есть на большом количестве джобов и шагов становится узким местом, так как требует регулярного пересчёта всех шагов. У узи только spawn процесса базового, дальше он сам уже разбирает и запускает шаги по форкфлоу

Про скедулер можете почитать ещё тут, мы их систему пытаемся внедрять, так что общаемся периодически и про "большие" эйрфлоу наслышаны

https://medium.com/databand-ai/improving-performance-of-apache-airflow-scheduler-507f4cb6462a
источник

A

Alex in Data Engineers
То есть небольшие инсталляции в кубике ОК

Как замена оозие в хадупе на норм объёмах точно нет
источник

A

Alex in Data Engineers
На вопрос:
Как 100 датасатанистов запустить в 1 эйрфлоу

мне в канале эйрфлоу посоветовали нарезать на каждых 10-15 сатанистов по отдельному эйрфлоу инстансу :) я сказал "спасибо"
источник

AZ

Anton Zadorozhniy in Data Engineers
зачем вообще сатанистам в эйрфлоу?
источник