Size: a a a

2021 March 04

GP

Grigory Pomadchin in Data Engineers
Anton Zadorozhniy
зачем вообще сатанистам в эйрфлоу?
скедулят куски препроцессинга например
а потом для экспериментов резльутаты используют
источник

GP

Grigory Pomadchin in Data Engineers
и эксперименты могут быть и локальные и ремоут но сокращает время им в любом случае
источник

GP

Grigory Pomadchin in Data Engineers
разумеется не каждому дсу такое надо)
источник

AZ

Anton Zadorozhniy in Data Engineers
немножко shadow IT пахнет
источник

AZ

Anton Zadorozhniy in Data Engineers
онкол на случай падения пайплайнов они тоже?
источник

NN

No Name in Data Engineers
Alex
Ну пока из того что видел к ейрфлоу много вопросов:

1. Узи позволяет работать с собой чисто по ресту, эйрфлоу для скедулинша приложения с пользовательской машины требует доступ в базу. Рест с год назад был в процессе. Давать доступ на запись в базу 100+ человекам как-то стрёмно, а держать вагон мелких эйрфлоу оверхед по менеджменту

2. Оози сам умеет в локализацию, эйрфлоу нет, ожидается что код на воркерах уже есть. Если для какого кубика это норм, то для хадупа это опа (я описывал как у нас в одном хадуп кластере вагон разных спарков живёт)

3. Скедулер у эйрфлоу в единственном экземпляре, то есть на большом количестве джобов и шагов становится узким местом, так как требует регулярного пересчёта всех шагов. У узи только spawn процесса базового, дальше он сам уже разбирает и запускает шаги по форкфлоу

Про скедулер можете почитать ещё тут, мы их систему пытаемся внедрять, так что общаемся периодически и про "большие" эйрфлоу наслышаны

https://medium.com/databand-ai/improving-performance-of-apache-airflow-scheduler-507f4cb6462a
Про п.3 могу сходу сказать, что пофикшено вроде как в airflow 2.0, но я пока не успел протестить.
источник

GP

Grigory Pomadchin in Data Engineers
Anton Zadorozhniy
онкол на случай падения пайплайнов они тоже?
падение таких пайплайнов на дсах / челах которые помогают дсам (дс / де такие)
это не прод который ‘прод’ у вас
источник

GP

Grigory Pomadchin in Data Engineers
это для эксперментальной работы (я свои примеры привожу)
источник

AZ

Anton Zadorozhniy in Data Engineers
я понимаю зачем это ML инженерам, но чтобы сатанисты ходили сами это интересно
источник

GP

Grigory Pomadchin in Data Engineers
а у меня дсы которые и мл и не мл (яб всех звал одинаково)
источник

GP

Grigory Pomadchin in Data Engineers
источник

GP

Grigory Pomadchin in Data Engineers
Anton Zadorozhniy
немножко shadow IT пахнет
не shadow it, но независомсть некоторая - да; в этом и соль
источник

A

Alex in Data Engineers
Anton Zadorozhniy
я понимаю зачем это ML инженерам, но чтобы сатанисты ходили сами это интересно
У них есть сколько то джобов, как им заскедулить их выполнение?
источник

AZ

Anton Zadorozhniy in Data Engineers
Grigory Pomadchin
это для эксперментальной работы (я свои примеры привожу)
интересно посмотреть как потом эти эксперименты, если удачные, становятся продакшеном; они уходят на реинжиниринг настоящим инженерам?
источник

A

Alex in Data Engineers
Не всегда :)
источник

A

Alex in Data Engineers
Ты думаешь у меня не шевелятся волосы когда я смотрю как заскедуленные нотебуки готовят данные и тренят модельки?
источник

A

Alex in Data Engineers
Move fast
источник

A

Alex in Data Engineers
No Name
Про п.3 могу сходу сказать, что пофикшено вроде как в airflow 2.0, но я пока не успел протестить.
Вот, пофикшено относительно недавно, а работать надо было ещё вчера ;)
источник

AZ

Anton Zadorozhniy in Data Engineers
Alex
Ты думаешь у меня не шевелятся волосы когда я смотрю как заскедуленные нотебуки готовят данные и тренят модельки?
вот у меня тоже шевелились, и я запилил целый MLOps продукт на тему :)
источник

GP

Grigory Pomadchin in Data Engineers
Anton Zadorozhniy
интересно посмотреть как потом эти эксперименты, если удачные, становятся продакшеном; они уходят на реинжиниринг настоящим инженерам?
да когда как
смотрю сейчас на кубфлоу очень удобно как разработчику использовать
источник