Size: a a a

2021 March 18

S

Serg Slipushenko in Data Engineers
Vitaly Pismarev
Может субъективно, но для DE задач собирать контейнер для каждой стадии так себе... Часто проще весь даг в питоне описать.
Агро в отличии от айрфлоу умеет добавлять таски в даг налету, на удивление часто нужен такой юзкейс
источник

VP

Vitaly Pismarev in Data Engineers
Serg Slipushenko
Агро в отличии от айрфлоу умеет добавлять таски в даг налету, на удивление часто нужен такой юзкейс
Автогенерация дага имеется ввиду? В airflow это тоже реализуемо же
источник

S

Serg Slipushenko in Data Engineers
Только до запуска дага, в уже бегущий даг добавить таску нельзя
источник

AZ

Anton Zadorozhniy in Data Engineers
я посмотрел на argo workflows, это просто CRD, можно написать оператор которых их порождать будет из метаданных (ну или из приклада просто, через клиент для кубера)
источник

K

KrivdaTheTriewe in Data Engineers
это плохой дизайн  имхо
источник

K

KrivdaTheTriewe in Data Engineers
если в запущенный даг нужно добавлять налету еще таску
источник

S

Serg Slipushenko in Data Engineers
источник

AZ

Anton Zadorozhniy in Data Engineers
сам по себе дизайн argo workflow для дата пайплайнов такое конечно, оверхед дикий
источник

S

Serg Slipushenko in Data Engineers
Дизайн конечно плохой, но есть волшебное слово - НАДА 😀
источник

K

KrivdaTheTriewe in Data Engineers
ну триггрните таску отдельно
источник

K

KrivdaTheTriewe in Data Engineers
мы точно про автоматизацию говорим?
источник

S

Serg Slipushenko in Data Engineers
Например тюнить гиперпараметры модели до целевого значения но не более 5 итераций
источник

S

Serg Slipushenko in Data Engineers
А каждая итерация это кусок пайплайна
источник

AZ

Anton Zadorozhniy in Data Engineers
то есть если у вас пайплайн на чисто SQL - эта штука будет контейнер для каждого шага запускать, никакого реюза даже соединения
источник

S

Serg Slipushenko in Data Engineers
У нас пайплайн - чистая ДС лапша)
источник

AZ

Anton Zadorozhniy in Data Engineers
Serg Slipushenko
Например тюнить гиперпараметры модели до целевого значения но не более 5 итераций
так это шаг один, у него параметры - число итераций, цели по метрикам, зачем цикл в пайплайн разворачивать
источник

S

Serg Slipushenko in Data Engineers
Технически - это несколько степов в пайплайне. Лепить их в один таск - не эффективно с точки зрения ресурсов
источник

AZ

Anton Zadorozhniy in Data Engineers
Serg Slipushenko
Технически - это несколько степов в пайплайне. Лепить их в один таск - не эффективно с точки зрения ресурсов
Ну это как написать,  возможно если вы снапшотите между итерациями и можете использовать снапшоты при сбое то имеет смысл выделять их как отдельные шаги, но я все равно бы генерировал статический граф и пропускал лишние итерации если что, чем узел графа который взрывается разными подграфами в зависимости от данных; как уже отметили это антипаттерн
источник

S

Serg Slipushenko in Data Engineers
можно конечно развернуть цикл с ограниченым числом шагов и скипать лишние, но это звучит как костыль и айрфлоу даг при этом выглядит как костыль)
источник

OI

Oleg Ilinsky in Data Engineers
Привет!
А есть вариант спарковые jdbc запросы к постгресу проксировать через какой-нибудь хост, чтобы не ходить напрямую с экзекуторов?
источник