Size: a a a

2021 March 18

ЕГ

Евгений Глотов... in Data Engineers
Vitaly Pismarev
Привет

А есть те кто работал с Argo worlflows ? Можете подсказать почему его выбирают а не используют тот же Airflow ?
Сколько людей, столько и фреймворков для любой задачи)
источник

AZ

Anton Zadorozhniy in Data Engineers
Vitaly Pismarev
Привет

А есть те кто работал с Argo worlflows ? Можете подсказать почему его выбирают а не используют тот же Airflow ?
В смысле ArgoCD? Это вообще про другое
источник

T

T in Data Engineers
Anton Zadorozhniy
В смысле ArgoCD? Это вообще про другое
Мне кажется речь про https://argoproj.github.io/argo-workflows/examples/
источник

AZ

Anton Zadorozhniy in Data Engineers
Честно говоря первый раз слышу чтобы это для дата пайплайнов использовали, мы им катим наши прикладушки на кубер, просто как CD
источник

A

Alex in Data Engineers
K S
Кто-нибудь может рассказать как в pyspark происходит магия исполнения питон кода? Мой коллега думает, что на каждом ноде выполняется питон интерпретатор и настаивает на

def main():
   blah

if __name__ == "__main__":
   main()
в общем случае да

воркер запускает питон интерпретатор и общается с ним через сокеты
поэтому питон udf такие медленные
источник

ЕГ

Евгений Глотов... in Data Engineers
Alex
в общем случае да

воркер запускает питон интерпретатор и общается с ним через сокеты
поэтому питон udf такие медленные
Скорость зависит от соотношения вычислений к данным. Чаще всего питон юдфки используются для таких задач, которые считаются овер9000 секунд, поэтому перегнать данные в питон и потом обратно в джаву не сильно большая проблема
источник

ЕГ

Евгений Глотов... in Data Engineers
Если регулярку по строковой колонке гонять через питон, то да, неэффективно😆
источник

AS

Andrey Smirnov in Data Engineers
K S
Кто-нибудь может рассказать как в pyspark происходит магия исполнения питон кода? Мой коллега думает, что на каждом ноде выполняется питон интерпретатор и настаивает на

def main():
   blah

if __name__ == "__main__":
   main()
я тут недавно давал ссылку на выступление Холден, она в красках все описала (когда обсуждали использование arrow в спарк)
источник

A

Alex in Data Engineers
Евгений Глотов
Скорость зависит от соотношения вычислений к данным. Чаще всего питон юдфки используются для таких задач, которые считаются овер9000 секунд, поэтому перегнать данные в питон и потом обратно в джаву не сильно большая проблема
именно поэтому после перехода на датафреймы их гонять стало быстрее
а с эрроу ещё интересней, просто датафрейм сверху натягивают 😉

но тут действительно всё зависит от соотношения и что за юдф и код гоняется
источник

ЕГ

Евгений Глотов... in Data Engineers
Эрроу в принципе топчик, в 2 раза позволил ускорить скоринговые джобы
источник

VP

Vitaly Pismarev in Data Engineers
Anton Zadorozhniy
В смысле ArgoCD? Это вообще про другое
https://argoproj.github.io/projects/argo/

но выше уже написали
источник

VP

Vitaly Pismarev in Data Engineers
Евгений Глотов
Сколько людей, столько и фреймворков для любой задачи)
Ну фреймворк же не выбирается и не пишется просто так )   Есть ariflow который, кмк, лучше и проще заходит DE и умеет всё тоже что и Argo. Хочу понять в каких случаях Argo может быть более хорошим выбором по сравнению с Airflow, поэтому и вопрошаю у кого такой опыт выбора был )
источник

VP

Vitaly Pismarev in Data Engineers
T
Мне кажется речь про https://argoproj.github.io/argo-workflows/examples/
Точна! )
источник

S

Serg Slipushenko in Data Engineers
Anton Zadorozhniy
Честно говоря первый раз слышу чтобы это для дата пайплайнов использовали, мы им катим наши прикладушки на кубер, просто как CD
Используют, еще и как. Кубфлоу на нем пайплайны запускает
источник

VP

Vitaly Pismarev in Data Engineers
Serg Slipushenko
Используют, еще и как. Кубфлоу на нем пайплайны запускает
я думаю, речь про то что сам Argo CD не есть замена оркестратору джобов. Он под капотом кубфлоу и скорее всего Worlflow, но последние позиционируют себя как отдельные продукты...
источник

S

Serg Slipushenko in Data Engineers
Агро вполне себе ок как оркестратор пайплайнов, если все стейджи лежат в отдельных контейнерах. Правда, юайчика к нему красивого не хватает
источник

AZ

Anton Zadorozhniy in Data Engineers
Serg Slipushenko
Агро вполне себе ок как оркестратор пайплайнов, если все стейджи лежат в отдельных контейнерах. Правда, юайчика к нему красивого не хватает
ну для CD там нормальный UI вполне
источник

S

Serg Slipushenko in Data Engineers
Ага, но вот что бы поменять айрфлоу на агро - юайчика не хватает. Может кто нибудь запилит айрфлоу-лайк сервис с агро под капотом
источник

VP

Vitaly Pismarev in Data Engineers
Serg Slipushenko
Ага, но вот что бы поменять айрфлоу на агро - юайчика не хватает. Может кто нибудь запилит айрфлоу-лайк сервис с агро под капотом
Может субъективно, но для DE задач собирать контейнер для каждой стадии так себе... Часто проще весь даг в питоне описать.
источник

AZ

Anton Zadorozhniy in Data Engineers
если приклад катить в кубер, все в хелме или кастомайзе (что еще проще) то Argo CD это просто сказка, gitops в полный рост
источник