Телеграмм чат группы hadoopusers страница 3387

Кто-нибудь может рассказать как в pyspark происходит магия исполнения питон кода? Мой коллега думает, что на каждом ноде выполняется питон интерпретатор и настаивает на

def main():
blah

if __name__ == "__main__":
main()

в общем случае да

воркер запускает питон интерпретатор и общается с ним через сокеты
поэтому питон udf такие медленные

источник

11:29пожаловаться #5

ЕГ

Евгений Глотов... in Data Engineers

Alex

в общем случае да

воркер запускает питон интерпретатор и общается с ним через сокеты
поэтому питон udf такие медленные

Скорость зависит от соотношения вычислений к данным. Чаще всего питон юдфки используются для таких задач, которые считаются овер9000 секунд, поэтому перегнать данные в питон и потом обратно в джаву не сильно большая проблема

источник

11:31пожаловаться #6

ЕГ

Евгений Глотов... in Data Engineers

Если регулярку по строковой колонке гонять через питон, то да, неэффективно😆

источник

11:33пожаловаться #7

AS

Andrey Smirnov in Data Engineers

K S

Кто-нибудь может рассказать как в pyspark происходит магия исполнения питон кода? Мой коллега думает, что на каждом ноде выполняется питон интерпретатор и настаивает на

def main():
blah

if __name__ == "__main__":
main()

я тут недавно давал ссылку на выступление Холден, она в красках все описала (когда обсуждали использование arrow в спарк)

источник

11:33пожаловаться #8

A

Alex in Data Engineers

Евгений Глотов

Скорость зависит от соотношения вычислений к данным. Чаще всего питон юдфки используются для таких задач, которые считаются овер9000 секунд, поэтому перегнать данные в питон и потом обратно в джаву не сильно большая проблема

именно поэтому после перехода на датафреймы их гонять стало быстрее
а с эрроу ещё интересней, просто датафрейм сверху натягивают 😉

но тут действительно всё зависит от соотношения и что за юдф и код гоняется

источник

11:34пожаловаться #9

ЕГ

Евгений Глотов... in Data Engineers

Эрроу в принципе топчик, в 2 раза позволил ускорить скоринговые джобы

источник

11:34пожаловаться #10

VP

Vitaly Pismarev in Data Engineers

Anton Zadorozhniy

В смысле ArgoCD? Это вообще про другое

https://argoproj.github.io/projects/argo/

но выше уже написали

argoproj.github.io

Workflows & Pipelines | Argo

Container native workflow engine for Kubernetes supporting both DAG and step based workflows.

источник

11:46пожаловаться #11

VP

Vitaly Pismarev in Data Engineers

Евгений Глотов

Сколько людей, столько и фреймворков для любой задачи)

Ну фреймворк же не выбирается и не пишется просто так ) Есть ariflow который, кмк, лучше и проще заходит DE и умеет всё тоже что и Argo. Хочу понять в каких случаях Argo может быть более хорошим выбором по сравнению с Airflow, поэтому и вопрошаю у кого такой опыт выбора был )

источник

11:55пожаловаться #12

VP

Vitaly Pismarev in Data Engineers

T

Мне кажется речь про https://argoproj.github.io/argo-workflows/examples/

Точна! )

источник

11:59пожаловаться #13

S

Serg Slipushenko in Data Engineers

Anton Zadorozhniy

Честно говоря первый раз слышу чтобы это для дата пайплайнов использовали, мы им катим наши прикладушки на кубер, просто как CD

Используют, еще и как. Кубфлоу на нем пайплайны запускает

источник

12:00пожаловаться #14

VP

Vitaly Pismarev in Data Engineers

Serg Slipushenko

Используют, еще и как. Кубфлоу на нем пайплайны запускает

я думаю, речь про то что сам Argo CD не есть замена оркестратору джобов. Он под капотом кубфлоу и скорее всего Worlflow, но последние позиционируют себя как отдельные продукты...

источник

12:15пожаловаться #15

S

Serg Slipushenko in Data Engineers

Агро вполне себе ок как оркестратор пайплайнов, если все стейджи лежат в отдельных контейнерах. Правда, юайчика к нему красивого не хватает

источник

12:23пожаловаться #16

AZ

Anton Zadorozhniy in Data Engineers

Serg Slipushenko

Агро вполне себе ок как оркестратор пайплайнов, если все стейджи лежат в отдельных контейнерах. Правда, юайчика к нему красивого не хватает

ну для CD там нормальный UI вполне

источник

12:40пожаловаться #17

S

Serg Slipushenko in Data Engineers

Ага, но вот что бы поменять айрфлоу на агро - юайчика не хватает. Может кто нибудь запилит айрфлоу-лайк сервис с агро под капотом

источник

12:43пожаловаться #18

VP

Vitaly Pismarev in Data Engineers

Serg Slipushenko

Ага, но вот что бы поменять айрфлоу на агро - юайчика не хватает. Может кто нибудь запилит айрфлоу-лайк сервис с агро под капотом

Может субъективно, но для DE задач собирать контейнер для каждой стадии так себе... Часто проще весь даг в питоне описать.

источник

12:51пожаловаться #19

AZ

Anton Zadorozhniy in Data Engineers

если приклад катить в кубер, все в хелме или кастомайзе (что еще проще) то Argo CD это просто сказка, gitops в полный рост

источник

12:51пожаловаться #20