Телеграмм чат группы hadoopusers страница 3322

Ну пока из того что видел к ейрфлоу много вопросов:

1. Узи позволяет работать с собой чисто по ресту, эйрфлоу для скедулинша приложения с пользовательской машины требует доступ в базу. Рест с год назад был в процессе. Давать доступ на запись в базу 100+ человекам как-то стрёмно, а держать вагон мелких эйрфлоу оверхед по менеджменту

2. Оози сам умеет в локализацию, эйрфлоу нет, ожидается что код на воркерах уже есть. Если для какого кубика это норм, то для хадупа это опа (я описывал как у нас в одном хадуп кластере вагон разных спарков живёт)

3. Скедулер у эйрфлоу в единственном экземпляре, то есть на большом количестве джобов и шагов становится узким местом, так как требует регулярного пересчёта всех шагов. У узи только spawn процесса базового, дальше он сам уже разбирает и запускает шаги по форкфлоу

Про скедулер можете почитать ещё тут, мы их систему пытаемся внедрять, так что общаемся периодически и про "большие" эйрфлоу наслышаны

https://medium.com/databand-ai/improving-performance-of-apache-airflow-scheduler-507f4cb6462a

Medium

Improving Performance of Apache Airflow Scheduler

Apache Airflow is an open-source tool to create and manage complex workflows. More recently, Airflow has been gaining a lot of traction…

Хочу поинтересоваться, oozie может в процессе получать новые джобы и не создавать для них дополнительные инстансы приложений в YARN? Можно это решить через sub-workflow, fork-join или bundle (бандл вряд ли, но вдруг)? Или это как раз эирфлоу умеет?

Или все ваши 4 тыщи джобов запускают Oozie workflow, сколько же на это уходит памяти?

источник

00:24пожаловаться #3

P

Pavel in Data Engineers

Alex

Ну пока из того что видел к ейрфлоу много вопросов:

1. Узи позволяет работать с собой чисто по ресту, эйрфлоу для скедулинша приложения с пользовательской машины требует доступ в базу. Рест с год назад был в процессе. Давать доступ на запись в базу 100+ человекам как-то стрёмно, а держать вагон мелких эйрфлоу оверхед по менеджменту

2. Оози сам умеет в локализацию, эйрфлоу нет, ожидается что код на воркерах уже есть. Если для какого кубика это норм, то для хадупа это опа (я описывал как у нас в одном хадуп кластере вагон разных спарков живёт)

3. Скедулер у эйрфлоу в единственном экземпляре, то есть на большом количестве джобов и шагов становится узким местом, так как требует регулярного пересчёта всех шагов. У узи только spawn процесса базового, дальше он сам уже разбирает и запускает шаги по форкфлоу

Про скедулер можете почитать ещё тут, мы их систему пытаемся внедрять, так что общаемся периодически и про "большие" эйрфлоу наслышаны

https://medium.com/databand-ai/improving-performance-of-apache-airflow-scheduler-507f4cb6462a

Medium

Improving Performance of Apache Airflow Scheduler

Apache Airflow is an open-source tool to create and manage complex workflows. More recently, Airflow has been gaining a lot of traction…

А узи умеет работать с зависимыми тасками? Например, есть три таски А В С, С зависит от первых двух, которые параллельно идут.

источник

00:28пожаловаться #4

V

Vol in Data Engineers

Pavel

А узи умеет работать с зависимыми тасками? Например, есть три таски А В С, С зависит от первых двух, которые параллельно идут.

Да, это будет форк внутри одного вокфлоу
Таски А и В запускаются вместе

источник

00:38пожаловаться #5

P

Pavel in Data Engineers

Vol

Да, это будет форк внутри одного вокфлоу
Таски А и В запускаются вместе

Ок. А если таска Б, например, находится совсем в другом workflow?

источник

00:40пожаловаться #6

V

Vol in Data Engineers

А и С в одном?
Не уверен как

Если А и С разные воркфлоу тогда можно, oozie координатор поддерживает входные зависимости

источник

00:43пожаловаться #7

P

Pavel in Data Engineers

Vol

А и С в одном?
Не уверен как

Если А и С разные воркфлоу тогда можно, oozie координатор поддерживает входные зависимости

Ну, да. К примеру, добавляется еще один новый датасет, от которого зависит С

источник

00:46пожаловаться #8

T

T in Data Engineers

Pavel

А узи умеет работать с зависимыми тасками? Например, есть три таски А В С, С зависит от первых двух, которые параллельно идут.

Можно через флаги зависимости реализовать например или один большой wf сделать

источник

00:46пожаловаться #9

V

Vol in Data Engineers

Можно зависить от нескольких датасетов
У нас через флаги делают

источник

00:47пожаловаться #10

P

Pavel in Data Engineers

Vol

Можно зависить от нескольких датасетов
У нас через флаги делают

Ладно)) каждому свое))

источник

00:51пожаловаться #11

P

Pavel in Data Engineers

Посмотрите просто на code frequency в гите 🤓

источник

00:52пожаловаться #12

ПБ

Повелитель Бури... in Data Engineers

Доброе утро коллеги! Скажите пожалуйста бест практис по масштабированию кластера сейчас есть 10 виртуалок по 10тб ,4рам, 2ядра для hdfs

Хочется в облаке поднять временные машинки и выделять спарк ресурсы ,потом гасить. Кто - то сталкивался?

источник

08:44пожаловаться #13

A

Alex in Data Engineers

А не проще в облаке сразу в их блоб сторейдж запихнуть? С таким то hdfs

источник

08:47пожаловаться #14

A

Alex in Data Engineers

Если же машинки локально, а кластер в облаке то вопрос за сколько вы данные прокачаете в облако

У меня есть подозрение что это будет самым узким местом

источник

08:49пожаловаться #15

e

er@essbase.ru in Data Engineers

Народ, для hive on spark какое меньшее из зол - фильтры в where на 2000 строк или такой же *подарок* в виде case в select

источник

09:25пожаловаться #16

CM

Corvin Meyer auf der... in Data Engineers

Ahh sure

источник

09:48пожаловаться #17