Size: a a a

2021 March 04

VP

Vitaly Pismarev in Data Engineers
burzum
DBT?
На первый взгляд выглядит оверфичей для хранения ddl. Поизучаю, спс за наводку. Может поможет попутно другие задачки решить
источник

S

Serg Slipushenko in Data Engineers
Grigory Pomadchin
да когда как
смотрю сейчас на кубфлоу очень удобно как разработчику использовать
Пока еще средненько... Но после того как их завезли в гуглОблако стало юзабельно
источник
2021 March 05

ИК

Иван Калининский... in Data Engineers
Alex
Ну пока из того что видел к ейрфлоу много вопросов:

1. Узи позволяет работать с собой чисто по ресту, эйрфлоу для скедулинша приложения с пользовательской машины требует доступ в базу. Рест с год назад был в процессе. Давать доступ на запись в базу 100+ человекам как-то стрёмно, а держать вагон мелких эйрфлоу оверхед по менеджменту

2. Оози сам умеет в локализацию, эйрфлоу нет, ожидается что код на воркерах уже есть. Если для какого кубика это норм, то для хадупа это опа (я описывал как у нас в одном хадуп кластере вагон разных спарков живёт)

3. Скедулер у эйрфлоу в единственном экземпляре, то есть на большом количестве джобов и шагов становится узким местом, так как требует регулярного пересчёта всех шагов. У узи только spawn процесса базового, дальше он сам уже разбирает и запускает шаги по форкфлоу

Про скедулер можете почитать ещё тут, мы их систему пытаемся внедрять, так что общаемся периодически и про "большие" эйрфлоу наслышаны

https://medium.com/databand-ai/improving-performance-of-apache-airflow-scheduler-507f4cb6462a
Хочу поинтересоваться, oozie может в процессе получать новые джобы и не создавать для них дополнительные инстансы приложений в YARN? Можно это решить через sub-workflow, fork-join или bundle (бандл вряд ли, но вдруг)? Или это как раз эирфлоу умеет?

Или все ваши 4 тыщи джобов запускают Oozie workflow, сколько же на это уходит памяти?
источник

P

Pavel in Data Engineers
Alex
Ну пока из того что видел к ейрфлоу много вопросов:

1. Узи позволяет работать с собой чисто по ресту, эйрфлоу для скедулинша приложения с пользовательской машины требует доступ в базу. Рест с год назад был в процессе. Давать доступ на запись в базу 100+ человекам как-то стрёмно, а держать вагон мелких эйрфлоу оверхед по менеджменту

2. Оози сам умеет в локализацию, эйрфлоу нет, ожидается что код на воркерах уже есть. Если для какого кубика это норм, то для хадупа это опа (я описывал как у нас в одном хадуп кластере вагон разных спарков живёт)

3. Скедулер у эйрфлоу в единственном экземпляре, то есть на большом количестве джобов и шагов становится узким местом, так как требует регулярного пересчёта всех шагов. У узи только spawn процесса базового, дальше он сам уже разбирает и запускает шаги по форкфлоу

Про скедулер можете почитать ещё тут, мы их систему пытаемся внедрять, так что общаемся периодически и про "большие" эйрфлоу наслышаны

https://medium.com/databand-ai/improving-performance-of-apache-airflow-scheduler-507f4cb6462a
А узи умеет работать с зависимыми тасками? Например, есть три таски А В С, С зависит от первых двух, которые параллельно идут.
источник

V

Vol in Data Engineers
Pavel
А узи умеет работать с зависимыми тасками? Например, есть три таски А В С, С зависит от первых двух, которые параллельно идут.
Да, это будет форк внутри одного вокфлоу
Таски А и В запускаются вместе
источник

P

Pavel in Data Engineers
Vol
Да, это будет форк внутри одного вокфлоу
Таски А и В запускаются вместе
Ок. А если таска Б, например, находится совсем в другом workflow?
источник

V

Vol in Data Engineers
А и С в одном?
Не уверен как


Если А и С разные воркфлоу тогда можно, oozie координатор поддерживает входные зависимости
источник

P

Pavel in Data Engineers
Vol
А и С в одном?
Не уверен как


Если А и С разные воркфлоу тогда можно, oozie координатор поддерживает входные зависимости
Ну, да. К примеру, добавляется еще один новый датасет, от которого зависит С
источник

T

T in Data Engineers
Pavel
А узи умеет работать с зависимыми тасками? Например, есть три таски А В С, С зависит от первых двух, которые параллельно идут.
Можно через флаги зависимости реализовать например или один большой wf сделать
источник

V

Vol in Data Engineers
Можно зависить от нескольких датасетов
У нас через флаги делают
источник

P

Pavel in Data Engineers
Vol
Можно зависить от нескольких датасетов
У нас через флаги делают
Ладно)) каждому свое))
источник

P

Pavel in Data Engineers
Посмотрите просто на code frequency в гите 🤓
источник

ПБ

Повелитель Бури... in Data Engineers
Доброе утро коллеги! Скажите пожалуйста бест практис по масштабированию кластера сейчас есть 10 виртуалок по 10тб ,4рам, 2ядра для hdfs

Хочется в облаке поднять временные машинки и выделять спарк ресурсы ,потом гасить. Кто - то сталкивался?
источник

A

Alex in Data Engineers
А не проще в облаке сразу в их блоб сторейдж запихнуть? С таким то hdfs
источник

A

Alex in Data Engineers
Если же машинки локально, а кластер в облаке то вопрос за сколько вы данные прокачаете в облако

У меня есть подозрение что это будет самым узким местом
источник

e

er@essbase.ru in Data Engineers
Народ, для hive on spark какое меньшее из зол - фильтры в where на 2000 строк или такой же *подарок* в виде case в select
источник

CM

Corvin Meyer auf der... in Data Engineers
Ahh sure
источник

R

Roman in Data Engineers
er@essbase.ru
Народ, для hive on spark какое меньшее из зол - фильтры в where на 2000 строк или такой же *подарок* в виде case в select
hive on spark - это вообще не очень хороший путь. Почему решили его выбрать, а не hive on tez?
источник

e

er@essbase.ru in Data Engineers
Меня не спрашивали 😔
источник

R

Roman in Data Engineers
er@essbase.ru
Народ, для hive on spark какое меньшее из зол - фильтры в where на 2000 строк или такой же *подарок* в виде case в select
И не совсем понятен вопрос, если честно)
источник