Телеграмм чат группы moscowspark страница 813

Всем добрый вечер.
Подскажите пожалуйста какие-нибудь статьи\bestpractice\советы по архитектуре для scala spark проекта (Databricks в Azure).
В web всё понятно (MVC и тд) - есть от чего оттолкнуться. Кроме того фреймворки типа Spring предлагают определенную базовую структуру проекта.
Хотелось бы почитать\посмотреть как люди делают для ETL.
Используют ли что то похожее на dependency injection? Или создают объекты руками\через фабрики самописные?
Сколько слоёв используют обычно? (reader, transformation, writer и тд)
Используются ли конфиги или переменные среды?

источник

19:18пожаловаться #4

2021 September 28

Sergey Sheremeta in Moscow Spark

внимательно слежу за активным обсуждением вопроса!
тоже очень интересно как правильно сделать Spark Scala ETL проект/репозиторий

источник

12:10пожаловаться #5

Sergey Sheremeta in Moscow Spark

в канале "Data Engineers" не спрашивали?

источник

12:11пожаловаться #6

Nikita Blagodarnyy in Moscow Spark

file -> new -> project -> BigData -> spark -> задать имя -> finish

источник

12:20пожаловаться #7

ЕГ

Евгений Глотов... in Moscow Spark

Всё руками нужно писать
По идее, 3 стадии никуда не делись, поэтому всё чтение и запись можно вынести отдельно, трансформации отдельно
Конфиги - yes)

источник

12:21пожаловаться #8

Sergey Sheremeta in Moscow Spark

спасибо, дяденька!
а может у вас какой-нибудь темплейт проекта завалялся?

источник

12:22пожаловаться #9

Nikita Blagodarnyy in Moscow Spark

ага, в мавене. Архетип называется.

источник

12:23пожаловаться #10

Sergey Sheremeta in Moscow Spark

я вот где-то читал, что Databricks рекомендует разбивать все ETL пайплайны на 3 "металлических" типа: bronze, silver, gold.
только не очень понимаю зачем. когда можно все в одном репозитории хранить

источник

12:23пожаловаться #11

Tim Lyahor in Moscow Spark

Пока нет, продублирую чуть позже.

источник

12:29пожаловаться #12

ЕГ

Евгений Глотов... in Moscow Spark

Кажется пора таки запилить ютуб канал с туториалами и поднимать бабла на рекламе ipo датабрикса😆

источник

12:29пожаловаться #13

No Name in Moscow Spark

Это не типы etl, а слои данных, а-ля raw/dds/cdm/etc..

источник

12:32пожаловаться #14

ИК

Иван Калининский... in Moscow Spark

Если хватает фантазии и времени, можно и больше слоёв насоздавать. И каждый с сегментами))

А в данном случае, они предлагают такую модель DataLake, она может быть как избыточной, так и недостаточной

источник

12:32пожаловаться #15

ИК

Иван Калининский... in Moscow Spark

this

источник

12:32пожаловаться #16

Tim Lyahor in Moscow Spark

Ага, maven архетип, папка main и test. Огонь)

источник

12:33пожаловаться #17

Sergey Sheremeta in Moscow Spark

вот и я о чем! тоже не понимаю зачем создавать отдельные группы ETL-пайплайнов, отвечающих за стыки между слоями.
а лучше сделать один мега-ETL-пайплайн, который будет выгребать данные отовсюду и писать куда надо

источник

12:33пожаловаться #18

ИК

Иван Калининский... in Moscow Spark

GodETL получится. Напоминает известный антипаттерн

источник

12:35пожаловаться #19

No Name in Moscow Spark

В смысле, в один даг все запихнуть, или что?

источник

12:35пожаловаться #20