Size: a a a

2021 September 27

VI

Vladimir Ilyushkin in Moscow Spark
С csv таких проблем не было
источник

N

Nikita Blagodarnyy in Moscow Spark
Ну создай пустую с такой же структурой, партиции и потом подсунь файлы, которые скопировал.
источник

VI

Vladimir Ilyushkin in Moscow Spark
Как оказалось это location, спасибо.
источник

TL

Tim Lyahor in Moscow Spark
Всем добрый вечер.
Подскажите пожалуйста какие-нибудь статьи\bestpractice\советы по архитектуре для scala spark проекта (Databricks в Azure).
В web всё понятно (MVC и тд) - есть от чего оттолкнуться. Кроме того фреймворки типа Spring предлагают определенную базовую структуру проекта.
Хотелось бы почитать\посмотреть как люди делают для ETL.
Используют ли что то похожее на dependency injection? Или создают объекты руками\через фабрики самописные?
Сколько слоёв используют обычно? (reader, transformation, writer и тд)
Используются ли конфиги или переменные среды?
источник
2021 September 28

SS

Sergey Sheremeta in Moscow Spark
внимательно слежу за активным обсуждением вопроса!
тоже очень интересно как правильно сделать Spark Scala ETL проект/репозиторий
источник

SS

Sergey Sheremeta in Moscow Spark
в канале "Data Engineers" не спрашивали?
источник

N

Nikita Blagodarnyy in Moscow Spark
file -> new -> project -> BigData -> spark -> задать имя -> finish
источник

ЕГ

Евгений Глотов... in Moscow Spark
Всё руками нужно писать
По идее, 3 стадии никуда не делись, поэтому всё чтение и запись можно вынести отдельно, трансформации отдельно
Конфиги - yes)
источник

SS

Sergey Sheremeta in Moscow Spark
спасибо, дяденька!
а может у вас какой-нибудь темплейт проекта завалялся?
источник

N

Nikita Blagodarnyy in Moscow Spark
ага, в мавене. Архетип называется.
источник

SS

Sergey Sheremeta in Moscow Spark
я вот где-то читал, что Databricks рекомендует разбивать все ETL пайплайны на 3 "металлических" типа: bronze, silver, gold.
только не очень понимаю зачем. когда можно все в одном репозитории хранить
источник

TL

Tim Lyahor in Moscow Spark
Пока нет, продублирую чуть позже.
источник

ЕГ

Евгений Глотов... in Moscow Spark
Кажется пора таки запилить ютуб канал с туториалами и поднимать бабла на рекламе ipo датабрикса😆
источник

NN

No Name in Moscow Spark
Это не типы etl, а слои данных, а-ля raw/dds/cdm/etc..
источник

ИК

Иван Калининский... in Moscow Spark
Если хватает фантазии и времени, можно и больше слоёв насоздавать. И каждый с сегментами))

А в данном случае, они предлагают такую модель DataLake, она может быть как избыточной, так и недостаточной
источник

ИК

Иван Калининский... in Moscow Spark
this
источник

TL

Tim Lyahor in Moscow Spark
Ага, maven архетип, папка main и test. Огонь)
источник

SS

Sergey Sheremeta in Moscow Spark
вот и я о чем! тоже не понимаю зачем создавать отдельные группы ETL-пайплайнов, отвечающих за стыки между слоями.
а лучше сделать один мега-ETL-пайплайн, который будет выгребать данные отовсюду и писать куда надо
источник

ИК

Иван Калининский... in Moscow Spark
GodETL получится. Напоминает известный антипаттерн
источник

NN

No Name in Moscow Spark
В смысле, в один даг все запихнуть, или что?
источник