Всем добрый вечер. Подскажите пожалуйста какие-нибудь статьи\bestpractice\советы по архитектуре для scala spark проекта (Databricks в Azure). В web всё понятно (MVC и тд) - есть от чего оттолкнуться. Кроме того фреймворки типа Spring предлагают определенную базовую структуру проекта. Хотелось бы почитать\посмотреть как люди делают для ETL. Используют ли что то похожее на dependency injection? Или создают объекты руками\через фабрики самописные? Сколько слоёв используют обычно? (reader, transformation, writer и тд) Используются ли конфиги или переменные среды?
я вот где-то читал, что Databricks рекомендует разбивать все ETL пайплайны на 3 "металлических" типа: bronze, silver, gold. только не очень понимаю зачем. когда можно все в одном репозитории хранить
вот и я о чем! тоже не понимаю зачем создавать отдельные группы ETL-пайплайнов, отвечающих за стыки между слоями. а лучше сделать один мега-ETL-пайплайн, который будет выгребать данные отовсюду и писать куда надо