скажем так, если у вас сложный профиль нагрузки (много разных классов потребителей данных, с разными требованиями), то в итоге мы подешевле BQ/Snowflake/Redshift, иногда в разы 😊
Так мне и не надо такого)) По уму, спарк должен бы начать делать HashedRelationBroadcastMode только когда это потребуется, и рассылать только на те экзекуторы, которые запрашивают
Да, это, конечно, пришлось освоить. Для особо крупных таблиц сделан отдельный план, файл-прунинг, MergeCommand с zipPartitions по отсортированным итераторам, и свой Writer, чтобы еще кое-что считал дополнительно
Всем привет Столкнулся на работе с необходимостью создания документации для etl Было бы интересно посмотреть вообще любые примеры или шаблоны для этого Больше всего интересует на данный момент примеры документации маппинга данных между источниками и dwh и документы регламентирующие, что происходит с таблицами при вставке, апдейте и удаление записей
ну вот прям сейчас есть большая проблема, что только я знаю информацию по нескольким источникам, в каждом из которых по 300-400 таблиц и мне нужно всей команде рассказать что от туда брать и куда складывать
да, это так много сложностей ещё когда поле заполняется из совершенно разных мест и с очень сложной логикой Вот и подумал спросить, может умные люди уже сделали более менее продуманный шаблон))
В бородатые годы когда были модны s2t в виде excel в итоге получалось, что заполнить шаблон в разы сложнее, чем задевелопить. Потом все эти excel подсасывались в метаданные, на которой строились визуализации или зависимости по необходимости