Телеграмм чат группы hadoopusers страница 3759

скажем так, если у вас сложный профиль нагрузки (много разных классов потребителей данных, с разными требованиями), то в итоге мы подешевле BQ/Snowflake/Redshift, иногда в разы 😊

источник

21:24пожаловаться #6

ИК

Иван Калининский... in Data Engineers

Так мне и не надо такого)) По уму, спарк должен бы начать делать HashedRelationBroadcastMode только когда это потребуется, и рассылать только на те экзекуторы, которые запрашивают

источник

21:27пожаловаться #7

ИК

Иван Калининский... in Data Engineers

Да, это, конечно, пришлось освоить. Для особо крупных таблиц сделан отдельный план, файл-прунинг, MergeCommand с zipPartitions по отсортированным итераторам, и свой Writer, чтобы еще кое-что считал дополнительно

источник

21:29пожаловаться #8

ИК

Иван Калининский... in Data Engineers

А это вот попытка довести до ума ветку для «простых» таблиц

источник

21:30пожаловаться #9

2021 June 11

ПБ

Повелитель Бури... in Data Engineers

источник

01:31пожаловаться #10

Combot in Data Engineers

ibtoey mnapt has been banned! Reason: CAS ban.

источник

12:09пожаловаться #11

АК

Алекс Крам in Data Engineers

Всем привет
Столкнулся на работе с необходимостью создания документации для etl
Было бы интересно посмотреть вообще любые примеры или шаблоны для этого
Больше всего интересует на данный момент примеры документации маппинга данных между источниками и dwh и документы регламентирующие, что происходит с таблицами при вставке, апдейте и удаление записей

источник

14:53пожаловаться #12

Nikita Bakanchev in Data Engineers

кажется без генерации из кода дока обычно быстро устаревает, у dbt есть из коробки генерация https://docs.getdbt.com/docs/building-a-dbt-project/documentation

Возможно, я не прав

Getdbt

Documentation | docs.getdbt.com

Related documentation

источник

14:56пожаловаться #13

АК

Алекс Крам in Data Engineers

ну вот прям сейчас есть большая проблема, что только я знаю информацию по нескольким источникам, в каждом из которых по 300-400 таблиц
и мне нужно всей команде рассказать что от туда брать и куда складывать

источник

15:01пожаловаться #14

АК

Алекс Крам in Data Engineers

пробовал как-то это оформить, но не очень продуманная структура пока выходит

источник

15:03пожаловаться #15

ПБ

Повелитель Бури... in Data Engineers

собрать список полей и таблиц не проблема а вот описать их ))

источник

15:03пожаловаться #16

АК

Алекс Крам in Data Engineers

да, это так
много сложностей ещё когда поле заполняется из совершенно разных мест и с очень сложной логикой
Вот и подумал спросить, может умные люди уже сделали более менее продуманный шаблон))

источник

15:06пожаловаться #17

Max Efremov in Data Engineers

У нас в гугл таблицах и вики такое 😅

источник

15:07пожаловаться #18

Nikita Bakanchev in Data Engineers

В бородатые годы когда были модны s2t в виде excel в итоге получалось, что заполнить шаблон в разы сложнее, чем задевелопить. Потом все эти excel подсасывались в метаданные, на которой строились визуализации или зависимости по необходимости

источник

15:08пожаловаться #19

АК

Алекс Крам in Data Engineers

Просто нужен способ передачи знаний в понятном виде, а пока выходит только понятный мне док)

источник

15:20пожаловаться #20