Size: a a a

2021 June 10

R

Ruslan in Data Engineers
На impala можно витрины
источник

AZ

Anton Zadorozhniy in Data Engineers
кликхаус только-только SQL 2003 догоняет, ждем дальше
источник

MS

Mikhail Sitnikov in Data Engineers
Ух ты здорово
Какие результаты у вас?)
Ну, порядок, просто интересно
источник

AZ

Anton Zadorozhniy in Data Engineers
зависит от конкретной железки, заказчика :)
источник

MS

Mikhail Sitnikov in Data Engineers
Ну в смысле throughput/cost интересует скорее
источник

AZ

Anton Zadorozhniy in Data Engineers
скажем так, если у вас сложный профиль нагрузки (много разных классов потребителей данных, с разными требованиями), то в итоге мы подешевле BQ/Snowflake/Redshift, иногда в разы 😊
источник

ИК

Иван Калининский... in Data Engineers
Так мне и не надо такого)) По уму, спарк должен бы начать делать HashedRelationBroadcastMode только когда это потребуется, и рассылать только на те экзекуторы, которые запрашивают
источник

ИК

Иван Калининский... in Data Engineers
Да, это, конечно, пришлось освоить. Для особо крупных таблиц сделан отдельный план, файл-прунинг, MergeCommand с zipPartitions по отсортированным итераторам, и свой Writer, чтобы еще кое-что считал дополнительно
источник

ИК

Иван Калининский... in Data Engineers
А это вот попытка довести до ума ветку для «простых» таблиц
источник
2021 June 11

ПБ

Повелитель Бури... in Data Engineers
источник

C

Combot in Data Engineers
ibtoey mnapt has been banned! Reason: CAS ban.
источник

АК

Алекс Крам in Data Engineers
Всем привет
Столкнулся на работе с необходимостью создания документации для etl
Было бы интересно посмотреть вообще любые примеры или шаблоны для этого
Больше всего интересует на данный момент примеры документации маппинга данных между источниками и dwh и документы регламентирующие, что происходит с таблицами при вставке, апдейте и удаление записей
источник

NB

Nikita Bakanchev in Data Engineers
кажется без генерации из кода дока обычно быстро устаревает, у dbt есть из коробки генерация https://docs.getdbt.com/docs/building-a-dbt-project/documentation

Возможно, я не прав
источник

АК

Алекс Крам in Data Engineers
ну вот прям сейчас есть большая проблема, что только я знаю информацию по нескольким источникам, в каждом из которых по 300-400 таблиц
и мне нужно всей команде рассказать что от туда брать и куда складывать
источник

АК

Алекс Крам in Data Engineers
пробовал как-то это оформить, но не очень продуманная структура пока выходит
источник

ПБ

Повелитель Бури... in Data Engineers
собрать список полей и таблиц не проблема а вот описать их ))
источник

АК

Алекс Крам in Data Engineers
да, это так
много сложностей ещё когда поле заполняется из совершенно разных мест и с очень сложной логикой
Вот и подумал спросить, может умные люди уже сделали более менее продуманный шаблон))
источник

ME

Max Efremov in Data Engineers
У нас в гугл таблицах и вики такое 😅
источник

NB

Nikita Bakanchev in Data Engineers
В бородатые годы когда были модны s2t в виде excel в итоге получалось, что заполнить шаблон в разы сложнее, чем задевелопить. Потом все эти  excel подсасывались в метаданные, на которой строились визуализации или зависимости по необходимости
источник

АК

Алекс Крам in Data Engineers
Просто нужен способ передачи знаний в понятном виде, а пока выходит только понятный мне док)
источник