Size: a a a

2021 June 30

Б

Борис in Data Engineers
А какие книги по dwh можно почитать? Сейчас читаю "dwh toolkit" Кимбала. Что ещё стоит почитать?
источник

SS

Sergey Sheremeta in Data Engineers
спорная книга - "Data Lake Architecture. Designing the Data Lake and Avoiding the Garbage Dump" / Bill Inmon, но вдруг вам "зайдет"
источник

АБ

Артемий Богданов... in Data Engineers
Кабанчика
источник

D

Dmitry in Data Engineers
+1, по новым архитектурам ничего сравнимого так и не появилось
источник

SS

Sergey Sheremeta in Data Engineers
коллега, а как же "Building a Scalable Data Warehouse with Data Vault 2.0" / Dan Linstedt ?
источник

SS

Sergey Sheremeta in Data Engineers
(срачъ? срачъ!!! СРАЧъ на тему ДатаВольта?)
источник

D

Dmitry in Data Engineers
я не сталкивался с работающим ваултом
источник

D

Dmitry in Data Engineers
не представляю что людей может толкнуть в такое погрузится
источник

SS

Sergey Sheremeta in Data Engineers
аналогично! но очень хочется попробовать... правда всегда по рукам за такое бьют! и историй успеха что-то не слышно
источник

T

T in Data Engineers
Привет чат, а кинте в меня статьями по статам пожалуйста, у меня есть датасет допустим содержащий 3 миллиарда записей за несколько лет. Какой процент из него надо провалидировать что бы получить вероятность в 95% что он правильный, не хочу все 3 миллиарда проверять. Я сделал быстрый тест с выборкой по 1k, 10k, 100k с честным распределением по годам, но подозреваю что 3 миллиардов это очень мало.
источник

e

er@essbase.ru in Data Engineers
YouTube
Евгений Ермаков, Николай Гребенщиков — Highly Normalized Hybrid Model
Общепринятым и проверенным временем подходом к построению DWH является схема «Звезда» или «Снежинка». Такой подход каноничен, фундаментален, вотрфоллен и совсем не отвечает той гибкости, к которой призывает Agile.

Для того, чтобы сделать структуру DWH гибкой, существуют современные подходы к проектированию: Data Vault и Anchor modeling — похожие и разные одновременно. Задавшись вопросом, какую из двух методологий выбрать, Евгений и Николай пришли к неожиданному ответу: выбирать надо не между подходами, выбирать надо лучшее из двух подходов.

В своем докладе спикеры расскажут:

— DV и AM: в чем разница и где точки соприкосновения;
— «гибридный» подход к построению хранилища;
— «фишки» этого подхода, его сильные и слабые стороны;
— примеры кода, как это работает;
— дальнейший вектор развития hNhM.
источник

e

er@essbase.ru in Data Engineers
ну они по ходу сделали еще велосипед аля dbt
источник

SS

Sergey Sheremeta in Data Engineers
спасибо! надо посмотреть
источник

VS

Vladislav 👻 Shishkov... in Data Engineers
а что там такого "ужасного"?
источник

VS

Vladislav 👻 Shishkov... in Data Engineers
волт/анхор очень удобны в плане гибкой разработки или разрабам/аналиткам просто лень думать, как нормализовать данные нормально?
источник

VS

Vladislav 👻 Shishkov... in Data Engineers
вот второе как раз гораздо чаще
источник

VS

Vladislav 👻 Shishkov... in Data Engineers
и да, всегда и везде все делают велосипед, но почему-то никто про это не думает, когда делает 😂
источник

SS

Sergey Sheremeta in Data Engineers
куча сущностей? сначала раскукоживаем серебро/DDS в хабы/сателиты/линки, потом скукоживаем их обратно в почти те же таблицы, что были на серебре/DDS?
источник

D

Dmitry in Data Engineers
там джоин на джоине, джоином погоняет, мне даже на уровне идеи не понятно как такое на бигдата инструментах должно работать
источник

VS

Vladislav 👻 Shishkov... in Data Engineers
легко
источник