Size: a a a

2020 February 15

АЖ

Андрей Жуков in Data Engineers
Nikolay
Что за Vault ? Под этим словом скорее всего скрывается что-то все знакомое. Что это ?
data vault
источник

АЖ

Андрей Жуков in Data Engineers
Nikolay
Любой ). Вот у нас есть spark + КХ. Как из них Vault делают ?
это ж модель данных, а не технология
источник

AZ

Anton Zadorozhniy in Data Engineers
Mitya Volodin
В общем, если я правильно понял - наиболее спорным показался тезис про устаревание Инмона и Кимбэлла.

Сразу оговорюсь, что я скорей всего перегнул. Но объясню почему я так написал.

Эти два товарища начали свою эвангелистическую войну ещё в далёком 92 году. Технологии, объёмы данных, и подходы к построению хранилищ в то время были совсем другие. Хадупа не существовало, про Data Hub и Data Lake ещё никто и не помышлял.

Время шло, оба - и Инмон, и Кимбэлл, продолжали адаптировать свою методологию под меняющиеся реалии, выпуская новые труды.

"Войной" их деятельность я называю, потому что они топили за разные подходы. Кимбэлл со своим Dimensional Modeling за простоту, скорость разработки, да и в целом скорость работы отчётности (звездочки). Инмон - за построение "устойчивого" к изменению ядра с низким redundancy, который не будет меняться при изменении бизнеса.

И они в публичном пространстве реально спорили (ну и обоих - компании в области консалтинга по построение хранилищ).

Обе методологии в целом живые - ими можно пользоваться сегодня. И более того - я сам пользуюсь. Поэтому их полезно знать и понимать детали.

Но устаревшими я их назвал ровно по одной причине - сегодня я не знаю ни одного проекта (и не могу представть) построения хранилища на какой-нибудь из них. Данных стало больше, ровно как и вызовов, которые ни Кимбэлл, ни Инмон не решают. Технологии стали другие - теперь важно при проектировании ещё и учитывать особенность системы. Причём не просто MPP/SMP, но и конкретно - в Teradata, в Vertica, в Greenplum будут разные архитектуры, учитывающие технологические ограничения на обработку данных.

Ну вот а теперь моё ничем совсем не подкреплённое видение: мне кажется, что Data Vault чисто по книге Lindstedt'a построить быстрее и проще, чем Inmonовский EDWH. И Кимбэлл - это классное решение для маленьких компаний, где не слишком много сущностей. И не для MPP.

Как-то так.
Я кстати отчасти соглашусь что Инмон становится все менее релевантным, интеграция данных упрощается с консолидацией предметных областей в единых платформах, переходом на событийные модели источников, и преобладанием машинных данных в источниках, где нет апдейтов и удалений.. в этом смысле преобладающей архитектурой вокруг становится даталейк с пачкой независимых витрин
источник

АЖ

Андрей Жуков in Data Engineers
Anton Zadorozhniy
Я кстати отчасти соглашусь что Инмон становится все менее релевантным, интеграция данных упрощается с консолидацией предметных областей в единых платформах, переходом на событийные модели источников, и преобладанием машинных данных в источниках, где нет апдейтов и удалений.. в этом смысле преобладающей архитектурой вокруг становится даталейк с пачкой независимых витрин
Мне архитекторы говорят,  что дата лейк уже не модно, пора в дата меш.
источник

AZ

Anton Zadorozhniy in Data Engineers
Андрей Жуков
Мне архитекторы говорят,  что дата лейк уже не модно, пора в дата меш.
В датамеше даталейки все равно нужны, это история про декомпозицию (там даталейк или хранилище это сайдкар)
источник

АЖ

Андрей Жуков in Data Engineers
Anton Zadorozhniy
В датамеше даталейки все равно нужны, это история про декомпозицию (там даталейк или хранилище это сайдкар)
Не,  там же хитро формулируют - типа концепцию монохранилища надо скинуть с парохода современности
источник

АЖ

Андрей Жуков in Data Engineers
Децентрализованные хранилища, DDW
источник

AZ

Anton Zadorozhniy in Data Engineers
Андрей Жуков
Не,  там же хитро формулируют - типа концепцию монохранилища надо скинуть с парохода современности
Там речь скорее про децентрализацию задач интеграции/историзации данных, каждый домен пусть сам это решает, но внутри домена вполне допустимы старорежимные лейки, хранилища и витрины
источник

АЖ

Андрей Жуков in Data Engineers
Anton Zadorozhniy
Там речь скорее про децентрализацию задач интеграции/историзации данных, каждый домен пусть сам это решает, но внутри домена вполне допустимы старорежимные лейки, хранилища и витрины
Так это и прикольно,  от демократизации данных идем обратно в княжества доменов
источник

AZ

Anton Zadorozhniy in Data Engineers
Андрей Жуков
Так это и прикольно,  от демократизации данных идем обратно в княжества доменов
Это ортогональные вопросы, демократизация данных не связана с интерпретацией данных; тут скорее очередной посыл «за все хорошее против всего плохого», просто монетизирующий архитектурную и маркетинговую популярность микросервисов и сервис мэш
источник

AZ

Anton Zadorozhniy in Data Engineers
(По моему опыту в компаниях с очень хорошей культурой данных интеграция именно так и устроена, каждый домен этим сам занимается,а их результат это по сути дата-контракт на уровне корпорации)
источник

АЖ

Андрей Жуков in Data Engineers
С концепцией-то проблем нет,  я боюсь новой итерации войны хранилищ :)
источник

АЖ

Андрей Жуков in Data Engineers
Anton Zadorozhniy
(По моему опыту в компаниях с очень хорошей культурой данных интеграция именно так и устроена, каждый домен этим сам занимается,а их результат это по сути дата-контракт на уровне корпорации)
Ну вот да,  это идеальный случай
источник

AZ

Anton Zadorozhniy in Data Engineers
Чего боятся ее, этож наш хлеб)
источник

АЖ

Андрей Жуков in Data Engineers
Anton Zadorozhniy
Чего боятся ее, этож наш хлеб)
Не,  мой хлеб хранилища и конвейеры пилить, а не выбивать коннекты из соседней команды :)
источник

AZ

Anton Zadorozhniy in Data Engineers
Просто если у руководства есть понимание и воля навязать институт ownership на уровне доменов, то они скорее всего это уже сделали, а если они (по каким-то причинам) не могут этого построить, то новое имя для концепции владения доменами врядли поможет)
источник

С

Сюткин in Data Engineers
Андрей Жуков
Мне архитекторы говорят,  что дата лейк уже не модно, пора в дата меш.
Бросаем все наработки, начинаем с чистого листа и идём в датамэш
источник

АЖ

Андрей Жуков in Data Engineers
Сюткин
Бросаем все наработки, начинаем с чистого листа и идём в датамэш
Agile-архитектура!
источник

С

Сюткин in Data Engineers
Андрей Жуков
Agile-архитектура!
Недоделать и начать сначала 🤣
источник

С

Сюткин in Data Engineers
Я надеюсь у вас там самолёты так не летают?)
источник