Size: a a a

2020 February 15

MV

Mitya Volodin in Data Engineers
Vasiliy
А есть ли где нибудь по данному утверждению развернута я аргументация)? Я бы почитал. Не тут, естессна
Я так понимаю про инмона и кимбэла вопрос?
источник

V

Vasiliy in Data Engineers
Угу, по их устареванию
источник

MV

Mitya Volodin in Data Engineers
Могу изложить свою точку зрения  в личку но чуть позже. Наверное я был чересчур категоричен, но в более развёрнутом варианте постараюсь раскрыть свою позицию.
источник

I

I Апрельский in Data Engineers
Зачем в личку -- почему не сюда?)
источник

V

Vasiliy in Data Engineers
Ээээ. А тут можно?)  хотя дата инженер это маленький архитектор..
источник

N

Nikolay in Data Engineers
Пишите тут. Что вы по личкам разбегаетесь ). Мы же дружелюбное комьюнити )
источник

AK

Alena Korogodova in Data Engineers
Пишите, всем полезно будет)
источник

SO

Simon Osipov in Data Engineers
Mitya Volodin
Книгу могу пошарить, но всё есть на gen.lib.rus.ec
Спасибо!
источник

MV

Mitya Volodin in Data Engineers
Vasiliy
Ээээ. А тут можно?)  хотя дата инженер это маленький архитектор..
Ну нет )) Связанные конечно вещи, но это как DS спецы считают себя инженерами, а инженеры - саентистами. Всё-таки глубина знаний разная.
источник

MV

Mitya Volodin in Data Engineers
Тут так тут
источник

V

Vasiliy in Data Engineers
Из личного опыта: инженер - тот кто проектирует, и не всегда целиком, узлы. Архитектор, тот кто это строит. И при этом его квалификация проектировщика сравнима с уровнем инженера, а опыт построения как глубже, так и кругозор в целом должен быть шире
источник

V

Vasiliy in Data Engineers
Поправьте, если ошибаюсь
источник

MV

Mitya Volodin in Data Engineers
В общем, если я правильно понял - наиболее спорным показался тезис про устаревание Инмона и Кимбэлла.

Сразу оговорюсь, что я скорей всего перегнул. Но объясню почему я так написал.

Эти два товарища начали свою эвангелистическую войну ещё в далёком 92 году. Технологии, объёмы данных, и подходы к построению хранилищ в то время были совсем другие. Хадупа не существовало, про Data Hub и Data Lake ещё никто и не помышлял.

Время шло, оба - и Инмон, и Кимбэлл, продолжали адаптировать свою методологию под меняющиеся реалии, выпуская новые труды.

"Войной" их деятельность я называю, потому что они топили за разные подходы. Кимбэлл со своим Dimensional Modeling за простоту, скорость разработки, да и в целом скорость работы отчётности (звездочки). Инмон - за построение "устойчивого" к изменению ядра с низким redundancy, который не будет меняться при изменении бизнеса.

И они в публичном пространстве реально спорили (ну и обоих - компании в области консалтинга по построение хранилищ).

Обе методологии в целом живые - ими можно пользоваться сегодня. И более того - я сам пользуюсь. Поэтому их полезно знать и понимать детали.

Но устаревшими я их назвал ровно по одной причине - сегодня я не знаю ни одного проекта (и не могу представть) построения хранилища на какой-нибудь из них. Данных стало больше, ровно как и вызовов, которые ни Кимбэлл, ни Инмон не решают. Технологии стали другие - теперь важно при проектировании ещё и учитывать особенность системы. Причём не просто MPP/SMP, но и конкретно - в Teradata, в Vertica, в Greenplum будут разные архитектуры, учитывающие технологические ограничения на обработку данных.

Ну вот а теперь моё ничем совсем не подкреплённое видение: мне кажется, что Data Vault чисто по книге Lindstedt'a построить быстрее и проще, чем Inmonовский EDWH. И Кимбэлл - это классное решение для маленьких компаний, где не слишком много сущностей. И не для MPP.

Как-то так.
источник

MV

Mitya Volodin in Data Engineers
ПРи этом тот же Anchor - это тоже прикольно. Многие делают типа Anchor (Авито, Делимобиль вон сделал), но на самом деле не Anchor 🙂 Потому что он адаптирован под используемые технологии и больше похож на Data Vault, у которого сателиты в 6й нормальной форме лежат.
источник

MV

Mitya Volodin in Data Engineers
Vasiliy
Из личного опыта: инженер - тот кто проектирует, и не всегда целиком, узлы. Архитектор, тот кто это строит. И при этом его квалификация проектировщика сравнима с уровнем инженера, а опыт построения как глубже, так и кругозор в целом должен быть шире
Я обычно этих товарищей разделяю проще. Инженеру в большинстве случаев не надо погружаться в контекст данных. Т.е. что именно лежит в таблице не так важно. Архитектор данных больше работает именно с контекстом. При этом по навыкам есть обширное пересечение в части реализации DML операций и проектирования физической схемы хранения (особенно когда надо оптимизировать вычисления).
источник

MV

Mitya Volodin in Data Engineers
Всё, пардон, удалюсь. Если кто хочет покидаться в меня помидорами - велкам 🙂 Вечерком приду, буду отмываться
источник

VS

Vladislav 👻 Shishkov in Data Engineers
Mitya Volodin
ПРи этом тот же Anchor - это тоже прикольно. Многие делают типа Anchor (Авито, Делимобиль вон сделал), но на самом деле не Anchor 🙂 Потому что он адаптирован под используемые технологии и больше похож на Data Vault, у которого сателиты в 6й нормальной форме лежат.
Стоит заметить, что тот самый гибрид анхора и дата волта - это тот же гибрид кимбелла и инмона, но в более удобной, с точки зрения бизнеса, модели нормализации сателлитов...
источник

N

Nikolay in Data Engineers
Что за Vault ? Под этим словом скорее всего скрывается что-то все знакомое. Что это ?
источник

C

Crysalis in Data Engineers
Nikolay
Что за Vault ? Под этим словом скорее всего скрывается что-то все знакомое. Что это ?
Hashicorp Vault
Ansible vault
Выбирай
источник

N

Nikolay in Data Engineers
Любой ). Вот у нас есть spark + КХ. Как из них Vault делают ?
источник