Size: a a a

Архитектура данных

2020 June 09

KO

Konstantin Orzhekhov... in Архитектура данных
Rinat Abdurkhmanov
можете поделиться опытом, как договаривались между разными подразделениями о взаимопонимании в терминах сущностей? чтобы говоря про "Клиента" из CRM, юристы понимали, что это их же "Юрлицо" и "Хозяйствующий субъект" из терминологии закупщиков
а обязательно обобщать в терминах разные типы клиентов.... пусть одни остаются b2b_customers, а другие private_customers...  из моего опыта в телеком, редко пересечения между ними
источник
2020 June 10

Н

Николай in Архитектура данных
Elena Vereschaga
Привет! У автора дошли руки написать )))
Короткий ответ: нет, таблицы сущностям не тождественны
Развернутый: Из контекста все правильно уловили - речь о сущностях. Ключевых. Если и таблицах - то базовых. Т.е. центральных для некой предметной области. Например: Клиент, Договор, Счет, Платеж и т.д.
И вот этих ключевых сущностей в некой отрасли немного.
(это не мое "открытие" - сказал один разумный уважаемый человек - и я с ним внутренне согласна)
А то что таблиц в реалии больше - то ну да - таковы реалии. И это тоже важно - ибо "дьявол скрывается в мелочах"

Всем бобра! :)
Елена, приветствую. вы замечательно пишете.
источник

EV

Elena Vereschaga in Архитектура данных
Николай
Елена, приветствую. вы замечательно пишете.
Спасибо 😊
Привет!
источник

RA

Rinat Abdurkhmanov in Архитектура данных
Konstantin Orzhekhovsky
а обязательно обобщать в терминах разные типы клиентов.... пусть одни остаются b2b_customers, а другие private_customers...  из моего опыта в телеком, редко пересечения между ними
B2b и b2c действительно разные и не имеет смысла их в одну сущность сводить. Но у нас только b2b и клиенты из crm, это те же организации, что и из erp
источник

A

Alexander in Архитектура данных
Всем привет! Вопрос про Business Data Vault. Извините, что очень длинно. Пользователи витрин будут оперировать бизнес-ключами, которые в системе-источнике размазаны по нескольким сущностям (причем по нетривиальным правилам), а теперь требуется все это собрать в одной витрине. И у нас две противоположные точки зрения сформировались:
1.  Строим в Raw DV модель, которая максимально отвечает требованиям репортинга: создаем правильные с точки зрения репортинга  хабы (один хаб на один бизнес-ключ, пусть ключи и размазаны в системе источнике по разным сущностям) и заморачиваемся с трансформацией данных при перекладывании данных из stage в Raw. А для построения Business DV расширяем модель PIT, Bridge и т.п. суррогатами для перформанса.

2.  В Raw DV создаем модель максимально похожую на операционную модель данных (получается сырое хранилище всего, что только можно, но в модели DV. На то он и "Raw"). А потом по данным из Raw DV строим отдельную модель (новые хабы, линки, саттелиты) в Business DV. Получается data vault над data vault с какими-то суррогатными хабами и выглядит это несколько дико. И как переливать данные между слоями и т.п. не очень понятно.

Мы уже ходим кругами в обсуждениях и пора уже выбрать что-то. Можете подтвердить или опровергнуть правильность первого варианта, и прокомментировать второй? С data vault впервые все столкнулись на проекте)
источник

VS

Vladislav 👻 Shishkov... in Архитектура данных
я плохо прочитал
источник

Н

Николай in Архитектура данных
Alexander
Всем привет! Вопрос про Business Data Vault. Извините, что очень длинно. Пользователи витрин будут оперировать бизнес-ключами, которые в системе-источнике размазаны по нескольким сущностям (причем по нетривиальным правилам), а теперь требуется все это собрать в одной витрине. И у нас две противоположные точки зрения сформировались:
1.  Строим в Raw DV модель, которая максимально отвечает требованиям репортинга: создаем правильные с точки зрения репортинга  хабы (один хаб на один бизнес-ключ, пусть ключи и размазаны в системе источнике по разным сущностям) и заморачиваемся с трансформацией данных при перекладывании данных из stage в Raw. А для построения Business DV расширяем модель PIT, Bridge и т.п. суррогатами для перформанса.

2.  В Raw DV создаем модель максимально похожую на операционную модель данных (получается сырое хранилище всего, что только можно, но в модели DV. На то он и "Raw"). А потом по данным из Raw DV строим отдельную модель (новые хабы, линки, саттелиты) в Business DV. Получается data vault над data vault с какими-то суррогатными хабами и выглядит это несколько дико. И как переливать данные между слоями и т.п. не очень понятно.

Мы уже ходим кругами в обсуждениях и пора уже выбрать что-то. Можете подтвердить или опровергнуть правильность первого варианта, и прокомментировать второй? С data vault впервые все столкнулись на проекте)
Александр, я бы делал так, как меньше геморроя
источник

Н

Николай in Архитектура данных
просто прикиньте какое решение тяжелее сопровождать + восстанавливать после сбоев
источник

VS

Vladislav 👻 Shishkov... in Архитектура данных
В первом варианте никто не мешает строить модель сразу в BDV
источник

VS

Vladislav 👻 Shishkov... in Архитектура данных
Николай
Александр, я бы делал так, как меньше геморроя
тогда это не про DV вообще, имхо
источник

Н

Николай in Архитектура данных
Иногда полезно отойти от канонов
источник

VS

Vladislav 👻 Shishkov... in Архитектура данных
как показывает практика, да, но уходить надо тоже с умом
источник

Н

Николай in Архитектура данных
ну само собой - базовая схема дв, а дальше решать что сделать не как в дв
источник

Н

Николай in Архитектура данных
у меня сейчас наклёвываются логи, например.
источник

Н

Николай in Архитектура данных
их в дв класть?
источник

Н

Николай in Архитектура данных
да, думаю, смысла и нет
источник

VS

Vladislav 👻 Shishkov... in Архитектура данных
я в анхоре клал агрегат логи
источник

VS

Vladislav 👻 Shishkov... in Архитектура данных
не вижу проблем и с ДВ при желании
источник

Н

Николай in Архитектура данных
ну агрегат - само собой
источник

Н

Николай in Архитектура данных
хранить или нет первичку логов7
источник