Телеграмм чат группы hadoopusers страница 3349

17:38пожаловаться #4

AZ

Alex

@dartov меня поправит где ошибся

Нет-нет, я с Владиславом больше не спорю, это время мне никто не вернёт, так что без комментариев

18:55пожаловаться #5

AM

Ребята, есть годный краткий материал про разделение данных на silver, bronze, gold стейджи?

19:01пожаловаться #6

AM

Краткий и без воды

19:01пожаловаться #7

AZ

Almaz Murzabekov

Ребята, есть годный краткий материал про разделение данных на silver, bronze, gold стейджи?

У вас какой-то конкретный вопрос?

19:34пожаловаться #8

AZ

вы кстати забыли diamond и platinum

19:35пожаловаться #9

AZ

(извините)

19:35пожаловаться #10

K

KrivdaTheTriewe in Data Engineers

star platinum (@pomadchin)

19:38пожаловаться #11

AM

Anton Zadorozhniy

У вас какой-то конкретный вопрос?

На самом деле мне нужно понять как происходит разделение сущностей по этим слоям, по каким критериям. Еще хотелось бы получить бест практисес применительно delta lake

19:41пожаловаться #12

AM

Anton Zadorozhniy

(извините)

За diamond не извиню 😁

19:42пожаловаться #13

AZ

Almaz Murzabekov

На самом деле мне нужно понять как происходит разделение сущностей по этим слоям, по каким критериям. Еще хотелось бы получить бест практисес применительно delta lake

По моему опыту это все вкусовщина, видение конкретного solution architect; кто-то делает только парсинг и базовую фильтрацию в silver, а кто-то строит прям data vault там; смотря какие задачи и что вообще строится

19:45пожаловаться #14

AZ

Вот @renardeinside точнее расскажет идеологию партии, извините, датабрикс

19:46пожаловаться #15

AM

@renardeinside подскажи плиз хороший гайд про дата архитектуру применительно dbx delta lake)

19:48пожаловаться #16

N

Nikita Blagodarnyy in Data Engineers

Мы пилим так.
Бронзовый слой-сырые данные, наваленные в поркет hdfs из кафки и лежащие в формате кафка сообщений, партиции по времени извлечения. Серебряный слой-данные, разобранные по схемам/кейс классам в реляционный вид, поркет, партиции тоже по системному времени.
Золотой слой-какие-то производные от этих данных- агрегаты, очищенные, обогащенные и т.п., живёт в худях и партиционировано по бизнес-датам. Бриллиантовый слой у нас не получился, потому что нету терадаты. Была бы-и иридиевый тоже сделали бы.
Архитектор @ssheremeta

20:09пожаловаться #17

N

Nikita Blagodarnyy in Data Engineers

Для hbase источников чуть другая схема, но логика та же.

20:10пожаловаться #18

SS

Sergey Sheremeta in Data Engineers

Nikita Blagodarnyy

Мы пилим так.
Бронзовый слой-сырые данные, наваленные в поркет hdfs из кафки и лежащие в формате кафка сообщений, партиции по времени извлечения. Серебряный слой-данные, разобранные по схемам/кейс классам в реляционный вид, поркет, партиции тоже по системному времени.
Золотой слой-какие-то производные от этих данных- агрегаты, очищенные, обогащенные и т.п., живёт в худях и партиционировано по бизнес-датам. Бриллиантовый слой у нас не получился, потому что нету терадаты. Была бы-и иридиевый тоже сделали бы.
Архитектор @ssheremeta

sticker.webp

(37.22 Кб)

20:10пожаловаться #19

AZ

Nikita Blagodarnyy

Мы пилим так.
Бронзовый слой-сырые данные, наваленные в поркет hdfs из кафки и лежащие в формате кафка сообщений, партиции по времени извлечения. Серебряный слой-данные, разобранные по схемам/кейс классам в реляционный вид, поркет, партиции тоже по системному времени.
Золотой слой-какие-то производные от этих данных- агрегаты, очищенные, обогащенные и т.п., живёт в худях и партиционировано по бизнес-датам. Бриллиантовый слой у нас не получился, потому что нету терадаты. Была бы-и иридиевый тоже сделали бы.
Архитектор @ssheremeta

А ссылочную целостность вы поддерживаете? В серебре или только в золоте?