Size: a a a

2021 March 09

АР

Андрей Романов... in Data Engineers
Grigory Pomadchin
Инстант меппинг больших файлов что бы это значило; реальный маппинг и эроу не просто сер десер?
я вот не знаю как раз
источник

АР

Андрей Романов... in Data Engineers
но у меня она загуглилась как ещё один соперник пандаса
источник

АР

Андрей Романов... in Data Engineers
поэтому и спросил, вот
источник

e

er@essbase.ru in Data Engineers
Igor Ruff
Всем привет!
Есть хайв табличка такого вида:
+-------------------+-------+-----+
|               DATE|SEGMENT|COUNT|
+-------------------+-------+-----+
|2021-01-11 00:00:00|    Int|    1|
|2021-01-11 00:00:00|    Mid|    1|

       
Из нее надо получить таблицу вида:
   
+-------------------+-------+-----+
|               DATE|SEGMENT|COUNT|
+-------------------+-------+-----+
|2021-01-11 00:00:00|    Int|    1|
|2021-01-11 00:00:00|    Mid|    1|
|2021-01-11 00:00:00|    FI |    0|
|2021-01-11 00:00:00|  Large|    0|

Т.е для сегментов (их всего четыре), которые не посчитаны за конекретную дату, проставить нули.
И соответственно добавить эти строки. Сделать надо именно хайв запросом.
Буду благодарен за помощь!
источник

AZ

Anton Zadorozhniy in Data Engineers
Alex
@dartov меня поправит где ошибся
Нет-нет, я с Владиславом больше не спорю, это время мне никто не вернёт, так что без комментариев
источник

AM

Almaz Murzabekov in Data Engineers
Ребята, есть годный краткий материал про разделение данных на silver, bronze, gold стейджи?
источник

AM

Almaz Murzabekov in Data Engineers
Краткий и без воды
источник

AZ

Anton Zadorozhniy in Data Engineers
Almaz Murzabekov
Ребята, есть годный краткий материал про разделение данных на silver, bronze, gold стейджи?
У вас какой-то конкретный вопрос?
источник

AZ

Anton Zadorozhniy in Data Engineers
вы кстати забыли diamond и platinum
источник

AZ

Anton Zadorozhniy in Data Engineers
(извините)
источник

K

KrivdaTheTriewe in Data Engineers
star platinum (@pomadchin)
источник

AM

Almaz Murzabekov in Data Engineers
Anton Zadorozhniy
У вас какой-то конкретный вопрос?
На самом деле мне нужно понять как происходит разделение сущностей по этим слоям, по каким критериям. Еще хотелось бы получить бест практисес применительно delta lake
источник

AM

Almaz Murzabekov in Data Engineers
Anton Zadorozhniy
(извините)
За diamond не извиню 😁
источник

AZ

Anton Zadorozhniy in Data Engineers
Almaz Murzabekov
На самом деле мне нужно понять как происходит разделение сущностей по этим слоям, по каким критериям. Еще хотелось бы получить бест практисес применительно delta lake
По моему опыту это все вкусовщина, видение конкретного solution architect; кто-то делает только парсинг и базовую фильтрацию в silver, а кто-то строит прям data vault там; смотря какие задачи и что вообще строится
источник

AZ

Anton Zadorozhniy in Data Engineers
Вот @renardeinside точнее расскажет идеологию партии, извините, датабрикс
источник

AM

Almaz Murzabekov in Data Engineers
@renardeinside подскажи плиз хороший гайд про дата архитектуру применительно dbx delta lake)
источник

N

Nikita Blagodarnyy in Data Engineers
Мы пилим так.
Бронзовый слой-сырые данные, наваленные в поркет hdfs из кафки и лежащие в формате кафка сообщений, партиции по времени извлечения. Серебряный слой-данные, разобранные по схемам/кейс классам в реляционный вид, поркет, партиции тоже по системному времени.
Золотой слой-какие-то производные от этих данных- агрегаты, очищенные, обогащенные и т.п., живёт в худях и партиционировано по бизнес-датам. Бриллиантовый слой у нас не получился, потому что нету терадаты. Была бы-и иридиевый тоже сделали бы.
Архитектор @ssheremeta
источник

N

Nikita Blagodarnyy in Data Engineers
Для hbase источников чуть другая схема, но логика та же.
источник

SS

Sergey Sheremeta in Data Engineers
Nikita Blagodarnyy
Мы пилим так.
Бронзовый слой-сырые данные, наваленные в поркет hdfs из кафки и лежащие в формате кафка сообщений, партиции по времени извлечения. Серебряный слой-данные, разобранные по схемам/кейс классам в реляционный вид, поркет, партиции тоже по системному времени.
Золотой слой-какие-то производные от этих данных- агрегаты, очищенные, обогащенные и т.п., живёт в худях и партиционировано по бизнес-датам. Бриллиантовый слой у нас не получился, потому что нету терадаты. Была бы-и иридиевый тоже сделали бы.
Архитектор @ssheremeta
источник

AZ

Anton Zadorozhniy in Data Engineers
Nikita Blagodarnyy
Мы пилим так.
Бронзовый слой-сырые данные, наваленные в поркет hdfs из кафки и лежащие в формате кафка сообщений, партиции по времени извлечения. Серебряный слой-данные, разобранные по схемам/кейс классам в реляционный вид, поркет, партиции тоже по системному времени.
Золотой слой-какие-то производные от этих данных- агрегаты, очищенные, обогащенные и т.п., живёт в худях и партиционировано по бизнес-датам. Бриллиантовый слой у нас не получился, потому что нету терадаты. Была бы-и иридиевый тоже сделали бы.
Архитектор @ssheremeta
А ссылочную целостность вы поддерживаете? В серебре или только в золоте?
источник