Size: a a a

2021 October 04

ЕГ

Евгений Глотов... in Data Engineers
Это будет дорого безотносительно хадупа
источник

NN

No Name in Data Engineers
На текущем этапе, даже при условии существования худи и айсберга, я бы не рекомендовал устраивать на хадуп кластере что-либо, кроме хранилища сырых данных и уже обработанных реплик для обучения моделек и прочего, а обработку данных лучше перенести на что-то более олап-ориентированное, какую-нибудь mpp, если мы говорим о больших данных.
Ну и жирные денормализованные витрины можно анализировать кликом/пинотом/друидом.
источник

ЕГ

Евгений Глотов... in Data Engineers
Распиши подробнее кейс - какой источник, какой формат данных
источник

AE

Alexey Evdokimov in Data Engineers
вот это отлично сформулированный совет
источник

AZ

Anton Zadorozhniy in Data Engineers
Объемы ещё будут полезны, мб там все в PG на m6g.8xlarge будет летать
источник

AZ

Anton Zadorozhniy in Data Engineers
От объёма зависит
источник

AZ

Anton Zadorozhniy in Data Engineers
Это вообще как угодно
источник

AZ

Anton Zadorozhniy in Data Engineers
Объём в гигабайтах важен, если у вас гигабайты в час - можно делать партиции внутри часа, если у вас килобайты в день - можно даже на месяце остановится
источник

AZ

Anton Zadorozhniy in Data Engineers
Если гигабайты то не может быть много
источник

K

Kate in Data Engineers
Ситуация наша в следующем - большинство источников отдают информацию полным срезом, например Siebel отдает всех клиентов, при том, что то дня ко дню меняется 0.2% базы, файл в тексте весит 10гб. Каждый день складывать 10гб по каждой сущности - выглядит избыточным. Инкремент из такой порции вычисляется за 20-30 минут.
источник

K

Kate in Data Engineers
Вот и вопрос - стоит складывать по огромным срезам каждый день или там, где источник не может дать инкремент, считать дельту
источник

ЕГ

Евгений Глотов... in Data Engineers
Что конкретно означает "источник не может дать инкремент"?
источник

ЕГ

Евгений Глотов... in Data Engineers
В таблице есть поля типа Datetime/timestamp?
источник

ЕГ

Евгений Глотов... in Data Engineers
Если да, то наверняка в ней есть поле update_ts
источник

ЕГ

Евгений Глотов... in Data Engineers
Или аналогичное
источник

ЕГ

Евгений Глотов... in Data Engineers
Вот по нему берём и фильтруем
источник

ЕГ

Евгений Глотов... in Data Engineers
Не верю, что сибель не делает такие поля в своих бэк-таблицах, которые вам надо качать
источник

AZ

Anton Zadorozhniy in Data Engineers
А вам по даунстриму что нужно, изменения или полный снапшот на каждую дату?
источник

ЗН

Зашёл Накладку... in Data Engineers
Чё творится? Все лежит
источник

GP

Grigory Pomadchin in Data Engineers
что лежит?
источник