Size: a a a

2021 March 09

AZ

Anton Zadorozhniy in Data Engineers
Вопрос снимается, раз в серебре по landing то значит как прилетело, видимо ссылки выверяете только в золоте (мне такое тоже ближе)
источник

N

Nikita Blagodarnyy in Data Engineers
Anton Zadorozhniy
А ссылочную целостность вы поддерживаете? В серебре или только в золоте?
На этих всех слоях нет. Ссылочная целостность в задупе/кх не очень-то доступна. Да и особо ссылаться не на что, таблиц мало и они сильно денормализованы.
источник

N

Nikita Blagodarnyy in Data Engineers
Вот в мастер данных всё по науке, 3нф, целочная ссылостность, индексы, scd и вот это вот всё.
источник

N

Nikita Blagodarnyy in Data Engineers
Nikita Blagodarnyy
Вот в мастер данных всё по науке, 3нф, целочная ссылостность, индексы, scd и вот это вот всё.
Но они и живут в постгре.
источник

ET

E T in Data Engineers
Grigory Pomadchin
даск сырая либа и оч медленная
Кстати, имеет ли смысл использование Dask-а, если код и данные будут скейлится(Ray) на кластер , где оперативная память стоит копейки. Речь идёт не про террабайты, Максы обработка 5-15 гигов временных рядов.
источник

ET

E T in Data Engineers
Grigory Pomadchin
даск сырая либа и оч медленная
Я просто возьму и прочитаю бандуру в несколько гигов, сделаю ray.put(df)
и отправлю считаться.
источник

C

Combot in Data Engineers
Наталья Федосова has been banned! Reason: CAS ban.
источник

P

Pavel in Data Engineers
Коллеги, у кого как организован sql поверх s3?
источник

P

Pavel in Data Engineers
Появилось ли что-нибудь новое за 3 года? Или спарк-sql по прежнему в строю?
источник

T

T in Data Engineers
Pavel
Коллеги, у кого как организован sql поверх s3?
Presto/trino
источник

T

T in Data Engineers
T
Presto/trino
Афина ещё ок если не много запросов
источник

P

Pavel in Data Engineers
Ну, и кроме импалы
источник

АР

Андрей Романов... in Data Engineers
Pavel
Коллеги, у кого как организован sql поверх s3?
источник

T

T in Data Engineers
T
Афина ещё ок если не много запросов
Редшифт ещё может в S3 ходить через Спектрум, но это сильно на любителя
источник

R

Renarde in Data Engineers
Almaz Murzabekov
@renardeinside подскажи плиз хороший гайд про дата архитектуру применительно dbx delta lake)
привет! вот тут очень подробно разбирается вся конструкция и архитектура:

https://www.youtube.com/watch?v=OQv61WY_f88
источник

V

Vasiliy in Data Engineers
Nikita Blagodarnyy
Мы пилим так.
Бронзовый слой-сырые данные, наваленные в поркет hdfs из кафки и лежащие в формате кафка сообщений, партиции по времени извлечения. Серебряный слой-данные, разобранные по схемам/кейс классам в реляционный вид, поркет, партиции тоже по системному времени.
Золотой слой-какие-то производные от этих данных- агрегаты, очищенные, обогащенные и т.п., живёт в худях и партиционировано по бизнес-датам. Бриллиантовый слой у нас не получился, потому что нету терадаты. Была бы-и иридиевый тоже сделали бы.
Архитектор @ssheremeta
источник

AZ

Anton Zadorozhniy in Data Engineers
Pavel
Коллеги, у кого как организован sql поверх s3?
источник

V

Vasiliy in Data Engineers
Я тут сегодня час медитировал на утренний iFlex
источник

V

Vasiliy in Data Engineers
Все не мог поверить, что по цпу меньше 50 бывает
источник

V

Vasiliy in Data Engineers
А кто вот это все серебро/золото понадумал? Не интелом же единым?
источник