Size: a a a

2021 October 04

ЕГ

Евгений Глотов... in Data Engineers
Надёжнее всего руками посчитать
источник

ЕГ

Евгений Глотов... in Data Engineers
А в каком смысле считать дельту? Обычно все получают дельту и пытаются её вмёрджить в существующие данные
источник

ЕГ

Евгений Глотов... in Data Engineers
У тебя обратный кейс - приходит всё, и надо получить только новый кусок?
источник

ПФ

Паша Финкельштейн... in Data Engineers
А без них дельту нельзя использовать?
источник

ПФ

Паша Финкельштейн... in Data Engineers
У Спарка же нет стратегии вотермаркинга, а late arriving в каппе бывает часто. Или я что-то не так понимаю?
источник

T

T in Data Engineers
Ну чёт то что я видел без него она проигрывает худи
источник

ПФ

Паша Финкельштейн... in Data Engineers
Есть, стриминговый и понятный
источник

ПФ

Паша Финкельштейн... in Data Engineers
Это антиджойн что ли?
источник

ЕГ

Евгений Глотов... in Data Engineers
Нууу тип того
источник

ПФ

Паша Финкельштейн... in Data Engineers
Звучит дорого
источник

ЕГ

Евгений Глотов... in Data Engineers
Если данные изначально по ключу разложить, то ок
источник

ЕГ

Евгений Глотов... in Data Engineers
Я использую хэш от ключа по модулю 100, например
источник

K

Kate in Data Engineers
Да, все верно не хранить весь срез, а высчитать новый кусок, и добавлять к существующей таблице
источник

ЕГ

Евгений Глотов... in Data Engineers
И гоняю в параллель N/100 джобов
источник

ЕГ

Евгений Глотов... in Data Engineers
Может проще с источником договориться на апдейты?)
источник

ЕГ

Евгений Глотов... in Data Engineers
А, или апдейтов нет, только инсерт
источник

ЕГ

Евгений Глотов... in Data Engineers
Попросите источник завести дату инсерта
источник

ЕГ

Евгений Глотов... in Data Engineers
Задача исчезнет)
источник

AE

Alexey Evdokimov in Data Engineers
дурная задача, если таймстампа нет
источник

AE

Alexey Evdokimov in Data Engineers
а если есть, то в чём вообще суть вопроса
источник