Size: a a a

2021 September 03

N

Nikita Blagodarnyy in Data Engineers
В rdd есть .distinct он не поможет?
источник

OI

Oleg Ilinsky in Data Engineers
Но это же всё равно будет дедубликация в маленьком кусочке данных. Не? Чота не могу понять её смысл
источник

AS

Andrey Smirnov in Data Engineers
обычно ставят что-то вроде rocksdb для этого
https://docs.databricks.com/spark/latest/structured-streaming/production.html#rocksdb-config
источник

TB

Torlin Bios in Data Engineers
в других рдд тоже могут быть дубликаты и в этом случаи записи не должны попадать в конечную систему
источник

TB

Torlin Bios in Data Engineers
ладно, это уже другая тема, спасибо за помощь
источник
2021 September 04

D

Dmitry in Data Engineers
а есть кто работал с датабрикс ? узнал что исполнение джоба в ноутбуке лимитируется двумя днями, а у jar есть такое ограничение ? долгий джоб создающий сессии тоже будет принудительно убит через пару дней ?
источник

E

El-Yaz in Data Engineers
мне тут на собеседовании подсказали, что у реквестов есть декоратор retry, что не обязязательно самому всю логику реализовывать. но я что-то не могу этот декоратор найти. SOF предлагает инсталить другую либу https://github.com/jd/tenacity либо самопис делать.
кто с таким сталкивался? я могу найти декоратор @retry в https://github.com/psf/requests или из коробки такого нет?
источник

R

Renarde in Data Engineers
Я не припомню такого ограничения - у меня есть пара примеров где стриминговая джоба из ноутбука крутится более 2 лет.
источник

D

Dmitry in Data Engineers
интересно, а я вот наткнулся и напугался
Increased timeout for long-running notebook jobs

Aug 23-30, 2021: Version 3.53

You can now run notebook workflow jobs that take up to 30 days to complete. Previously, only notebook workflow jobs taking up to 48 hours to complete were supported. See Notebook workflows for more information.
источник

D

Dmitry in Data Engineers
источник

R

Renarde in Data Engineers
здесь речь идёт только про запуск одних ноутбуков из других ноутбуков через %run или dbutils.notebooks.run - вместо этого лучше использовать Multitask Jobs.
источник

ПБ

Повелитель Бури... in Data Engineers
Привет, а кто то внедрял дельта лейк? Как общее впечатление?
источник

AG

Alexander Gorokhov in Data Engineers
Сначала было не понятно нафига а потом как поняли
источник

ПБ

Повелитель Бури... in Data Engineers
Хочется апдейтить таблицы, не блокируя на чтение других. Просто может что новое появилось, получше
источник

AG

Alexander Gorokhov in Data Engineers
Как раз то что нужно. А еще она файлики схлопывать умеет, сама.
источник

D

Dmitry in Data Engineers
мы внедрили опенсоурсный, случаются  мутные сложности, но в целом работает
источник

ПБ

Повелитель Бури... in Data Engineers
Интересно, а в платном нет сложностей?)
источник

D

Dmitry in Data Engineers
а в платном пока не получилось завести нашу хреновину. там гигантская spring boot херовина которая по рест принимает запросы, создает спарк сессии и выстреливает джобы сама. пока только начал ковырятся с датабриксом
источник

.

._. in Data Engineers
Ребят, читаю книгу и встретил классификацию индексов. Подскажите, пожалуйста, что здесь  must know, и что здесь  отсутствует, но нужно знать
источник

.

._. in Data Engineers
источник