Size: a a a

2021 October 09

ЕГ

Евгений Глотов... in Data Engineers
Надо с датабриксом на акции законтрактоваться😆
источник

DZ

Dmitry Zuev in Data Engineers
Ну камон, работы на 5 минут. Но проблема в другом, что Спарк все поднимает в память.
Как вариант это делать дс айдишников и в map/map partition через ждбц коннектить
источник

ЕГ

Евгений Глотов... in Data Engineers
А в чём проблема с памятью?
источник

ЕГ

Евгений Глотов... in Data Engineers
Вроде ща дефицита оперативки не наблюдается)
источник

DZ

Dmitry Zuev in Data Engineers
В том что если кусок не влезет в память то всё
источник

ЕГ

Евгений Глотов... in Data Engineers
Не всё, а правильно настроить сессию)
источник

DZ

Dmitry Zuev in Data Engineers
Да это просто бред, выделять память для того чтобы в фс записать
источник

DZ

Dmitry Zuev in Data Engineers
56кб хватит
источник

DZ

Dmitry Zuev in Data Engineers
источник

DZ

Dmitry Zuev in Data Engineers
Ну вот рил, сколько надо памяти чтобы стрим записать через filesystem? 1гб? 2?
источник

ЕГ

Евгений Глотов... in Data Engineers
Можно в 100500 партиций из рдб грузить в 4 потока на калькуляторе
источник

DZ

Dmitry Zuev in Data Engineers
Это травма спарком
источник

DZ

Dmitry Zuev in Data Engineers
Seq scan в один поток на бд не будет быстрее двух seq scan
источник

DZ

Dmitry Zuev in Data Engineers
Разбиение нужно ток когда попадаешь в индекс или когда сети на ноде не хватает
источник

ЕГ

Евгений Глотов... in Data Engineers
Я имею в виду ограничения по памяти нет, если грузить маленькими кусками
источник

DZ

Dmitry Zuev in Data Engineers
Оверхед
источник

DZ

Dmitry Zuev in Data Engineers
Плюс нет гарантии от skew
источник

ЕГ

Евгений Глотов... in Data Engineers
Есть
источник

ЕГ

Евгений Глотов... in Data Engineers
Hash(key) % numpartitions
источник

DZ

Dmitry Zuev in Data Engineers
И это повезло если есть айдишник такой по которому делить
источник