Телеграмм чат группы hadoopusers страница 4315

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

3187 membersпожаловаться на группу

2021 October 09

ЕГ

Евгений Глотов... in Data Engineers

Надо с датабриксом на акции законтрактоваться😆

источник

20:33пожаловаться #1

DZ

Dmitry Zuev in Data Engineers

Ну камон, работы на 5 минут. Но проблема в другом, что Спарк все поднимает в память.
Как вариант это делать дс айдишников и в map/map partition через ждбц коннектить

источник

20:47пожаловаться #2

ЕГ

Евгений Глотов... in Data Engineers

А в чём проблема с памятью?

источник

20:48пожаловаться #3

ЕГ

Евгений Глотов... in Data Engineers

Вроде ща дефицита оперативки не наблюдается)

источник

20:48пожаловаться #4

DZ

Dmitry Zuev in Data Engineers

В том что если кусок не влезет в память то всё

источник

20:48пожаловаться #5

ЕГ

Евгений Глотов... in Data Engineers

Не всё, а правильно настроить сессию)

источник

20:49пожаловаться #6

DZ

Dmitry Zuev in Data Engineers

Да это просто бред, выделять память для того чтобы в фс записать

источник

20:49пожаловаться #7

DZ

Dmitry Zuev in Data Engineers

56кб хватит

источник

20:49пожаловаться #8

DZ

Dmitry Zuev in Data Engineers

источник

20:49пожаловаться #9

DZ

Dmitry Zuev in Data Engineers

Ну вот рил, сколько надо памяти чтобы стрим записать через filesystem? 1гб? 2?

источник

20:49пожаловаться #10

ЕГ

Евгений Глотов... in Data Engineers

Можно в 100500 партиций из рдб грузить в 4 потока на калькуляторе

источник

20:50пожаловаться #11

DZ

Dmitry Zuev in Data Engineers

Это травма спарком

источник

20:51пожаловаться #12

DZ

Dmitry Zuev in Data Engineers

Seq scan в один поток на бд не будет быстрее двух seq scan

источник

20:51пожаловаться #13

DZ

Dmitry Zuev in Data Engineers

Разбиение нужно ток когда попадаешь в индекс или когда сети на ноде не хватает

источник

20:52пожаловаться #14

ЕГ

Евгений Глотов... in Data Engineers

Я имею в виду ограничения по памяти нет, если грузить маленькими кусками

источник

20:52пожаловаться #15

DZ

Dmitry Zuev in Data Engineers

Оверхед

источник

20:52пожаловаться #16

DZ

Dmitry Zuev in Data Engineers

Плюс нет гарантии от skew

источник

20:52пожаловаться #17

ЕГ

Евгений Глотов... in Data Engineers

Есть

источник

20:53пожаловаться #18

ЕГ

Евгений Глотов... in Data Engineers

Hash(key) % numpartitions

источник

20:53пожаловаться #19

DZ

Dmitry Zuev in Data Engineers

И это повезло если есть айдишник такой по которому делить

источник

20:53пожаловаться #20