Телеграмм чат группы hadoopusers страница 3756

Size: a a a

Data Engineers

2572 membersпожаловаться на группу

2021 June 10

Nikita Blagodarnyy in Data Engineers

а у вас же вроде клавудера? туда ещё не подвезли?

источник

19:33пожаловаться #1

Alexey Evdokimov in Data Engineers

в хипе конечно. аккуратно надо с бродкастами, они целиком должны помещаться в память как на драйвере, так и на екзекуторах. потому как драйвер их перепосылает по необходимости. всю память сожрать как нефиг делать.

источник

19:36пожаловаться #2

ИК

Иван Калининский... in Data Engineers

Спасибо, попробую потюнить. Вообще, я рассчитывал, что BroadcastRelation будут и создаваться по мере необходимости, но в едином плане они появляются все вместе. Обидно, придётся делать шаг назад

источник

19:41пожаловаться #3

Alexey Evdokimov in Data Engineers

и то что на диске занимает пару сотен метров, в памяти может весить пару десятков гигов легко

источник

19:41пожаловаться #4

Alexey Evdokimov in Data Engineers

в зависимости от того во что оно у тебя десериализуется/материализуется

источник

19:41пожаловаться #5

Anton Zadorozhniy in Data Engineers

меня почти наняли для бенчмарка на среднем размере кластере (800-1000 бареметал узлов), но не срослось 😞

источник

19:42пожаловаться #6

ИК

Иван Калининский... in Data Engineers

Это да, коэффициент сжатия может удивить

источник

19:42пожаловаться #7

ИК

Иван Калининский... in Data Engineers

RDD[UnsafeRow]

источник

19:42пожаловаться #8

Alexey Evdokimov in Data Engineers

это весьма жирно. бродкаст висит в памяти в десериализованном виде, готовый к потреблению

источник

19:44пожаловаться #9

ИК

Иван Калининский... in Data Engineers

Спасибо, продолжу кодить)

источник

19:47пожаловаться #10

Alexey Evdokimov in Data Engineers

тут надо ответить на вопрос, а прямо ли уж так надо в каждый екзекутор посылать вообще всё?

источник

19:50пожаловаться #11

Alexey Evdokimov in Data Engineers

у меня вон тоже есть пара алгоритмов, где изначально возник соблазн запульнуть бродкаст на 500М записей в пяток стейджей. пришлось поизвращаться с кастомными сортирующими партиционерами и zipPartitions, потому как см. выше

источник

19:53пожаловаться #12

Alexey Evdokimov in Data Engineers

ну и .repartitionAndSortWithinPartitions не просто так существует

источник

19:55пожаловаться #13

Anatoly B in Data Engineers

небольшой наброс - если бы вам предложили data lake делать - в моём понимании там должен быть SQL интерфейс для аналитиков, какой бы вы взяли движок и хранилище? hadoop + spark ? что-то новее есть? big table?)

источник

19:57пожаловаться #14

Nikita Blagodarnyy in Data Engineers

Teradata

источник

20:02пожаловаться #15

Grigory Pomadchin in Data Engineers

это ж старее

источник

20:02пожаловаться #16

Anton Zadorozhniy in Data Engineers