Size: a a a

2021 June 10

N

Nikita Blagodarnyy in Data Engineers
а у вас же вроде клавудера? туда ещё не подвезли?
источник

AE

Alexey Evdokimov in Data Engineers
в хипе конечно. аккуратно надо с бродкастами, они целиком должны помещаться в память как на драйвере, так и на екзекуторах. потому как драйвер их перепосылает по необходимости. всю память сожрать как нефиг делать.
источник

ИК

Иван Калининский... in Data Engineers
Спасибо, попробую потюнить. Вообще, я рассчитывал, что BroadcastRelation будут и создаваться по мере необходимости, но в едином плане они появляются все вместе. Обидно, придётся делать шаг назад
источник

AE

Alexey Evdokimov in Data Engineers
и то что на диске занимает пару сотен метров, в памяти может весить пару десятков гигов легко
источник

AE

Alexey Evdokimov in Data Engineers
в зависимости от того во что оно у тебя десериализуется/материализуется
источник

AZ

Anton Zadorozhniy in Data Engineers
меня почти наняли для бенчмарка на среднем размере кластере (800-1000 бареметал узлов), но не срослось 😞
источник

ИК

Иван Калининский... in Data Engineers
Это да, коэффициент сжатия может удивить
источник

ИК

Иван Калининский... in Data Engineers
RDD[UnsafeRow]
источник

AE

Alexey Evdokimov in Data Engineers
это весьма жирно. бродкаст висит в памяти в десериализованном виде, готовый к потреблению
источник

ИК

Иван Калининский... in Data Engineers
Спасибо, продолжу кодить)
источник

AE

Alexey Evdokimov in Data Engineers
тут надо ответить на вопрос, а прямо ли уж так надо в каждый екзекутор посылать вообще всё?
источник

AE

Alexey Evdokimov in Data Engineers
у меня вон тоже есть пара алгоритмов, где изначально возник соблазн запульнуть бродкаст на 500М записей в пяток стейджей. пришлось поизвращаться с кастомными сортирующими партиционерами и zipPartitions, потому как см. выше
источник

AE

Alexey Evdokimov in Data Engineers
ну и .repartitionAndSortWithinPartitions не просто так существует
источник

AB

Anatoly B in Data Engineers
небольшой наброс - если бы вам предложили data lake делать - в моём понимании там должен быть SQL интерфейс для аналитиков, какой бы вы взяли движок и хранилище? hadoop + spark ? что-то новее есть? big table?)
источник

N

Nikita Blagodarnyy in Data Engineers
Teradata
источник

GP

Grigory Pomadchin in Data Engineers
это ж старее
источник

AZ

Anton Zadorozhniy in Data Engineers
источник

N

Nikita Blagodarnyy in Data Engineers
ну вроде ж держит себя в форме, ходит на фитнес, делает пластику.
источник

GP

Grigory Pomadchin in Data Engineers
скок старье не обновляй все старье)
источник

AZ

Anton Zadorozhniy in Data Engineers
даже куски радикально переписываются)
источник