в хипе конечно. аккуратно надо с бродкастами, они целиком должны помещаться в память как на драйвере, так и на екзекуторах. потому как драйвер их перепосылает по необходимости. всю память сожрать как нефиг делать.
Спасибо, попробую потюнить. Вообще, я рассчитывал, что BroadcastRelation будут и создаваться по мере необходимости, но в едином плане они появляются все вместе. Обидно, придётся делать шаг назад
у меня вон тоже есть пара алгоритмов, где изначально возник соблазн запульнуть бродкаст на 500М записей в пяток стейджей. пришлось поизвращаться с кастомными сортирующими партиционерами и zipPartitions, потому как см. выше
небольшой наброс - если бы вам предложили data lake делать - в моём понимании там должен быть SQL интерфейс для аналитиков, какой бы вы взяли движок и хранилище? hadoop + spark ? что-то новее есть? big table?)