V. M.
т.е. изначальная коллекция меняется? если нет то проще то один раз её создать (импортировать, сохранить) и итерировать её
меняется, да. Вначале, когда все было на датафреймах, не было таких проблем (другие проблемы, конечно, были)), но я захотел лучшего, стал переносить обработку в собственные структуры и классы и обнаружил, что партиционирование rdd партишенером из двух строк почему-то заметно дольше выполняется, чем то же партиционирование датафрейма, а там еще и Murmur3 вычисляется и тасков больше, чтобы снизить вероятность коллизии.
Сейчас пытаюсь понять, есть ли положительный эффект на производительности, если интересно, то напишу результат, когда он будет