Спарк не воспринял параметр «spark.buffer.pageSize», похоже там всё же есть какая-то другая константа, и данные аккуратно прибавляются к шестидесяти четырем мегабайтам непонятно чего))
Кроме того, когда спарку был дан выбор, он мог сделать merge join, мог нормально забродкастить малую часть, но во многих случаях почему-то бродкастил большую часть, и, походу, был счастлив.
В конце концов в одном месте я отключил бродкаст, походу, без него заметно лучше, а я и не ожидал