Ну а вообще МОЖЕТ он говорит об одновременной загрузке всего в память кластера. Не знаю откуда он взял что Спарк не досчитает, но он может просто долго считать) физика долгая будет - считать в диски все, если что-то шафлить то дорогой шафл
А как её сейчас осуществить? Насколько я помню, когда-то давно итератор со всеми данными для таска действительно грузился в память экзекутора целиком, но потом его переписали на считывание с диска, и щас не может спарк грузить в память больше данных, чем надо)