Блин, я вот сколько през не посмотрел, в том числе от тех же датабриксов - все как один говорят, что лучше файлы по 100-200 мб примерно, потому что эмпирически так шаффла меньше. Ну и у меня опыт такой же, здоровенные файлы ничего, кроме проблем, не вызывали - еле читаются, параллелизм снижается.