в каком-то смысле сортировка есть: таймстемпы и даты событий идут последовательно по возрастанию, как и суррогатные ключи - айдишники. Некоторые категории (внешние ключи) тоже могут быть одними и теми же, если партишен топика кафки завязан на них, или по другим причинам
Вот этот кейс - ещё одна причина задуматься перед тем, как сделать repartition(n). Перетасованные по хешам записи - не всегда именно то, что нужно. Очень возможно, что изучение распределения данных в исходных файлах прояснит причины, но это отдельная и достаточно большая активность.
Но часто достаточно того, что файлов стало меньше, пусть и увеличился их размер