Всем привет! Подскажите пожалуйста, есть директория на хдфс с большим количеством мелких паркетов с общим размером 3.4Гб. Я хочу переложить эти файлы в новую директорию и сократить их количество для оптимизации хранения, а от старой избавиться. Соответственно прикинул количество файлов, которые мне нужно получить по окончании спарк джобы как 3.4 * 1024 / 128 ~ 28. Написал простую джобу вида spark.read.parquet().repartition(28).write.parquet(). Запустил и в результате получил 28 файлов с общим объёмом 6.1Гб, что почти в 1.6 раза больше. Почему так происходит? И можно ли как-то добиться результата близкого к оригиналу? Попробовал запустить такую же джобу с repartition(1) и получил 3.7Гб в аутпуте, но скорость работы меня не устраивает.