Спасибо за помощь!
Правильно ли я понимаю - количество spark-партиций при чтении этого паркета на следующем шаге пайплайна будет зависеть от maxPartitionBytes, а не от количества паркетов в директории, откуда производится чтение?
И даже если я на предыдущем шаге при записи запихнул 2 Гб в один паркет с помощью coalesce(1) - в случае если maxPartitionBytes=128Мб мой датасет на 2Гб будет разбит при чтении спарком на 16 партиций? (2Gb dataset size / 128Mb maxPartitionBytes)