Народ вы кто нибудь использует этот параметр при чтении spark.sql.files.maxPartitionBytes.
Пытался применить что бы понять как работает не получается.
sparl.sql('set spark.sql.files.maxPartitionBytes=209715200')
df=spark.sql("""select * from table""")
df.rdd.getnumpartitions()
Выводит: 200, Я так понимаю, это то, что по умолчанию уставлено в spark.sql.shuffle.partitions.
Как я понял из гугла, если правильно использовать можно эффективней читать.