нет - отдельно spark.sql.shuffle.partitions не задан - значит дефолтное значение
хорошо, при реально больших таблицах - на несколько сотен гигов - размер партиции у нас может доходить до гига легко
есть бест практисы по этому делу?
Серебряной пули, к сожалению, нет, все будет зависеть от кейса, от данных, от возможностей кластера. Выглядит так, что гигабайтные партиции для спарка - это не очень, лучше их где-то на уровне блока hdfs держать. При этом помня, что мелкие файлы - тоже плохо, аукнется потом неймноде. Нужно смотреть на то, сколько у Вас в наличии коров и памяти, т.е. постараться добиться максимальной параллельности и утилизации ресурсов кластера.