Телеграмм чат группы moscowspark страница 911

ну функция обычно на больших срабатывает объемах (обычно миллионы, ну есть отдельно estimate для avg row size)

просто для тестов там параметр срабатывания поставлен в каких 10-15 записей

вот думаю что и как лучше проверять, но возможно пока в игнор пойдут чтобы разблочить использование 3.2 у нас

источник

07:21пожаловаться #6

Alex in Moscow Spark

https://github.com/apache/spark/blob/branch-3.2/sql/core/src/main/scala/org/apache/spark/sql/execution/adaptive/ShufflePartitionsUtil.scala

так понимаю вот это отработало
INFO ShufflePartitionsUtil : For shuffle(0), advisory target size: 67108864, actual target size 2609579, minimum partition size: 1048576

а выше когда планы выбирались

https://github.com/apache/spark/blob/branch-3.2/sql/core/src/main/scala/org/apache/spark/sql/execution/adaptive/AdaptiveSparkPlanExec.scala#L88-L98

// EnsureRequirements may remove user-specified repartition and assume the query plan won't
// change its output partitioning. This assumption is not true in AQE. Here we check the
// inputPlan which has not been processed by EnsureRequirements yet, to find out the
// effective user-specified repartition. Later on, the AQE framework will make sure the final
// output partitioning is not changed w.r.t the effective user-specified repartition.

то есть "мы умнее пользователя"

GitHub

spark/ShufflePartitionsUtil.scala at branch-3.2 · apache/spark

Apache Spark - A unified analytics engine for large-scale data processing - spark/ShufflePartitionsUtil.scala at branch-3.2 · apache/spark

источник

07:43пожаловаться #7

ЕГ

Евгений Глотов... in Moscow Spark

Ну вообще сделать адекватный репартишен руками крайне проблематично, учитывая отсутствие понимания количества итоговых рядов без запуска дополнительных запросов

источник

07:47пожаловаться #8

ЕГ

Евгений Глотов... in Moscow Spark

Был бы метод типа row_count_in_partition(), вопросов нет

источник

07:48пожаловаться #9

Alex in Moscow Spark

в общем разобрался

spark.sql.adaptive.coalescePartitions.enabled

val COALESCE_PARTITIONS_ENABLED

buildConf("spark.sql.adaptive.coalescePartitions.enabled")
.doc(s"When true and '${ADAPTIVE_EXECUTION_ENABLED.key}

' is true, Spark will coalesce " +
      "contiguous shuffle partitions according to the target size (specified by " +
      s"'

${ADVISORY_PARTITION_SIZE_IN_BYTES.key}'), to avoid too many small tasks.")
.version("3.0.0")

.booleanConf
  .createWithDefault

(true)

по умолчанию оно включено
но для тестов можно бы и отключить

в этом случае оно не пытается мержить мелкие партиции, что идеально для тестов

источник

08:05пожаловаться #10

Alex in Moscow Spark

потому что даже выставление ADVISORY_PARTITION_SIZE_IN_BYTES в малые значения не спасает

источник

08:06пожаловаться #11

Alex in Moscow Spark

так как следом есть другой параметр

val COALESCE_PARTITIONS_PARALLELISM_FIRST

buildConf("spark.sql.adaptive.coalescePartitions.parallelismFirst")
.doc(

"When true, Spark does not respect the target size specified by " +
      s"'

${ADVISORY_PARTITION_SIZE_IN_BYTES.key}

' (default 64MB) when coalescing contiguous " +
      "shuffle partitions, but adaptively calculate the target size according to the default " +
      "parallelism of the Spark cluster. The calculated size is usually smaller than the " +
      "configured target size. This is to maximize the parallelism and avoid performance " +
      "regression when enabling adaptive query execution. It's recommended to set this config " +
      "to false and respect the configured target size."

)
.version("3.2.0")

.booleanConf
  .createWithDefault

(true)

источник

08:07пожаловаться #12

Alex in Moscow Spark

в общем спарк всё умнее с каждым релизом
жаль пользователи не умнеют

источник

08:09пожаловаться #13

ЕГ

Евгений Глотов... in Moscow Spark

sticker.webp

(13.92 Кб)

источник

08:16пожаловаться #14

Nikita Blagodarnyy in Moscow Spark

а какой тогда смысл от такого теста? если в проде точно будет другое поведение.

источник

12:38пожаловаться #15

Alex in Moscow Spark

в проде датасеты будут большие, для того и делался репартишинер чтобы избежать очень больших/очень мелких файлов
если он нам помержит мелкие, то мы будем только рады

источник

12:40пожаловаться #16

R in Moscow Spark

https://github.com/zubtsov/spark-commons/blob/master/src/main/scala/com/epam/bdcc/spark/sql/DataFrameWithId.scala

CC @SparkApplicationMaster

GitHub

spark-commons/DataFrameWithId.scala at master · zubtsov/spark-commons

Contribute to zubtsov/spark-commons development by creating an account on GitHub.