Size: a a a

2022 January 28

ИК

Иван Калининский... in Moscow Spark
не запутывай людей, я этот алгоритм переписывал. Сортировка от крупных к мелким))
источник

ЕГ

Евгений Глотов... in Moscow Spark
Спарк начинает с более лёгких тасок
источник

ЕГ

Евгений Глотов... in Moscow Spark
Я наблюдал обратную картину не один раз
источник

ИК

Иван Калининский... in Moscow Spark
не согласный я)
источник

ЕГ

Евгений Глотов... in Moscow Spark
Не только на чтение
источник

ЕГ

Евгений Глотов... in Moscow Spark
Особенно хорошо это на пустых партициях видно, он их пролетает за 0 сек, а потом висит на оставшемся 1%
источник

ЕГ

Евгений Глотов... in Moscow Spark
Пытался как-то размешать - не вышло
источник

ИК

Иван Калининский... in Moscow Spark
спарк начинает, с чего получилось. А получается вот что:
val splitFiles = selectedPartitions.flatMap { partition =>

}.sortBy(_.length)(implicitly[Ordering[Long]].reverse)
источник

ИК

Иван Калининский... in Moscow Spark
вот ревёрс там последнее слово                    ^^^^^
источник

ИК

Иван Калининский... in Moscow Spark
проверял на 500k партиций, пустые скипаются за 0,1-2 секунды каждая, оставшиеся работают 2-5 минут каждая. Конечно, выглядит, как будто пустые вначале выполнены, а объёмные в конце))
источник

ЕГ

Евгений Глотов... in Moscow Spark
Ну не, пока до них экзекутор не дойдет, они не начнут выполняться
источник

ИК

Иван Калининский... in Moscow Spark
согласен, поэтому чем меньше пустых партиций, тем лучше
источник

ЕГ

Евгений Глотов... in Moscow Spark
Хоть им и 0.0001сек на исполнение
источник

ЕГ

Евгений Глотов... in Moscow Spark
Но у меня исполняются вперёд пустые
источник

ИК

Иван Калининский... in Moscow Spark
не совпадает с моим опытом(
источник

ЕГ

Евгений Глотов... in Moscow Spark
А версия какая?
источник

ИК

Иван Калининский... in Moscow Spark
2.4.0, 2.4.5
источник

ЕГ

Евгений Глотов... in Moscow Spark
Тоже 2.4.5, и на 2.3 то же самое замечал🤔
Копну поглубже, надо разобраться😐
источник

ЕГ

Евгений Глотов... in Moscow Spark
источник

ИК

Иван Калининский... in Moscow Spark
org.apache.spark.sql.execution.DataSourceScanExec

я вот по этому смотрю. Предпочитаю этот класс переписывать под свои источники данных
источник