Size: a a a

2021 September 29

ЕГ

Евгений Глотов... in Moscow Spark
Может 2 датафрейм висит?
источник

ЕГ

Евгений Глотов... in Moscow Spark
Или точно каждый из этих 20 тасков тормозит?
источник

KR

Kagermanov Ramazan in Moscow Spark
Не, это одна и та же таблица
источник

KR

Kagermanov Ramazan in Moscow Spark
20 прошли за 30 секунд, 2 висели 16 минут
источник

ЕГ

Евгений Глотов... in Moscow Spark
🤔
источник

ЕГ

Евгений Глотов... in Moscow Spark
Это значит, что их 22)
источник

KR

Kagermanov Ramazan in Moscow Spark
Макс таск 24мб/2.5ккк records
источник

KR

Kagermanov Ramazan in Moscow Spark
Да, изначально не уточнял прям точно
источник

ЕГ

Евгений Глотов... in Moscow Spark
Можно посмотреть, сколько каждый таск вычитал рядов
источник

ЕГ

Евгений Глотов... in Moscow Spark
Если 2 таска читали 5млн рядов, а остальные 20 - остальные 3млн, то вот и перекос
источник

ЕГ

Евгений Глотов... in Moscow Spark
Слишком хорошо пожалось)
источник

KR

Kagermanov Ramazan in Moscow Spark
А как этим управлять?
источник

ЕГ

Евгений Глотов... in Moscow Spark
Управлять записью в файл
источник

ЕГ

Евгений Глотов... in Moscow Spark
Чтоб не больше скольки-то рядов
источник

ЕГ

Евгений Глотов... in Moscow Spark
Вроде где-то такой параметр был
источник

KR

Kagermanov Ramazan in Moscow Spark
Для этого задал Макс размер файла
Это не поможет?
источник

ЕГ

Евгений Глотов... in Moscow Spark
А как конкретно параметр называется?
источник

KR

Kagermanov Ramazan in Moscow Spark
spark.sql.files.maxPartitionBytes
источник

ЕГ

Евгений Глотов... in Moscow Spark
1024*1024*144 - это вроде как 144мб, попробуй вместо 144 написать 10 например
источник

KR

Kagermanov Ramazan in Moscow Spark
Кстати, если делать так, не лучше coalesce?
Вроде как сильно быстрее работает
источник