Size: a a a

2022 February 04

PL

Pavel Lu in Moscow Spark
т.е. такое поведение - оно вообще нормальное, или это не норма и мне нужно искать у себя какие-то особенности?
источник

ИК

Иван Калининский... in Moscow Spark
сотня гигов и 300 партиций по умолчанию? Что-то явно не так
источник

PL

Pavel Lu in Moscow Spark
основное бутылочное горлышко это CPU
источник

PL

Pavel Lu in Moscow Spark
поэтому много партиций
источник

k

kvadratura in Moscow Spark
вы выставляете spark.default.parallelism где-нибудь?
источник

PL

Pavel Lu in Moscow Spark
ага
источник

PL

Pavel Lu in Moscow Spark
уже. Не стоило?
источник

PL

Pavel Lu in Moscow Spark
тоже в 3к ставил
источник

k

kvadratura in Moscow Spark
может, тогда просто докинуть ядер экзекюторам? не меняя код
источник

ИК

Иван Калининский... in Moscow Spark
чем записаны и как сжаты паркетники?
источник

k

kvadratura in Moscow Spark
файлов тоже 300? или именно "директорий"?
источник

PL

Pavel Lu in Moscow Spark
файлов, да
источник

PL

Pavel Lu in Moscow Spark
хм, попробую
источник

k

kvadratura in Moscow Spark
если они записаны пандасом каким-нибудь, там нередко может быть 1 row group на весь файл. т. е. получится не splittable

но я так понимаю, тут в другом проблема 🤔
источник

PL

Pavel Lu in Moscow Spark
спарком, snappy. При записи был repartition(300)
источник

k

kvadratura in Moscow Spark
обычно при чтении такого не будет ровно 300 партиций все равно 🤔 что-то подозрительно
источник

PL

Pavel Lu in Moscow Spark
ну да, не то слово)
источник

ИК

Иван Калининский... in Moscow Spark
пока выглядит как если бы в данных было 300 уникальных значений, но если пробовали repartition по rand и без указания поля, то спарк разделил бы и эти три сотни
источник

k

kvadratura in Moscow Spark
как пришли к такому выводу?
источник

PL

Pavel Lu in Moscow Spark
а вот кстати надо глянуть файлы. Может там и правда то густо то пусто
источник