Size: a a a

2022 February 04

PL

Pavel Lu in Moscow Spark
данных мало, а вычислений требуется много
источник

PL

Pavel Lu in Moscow Spark
расчет хорошо реагирует на добавку ядер
источник

ИК

Иван Калининский... in Moscow Spark
попробуйте EDA провести, хотя бы на предмет количества записей, и сколько их в каждом файле
источник

k

kvadratura in Moscow Spark
ну, может, тогда и репартицировать не нужно? дикинуть ядер и усе
источник

PL

Pavel Lu in Moscow Spark
EDA? А что это?
источник

k

kvadratura in Moscow Spark
но плсмотрите в UI, есть ли признаки skew. то, о чем коллега говорит - глянуть, что там в инпуте +  -
источник

k

kvadratura in Moscow Spark
exploratory data analysis
источник

ИК

Иван Калининский... in Moscow Spark
exploratory data analysis
источник

PL

Pavel Lu in Moscow Spark
конечно, в UI наблюдаю skew
источник

ИК

Иван Калининский... in Moscow Spark
источник

k

kvadratura in Moscow Spark
можете просто сделать read, вызвать ф-ю input_file_name и сгруппировать count по ней
источник

PL

Pavel Lu in Moscow Spark
спасибо, попробую
источник

k

kvadratura in Moscow Spark
причина skew может быть и не в инпуте, а в том, что за расчеты вы делаете
источник

ИК

Иван Калининский... in Moscow Spark
может оконные функции в запросах?
источник

ИК

Иван Калининский... in Moscow Spark
ну просто spark.read.parquet(path).repartition(3000) не может не раскидать записи, если они вообще есть)
источник

PL

Pavel Lu in Moscow Spark
в этом и был мой вопрос
источник

PL

Pavel Lu in Moscow Spark
оконок нет
источник

PL

Pavel Lu in Moscow Spark
я кое что накопал - делаю dataset.repartition(oldPartitionNum + 1), и это работает
источник

k

kvadratura in Moscow Spark
но есть в дате что-то с cardinality = 300, судя по всему 🤔 и если оно используется в shuffled операциях, repartition может быть без толку. но это оч странно все..
источник

PL

Pavel Lu in Moscow Spark
но там большая логика, и в неё впихнуть репартишн.... хз. Может поиграться shuffle.partitions?
источник