Телеграмм чат группы moscowspark страница 731

если сделать partitionby с lower/upperbound на чтении, то сразу получится несколько партиций и дальше спокойно по одной запишутся в столько потоков, сколько экзекьюторов найдётся

источник

21:46пожаловаться #7

Chern Oleksander in Moscow Spark

а можно какую-то статейку про это, что-то в доках не могу найти (

источник

21:49пожаловаться #8

Chern Oleksander in Moscow Spark

Спасибо!

источник

21:49пожаловаться #9

Viacheslav Nefedov in Moscow Spark

https://sparkbyexamples.com/spark/spark-partitioning-understanding/

Spark by {Examples}

Spark Partitioning & Partition Understanding — SparkByExamples

Spark/PySpark partitioning is a way to split the data into multiple partitions so that you can execute transformations on multiple partitions in parallel

источник

22:20пожаловаться #10

Viacheslav Nefedov in Moscow Spark

в статье написано "ставьте количество партиций минимальным, но достаточным чтобы были загружены все экзекьюторы"

источник

22:22пожаловаться #11

2021 July 27

ЕГ

Евгений Глотов... in Moscow Spark

А лучше ставьте количество репартишена так, чтоб потом хдфс от миллиона килобайтных файликов не разгребать

источник

01:42пожаловаться #12

ЕГ

Евгений Глотов... in Moscow Spark

Джоба закончится, а тормоза - нет

источник

01:42пожаловаться #13

ЕГ

Евгений Глотов... in Moscow Spark

Если загружать все экзекуторы при записи)

источник

01:43пожаловаться #14

Snoop Duck in Moscow Spark

Всем привет! Подскажите пожалуйста, есть директория на хдфс с большим количеством мелких паркетов с общим размером 3.4Гб. Я хочу переложить эти файлы в новую директорию и сократить их количество для оптимизации хранения, а от старой избавиться. Соответственно прикинул количество файлов, которые мне нужно получить по окончании спарк джобы как 3.4 * 1024 / 128 ~ 28. Написал простую джобу вида spark.read.parquet().repartition(28).write.parquet(). Запустил и в результате получил 28 файлов с общим объёмом 6.1Гб, что почти в 1.6 раза больше. Почему так происходит? И можно ли как-то добиться результата близкого к оригиналу? Попробовал запустить такую же джобу с repartition(1) и получил 3.7Гб в аутпуте, но скорость работы меня не устраивает.

источник

02:01пожаловаться #15

ЕГ

Евгений Глотов... in Moscow Spark

А сжатие какое? Может те мелкие гзипом сжаты, а у вас на выходе снаппи получился

источник

02:41пожаловаться #16

Snoop Duck in Moscow Spark

Снаппи и там, и там

источник

02:43пожаловаться #17

ЕГ

Евгений Глотов... in Moscow Spark

Гипер странно, что 1 файл получился меньше, чем куча мелких

источник

02:57пожаловаться #18

ЕГ

Евгений Глотов... in Moscow Spark

Проверьте ещё раз объём на входе, на всякий пожарный, вдруг туда кто-то 15 гигов догрузил)

источник

02:58пожаловаться #19

Alex in Moscow Spark

возможное объяснение:
1) в мелких была сортировка по некоторым полям (например какой customer_name и тд, где dictionary encoding может работать), поэтому сжатие отработало получше
2) когда делал репартишен, то это всё поплыло
3) в одном файле худо-бедно оно опять работало

источник

03:10пожаловаться #20