Size: a a a

2021 September 29

ЕГ

Евгений Глотов... in Moscow Spark
Так как миллиард строк из одного поля это гиг
источник

KR

Kagermanov Ramazan in Moscow Spark
Как я понимаю, изнутри он все равно будет джойнить
источник

PZ

Petr Zhitnikov in Moscow Spark
Точно нет какого-то «дефолтного» значения которое потом выстреливает на джойне? Нуля там, например
источник

ЕГ

Евгений Глотов... in Moscow Spark
Не, он будет группировать, сортировать, но джойнить не будет
источник

KR

Kagermanov Ramazan in Moscow Spark
500 мб это входные данные, дальше уже что угодно по идее может быть
источник

ЕГ

Евгений Глотов... in Moscow Spark
Ты говоришь проблема при чтении
источник

ЕГ

Евгений Глотов... in Moscow Spark
А не при джойне
источник

KR

Kagermanov Ramazan in Moscow Spark
Не, иначе итоговый результат был бы больше
источник

ЕГ

Евгений Глотов... in Moscow Spark
В джойне 200 тасков?
источник

PZ

Petr Zhitnikov in Moscow Spark
Если потом группировка - то с чего бы?)
источник

KR

Kagermanov Ramazan in Moscow Spark
Так, Джоин это же шафлинг?
Если да, то 432(кратное 3 количеству ядер)
источник

KR

Kagermanov Ramazan in Moscow Spark
Там все этапы медленные
источник

ЕГ

Евгений Глотов... in Moscow Spark
Джойн выполняется в число тасков, равное spark.sql.shuffle.partitions
источник

KR

Kagermanov Ramazan in Moscow Spark
Группировка и джоин по одним и тем же полям
источник

KR

Kagermanov Ramazan in Moscow Spark
Это и есть 432 в моем случае
источник

KR

Kagermanov Ramazan in Moscow Spark
По дефолту 200 стояло, поменял на 432, особой разницы не было
источник

ЕГ

Евгений Глотов... in Moscow Spark
Ну значит то, что в 22 таска 16 минут исполняется - это не оно
источник

ЕГ

Евгений Глотов... in Moscow Spark
Ещё раз, а сколько сделан репартишен при записи из предыдущего процесса?
источник

KR

Kagermanov Ramazan in Moscow Spark
Репартишен я не делал
df.rdd.partition.size выдаёт 22
источник

KR

Kagermanov Ramazan in Moscow Spark
Если у меня 128 гб оперативы
Доступно для yarn ~45гб
Как лучше разбить таблицу?
источник