Телеграмм чат группы moscowspark страница 822

Size: a a a

Moscow Spark

1176 membersпожаловаться на группу

2021 September 29

ЕГ

Евгений Глотов... in Moscow Spark

Так как миллиард строк из одного поля это гиг

источник

20:30пожаловаться #1

Kagermanov Ramazan in Moscow Spark

Как я понимаю, изнутри он все равно будет джойнить

источник

20:30пожаловаться #2

Petr Zhitnikov in Moscow Spark

Точно нет какого-то «дефолтного» значения которое потом выстреливает на джойне? Нуля там, например

источник

20:30пожаловаться #3

ЕГ

Евгений Глотов... in Moscow Spark

Не, он будет группировать, сортировать, но джойнить не будет

источник

20:30пожаловаться #4

Kagermanov Ramazan in Moscow Spark

500 мб это входные данные, дальше уже что угодно по идее может быть

источник

20:30пожаловаться #5

ЕГ

Евгений Глотов... in Moscow Spark

Ты говоришь проблема при чтении

источник

20:31пожаловаться #6

ЕГ

Евгений Глотов... in Moscow Spark

А не при джойне

источник

20:31пожаловаться #7

Kagermanov Ramazan in Moscow Spark

Не, иначе итоговый результат был бы больше

источник

20:31пожаловаться #8

ЕГ

Евгений Глотов... in Moscow Spark

В джойне 200 тасков?

источник

20:31пожаловаться #9

Petr Zhitnikov in Moscow Spark

Если потом группировка - то с чего бы?)

источник

20:31пожаловаться #10

Kagermanov Ramazan in Moscow Spark

Так, Джоин это же шафлинг?
Если да, то 432(кратное 3 количеству ядер)

источник

20:32пожаловаться #11

Kagermanov Ramazan in Moscow Spark

Там все этапы медленные

источник

20:32пожаловаться #12

ЕГ

Евгений Глотов... in Moscow Spark

Джойн выполняется в число тасков, равное spark.sql.shuffle.partitions

источник

20:33пожаловаться #13

Kagermanov Ramazan in Moscow Spark

Группировка и джоин по одним и тем же полям

источник

20:33пожаловаться #14

Kagermanov Ramazan in Moscow Spark

Это и есть 432 в моем случае

источник

20:33пожаловаться #15

Kagermanov Ramazan in Moscow Spark

По дефолту 200 стояло, поменял на 432, особой разницы не было

источник

20:33пожаловаться #16

ЕГ

Евгений Глотов... in Moscow Spark

Ну значит то, что в 22 таска 16 минут исполняется - это не оно

источник

20:35пожаловаться #17

ЕГ

Евгений Глотов... in Moscow Spark

Ещё раз, а сколько сделан репартишен при записи из предыдущего процесса?

источник

20:36пожаловаться #18

Kagermanov Ramazan in Moscow Spark

Репартишен я не делал
df.rdd.partition.size выдаёт 22

источник

20:39пожаловаться #19

Kagermanov Ramazan in Moscow Spark

Если у меня 128 гб оперативы
Доступно для yarn ~45гб
Как лучше разбить таблицу?

источник

20:41пожаловаться #20