Size: a a a

2021 August 29

ЕГ

Евгений Глотов... in Moscow Spark
И какой максимальный count(1) group by dt?
источник

Н

Никита in Moscow Spark
Shuffle Read Size / Records 83.9 GB / 3878446519
Shuffle Spill (Memory) 367.9 GB
Shuffle Spill (Disk)   105.0 GB
источник

Н

Никита in Moscow Spark
6 млн. примерно
источник

ЕГ

Евгений Глотов... in Moscow Spark
Кстати, репартишен не приводит к записи в папку, он только данные между нодами таскает, папки создаются с помощью
Write.partitionBy(column_name)
источник

Н

Никита in Moscow Spark
да я понимаю, df.repartition("dt").write.save(path, partitionBy="dt", mode="overwrite") все просто делаю
источник

ЕГ

Евгений Глотов... in Moscow Spark
Многовато, особенно если большой ряд
источник

Н

Никита in Moscow Spark
4 executor 20 core 16G
источник

Н

Никита in Moscow Spark
В моем понимании прочитал за dt=2018-01-01 отпроцессил записал в dt=2018-01-01
источник

ЕГ

Евгений Глотов... in Moscow Spark
20 коре на все 4 экзекутора, или на каждый?
источник

Н

Никита in Moscow Spark
на каждый
источник

ЕГ

Евгений Глотов... in Moscow Spark
Репартишен перелопачивает всё заново
источник

ЕГ

Евгений Глотов... in Moscow Spark
Без учёта того, как оно было до этого
источник

ЕГ

Евгений Глотов... in Moscow Spark
С объёмом оперативки беда на кластере?
источник

ЕГ

Евгений Глотов... in Moscow Spark
16гб на 20 коров это очень мало
источник

Н

Никита in Moscow Spark
Да я просто по вышеупомянутой логике думал взял одну дату и записал
Если не умеет, то попробую запихнуть, как можно больше памяти
источник

ЕГ

Евгений Глотов... in Moscow Spark
Стандартный конфиг - 4 гб на 1 ядро
источник

ЕГ

Евгений Глотов... in Moscow Spark
Для 20 ядер можно поменьше
источник

Н

Никита in Moscow Spark
А ты можешь подсказать можно ли как-то оптимизировать эту логику с помощью кода?
Прочитал  одну дату -> groupBy -> записал одну дату
источник

ЕГ

Евгений Глотов... in Moscow Spark
Ну, самый простой варик - цикл накидать по датам
источник

ЕГ

Евгений Глотов... in Moscow Spark
Если долго работает - запускать задачи на несколько дат в параллель
источник