Телеграмм чат группы moscowspark страница 740

Господа, подскажите, пожалуйста:
в каких случаях использование

coalesce(1) или
repartition (1)

перед записью паркета в hdfs будет хорошей практикой, а в каком случае этого стоит избегать?

источник

17:43пожаловаться #10

ДД

Джон Дориан... in Moscow Spark

Плюсы понятно какие - меньше файлов на кластере.
Но если это не последний слой данных, и на следующем шаге пайплайна этот же паркет будет читаться Спарком - будут ли проблемы с параллелизмом?

источник

17:46пожаловаться #11

No Name in Moscow Spark

Обычно имеет смысл только тогда, когда размер выходного датасета оч маленький.
Причем коалеск стоит использовать аккуратно, желательно при грамотном разбиении на отдельные пайплайны через .cache() или .checkpoint, иначе спарк закинет его в план запроса максимально рано, и запрос будет крайне медленно отрабатывать.

источник

17:47пожаловаться #12

ДД

Джон Дориан... in Moscow Spark

Понял, спасибо большое!

источник

17:52пожаловаться #13

ЕГ

Евгений Глотов... in Moscow Spark

Если файл больше 256 мегов, то он сам разобъётся на блоки, и блоки параллельно в следующих джобах будут считываться

источник

18:29пожаловаться #14

ЕГ

Евгений Глотов... in Moscow Spark

Вообще общая рекомендация такая - сначала попробовать сделать репартишен как можно меньше, если запись слишком долгая - увеличить число партиций. Тут должен быть баланс между размером файла и временем записи, если у вас 2 часа один таск записи работает, а от него потом зависит весь остальной пайплайн и итоговые витрины, тоже наверно нехорошо, а вдруг упадёт, придётся ещё два часа ждать

источник

18:31пожаловаться #15

No Name in Moscow Spark

А за это какая настройка в конфиге отвечает?

источник

18:34пожаловаться #16

ЕГ

Евгений Глотов... in Moscow Spark

Ходуб за это отвечает, размер блока😆

источник

18:34пожаловаться #17

No Name in Moscow Spark