Size: a a a

2021 July 31

VI

Vladimir Ilyushkin in Moscow Spark
Это где то в логах?
источник

ЕГ

Евгений Глотов... in Moscow Spark
Нет, веб-интерфейс, если у вас ярн, то там можно найти ссылку на каждое спарк-приложение
источник

VI

Vladimir Ilyushkin in Moscow Spark
Ресурс менеджер
источник

ЕГ

Евгений Глотов... in Moscow Spark
Да, там справа будет ссылка на application master
источник

ЕГ

Евгений Глотов... in Moscow Spark
Это и есть спарк юи
источник

VI

Vladimir Ilyushkin in Moscow Spark
Пытался там смотреть, но надо знать, где и что смотреть куча ссылок проваливашься и их ещё больше😊
источник

ЕГ

Евгений Глотов... in Moscow Spark
Можно начать с вкладки sql, там будет план запроса, хотя бы будет понятно, броадкаст джойн или сортмёрдж
источник

ЕГ

Евгений Глотов... in Moscow Spark
Для каждого запроса будет ссылка на джобы, с помощью которых он выполняется
источник

ЕГ

Евгений Глотов... in Moscow Spark
Дальше уже конкретный джоб смотреть - сколько данных считал, сколько сложил в spill, сколько записал
источник
2021 August 01

ДД

Джон Дориан... in Moscow Spark
Господа, подскажите, пожалуйста:
в каких случаях использование

coalesce(1) или
repartition (1)

перед записью паркета в hdfs будет хорошей практикой, а в каком случае этого стоит избегать?
источник

ДД

Джон Дориан... in Moscow Spark
Плюсы понятно какие - меньше файлов на кластере.
Но если это не последний слой данных, и на следующем шаге пайплайна этот же паркет будет читаться Спарком - будут ли проблемы с параллелизмом?
источник

NN

No Name in Moscow Spark
Обычно имеет смысл только тогда, когда размер выходного датасета оч маленький.
Причем коалеск стоит использовать аккуратно, желательно при грамотном разбиении на отдельные пайплайны через .cache() или .checkpoint, иначе спарк закинет его в план запроса максимально рано, и запрос будет крайне медленно отрабатывать.
источник

ДД

Джон Дориан... in Moscow Spark
Понял, спасибо большое!
источник

ЕГ

Евгений Глотов... in Moscow Spark
Если файл больше 256 мегов, то он сам разобъётся на блоки, и блоки параллельно в следующих джобах будут считываться
источник

ЕГ

Евгений Глотов... in Moscow Spark
Вообще общая рекомендация такая - сначала попробовать сделать репартишен как можно меньше, если запись слишком долгая - увеличить число партиций. Тут должен быть баланс между размером файла и временем записи, если у вас 2 часа один таск записи работает, а от него потом зависит весь остальной пайплайн и итоговые витрины, тоже наверно нехорошо, а вдруг упадёт, придётся ещё два часа ждать
источник

NN

No Name in Moscow Spark
А за это какая настройка в конфиге отвечает?
источник

ЕГ

Евгений Глотов... in Moscow Spark
Ходуб за это отвечает, размер блока😆
источник

NN

No Name in Moscow Spark
Ну так у спарка же свое мнение на этот счёт, свой конфиг)
источник

ЕГ

Евгений Глотов... in Moscow Spark
Не, если посмотришь, как записывается большой файл, через хдфс веб Юи, там будет список блоков
источник

ЕГ

Евгений Глотов... in Moscow Spark
Любой блок конечно считывается независимо, ещё у спарка есть инпут сплиты, но они чёт не очень хорошо работают
источник