Size: a a a

2021 July 23

ЕГ

Евгений Глотов... in Moscow Spark
При джойне нужно эти 5тб разместить в темп
источник

ЕГ

Евгений Глотов... in Moscow Spark
У вас свободного темп на кластере 6гб
источник

ЕГ

Евгений Глотов... in Moscow Spark
При 90% забитии дисков начинают с кластера отваливаться ярн ноды
источник

ЕГ

Евгений Глотов... in Moscow Spark
У вас забитие 146%
источник

ЕГ

Евгений Глотов... in Moscow Spark
Читайте таблицы кусками по 50гб, может отсчитается
источник

VI

Vladimir Ilyushkin in Moscow Spark
Они не партицированные
источник

VI

Vladimir Ilyushkin in Moscow Spark
Цельный паркет
источник

VI

Vladimir Ilyushkin in Moscow Spark
Как ни крути это ресурсы
источник

VI

Vladimir Ilyushkin in Moscow Spark
Спасибо коллеги
источник

ЕГ

Евгений Глотов... in Moscow Spark
Можно пофайлово читать
источник

VI

Vladimir Ilyushkin in Moscow Spark
Не умею
источник

ЕГ

Евгений Глотов... in Moscow Spark
Научиться быстрее, чем закупить новые ноды в кластер)
источник

ЕГ

Евгений Глотов... in Moscow Spark
Просто нужно сформировать список файлов в хдфс в папке конкретной таблицы
источник

ЕГ

Евгений Глотов... in Moscow Spark
Разбить его в питончике на части например
источник

ЕГ

Евгений Глотов... in Moscow Spark
И считать эти части
источник

VI

Vladimir Ilyushkin in Moscow Spark
Идею понял спасибо
источник

М

Мохаммад Реза... in Moscow Spark
No change...
jedisConfig.setMaxWaitMillis(500)
jedisConfig.setMaxWaitMillis(8000)
источник
2021 July 26

ИТ

Илья Ткачев... in Moscow Spark
Привет, есть возможные решения? spark 2.4.4
источник

ИТ

Илья Ткачев... in Moscow Spark
Переслано от Илья Ткачев...
Знатоки спарка подскажите пожалуйста как можно решить такую проблему.

Есть большой граф вычислений с кучей join/groupby и прочего. На одном из stage непонятно с чем связанного (по картинке графа вычислений это не join) жуткий перекос в данных, одна таска принимает слишком много.

Как мне проще всего найти нужный проблемый stage, чтобы прооптимизировать его?

пока самый тупой вариант вижу навешивать сохранение на диск после каждого groupby и join, чтобы найти эту операцию. Но он довольно долгий.

есть еще такая вещь как sparkContext.setJobGroup , но она сетит лейбл в ui для целой джобы, но для stage нельзя такое нельзя разметить
источник

N

Nail in Moscow Spark
Знакомая проблема. Тоже хотел бы узнать кто как решает. Я делал по описанному тупому варианту, правда не после каждого джоина сохранял, а примерно вычислил на каком этапе, и сохранял примерно "возле" проблемной операции.
источник