Size: a a a

2021 September 29

ЕГ

Евгений Глотов... in Moscow Spark
А кто записывал данные в таблицу? Есть вариант тупо сделать больше файлов?
источник

ЕГ

Евгений Глотов... in Moscow Spark
500мб орк/паркета = 5гб несжатых данных в оперативе
источник

ПФ

Паша Финкельштейн... in Moscow Spark
И ты хочешь сказать что это много?
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Просто блин, ноды же толстые обычно
источник

ЕГ

Евгений Глотов... in Moscow Spark
Стандартный конфиг кластера - 4гб оперативы на вкор, превышаете😆
источник

KR

Kagermanov Ramazan in Moscow Spark
Как раз я и записывал
Входные данных терабайты данных
Нет возможности с ними работать , потому фильтрую данных
В итоге получаю такую выборку, сохранённую в hdfs
источник

ЕГ

Евгений Глотов... in Moscow Spark
После фильтра сколько партиций на запись получается?
источник

ЕГ

Евгений Глотов... in Moscow Spark
20?
источник

KR

Kagermanov Ramazan in Moscow Spark
128 гб нода и 16 ядер
источник

KR

Kagermanov Ramazan in Moscow Spark
Да
источник

ЕГ

Евгений Глотов... in Moscow Spark
Ну вот поэтому и 20 входных тасков
источник

ЕГ

Евгений Глотов... in Moscow Spark
Надо было сразу 144 писать)
источник

KR

Kagermanov Ramazan in Moscow Spark
Это я понял
Не понимаю почему 500 мб так долго обрабатывается
источник

KR

Kagermanov Ramazan in Moscow Spark
С 6 тб не сильно дольше работало
источник

ЕГ

Евгений Глотов... in Moscow Spark
А в чём заключается обработка?
источник

ЕГ

Евгений Глотов... in Moscow Spark
Возможно, исполняется не тот код)
источник

KR

Kagermanov Ramazan in Moscow Spark
ДФ.джоинДФ по 3 полям.группировка по 3 полям.сум-колумн
источник

KR

Kagermanov Ramazan in Moscow Spark
Не, не так все плохо😂
источник

ЕГ

Евгений Глотов... in Moscow Spark
А какая стадия медленно работает?
источник

KR

Kagermanov Ramazan in Moscow Spark
Маппинг
источник