Size: a a a

2020 March 22

SK

Sergej Khakhulin in Data Engineers
Всем доброго вечера, а в YARN можно динамически распределять ресурсы?(есть application spark который работает все время - thrift и в зависимости от количество задач на кластере хотелась бы динамически добавлять и убирать контейнеры из него. По факту днем там только один app - thrift а ночью там появляются scheduler таски для ETL)
источник

SK

Sergej Khakhulin in Data Engineers
Sergej Khakhulin
Всем доброго вечера, а в YARN можно динамически распределять ресурсы?(есть application spark который работает все время - thrift и в зависимости от количество задач на кластере хотелась бы динамически добавлять и убирать контейнеры из него. По факту днем там только один app - thrift а ночью там появляются scheduler таски для ETL)
или где почитать об этом
источник

AZ

Anton Zadorozhniy in Data Engineers
Sergej Khakhulin
Всем доброго вечера, а в YARN можно динамически распределять ресурсы?(есть application spark который работает все время - thrift и в зависимости от количество задач на кластере хотелась бы динамически добавлять и убирать контейнеры из него. По факту днем там только один app - thrift а ночью там появляются scheduler таски для ETL)
это функция не планировщика YARN (он только разрешает или убивает задачи в очереди), а самого приложения, Spark умеет так делать, называется функция Dynamic Allocation https://spark.apache.org/docs/latest/configuration.html#dynamic-allocation
источник

AZ

Anton Zadorozhniy in Data Engineers
если вы хотите менять настройки планировщика внутри дня - то просто меняйте их, такие функции есть у всяких менеджеров, а для ванили напишите скриптов
источник
2020 March 23

SK

Sergej Khakhulin in Data Engineers
Anton Zadorozhniy
если вы хотите менять настройки планировщика внутри дня - то просто меняйте их, такие функции есть у всяких менеджеров, а для ванили напишите скриптов
Спасибо, помогло
источник

SK

Sergej Khakhulin in Data Engineers
И еще вопрос, thift при запросе жирного SQL выдает Error running query: java.lang.OutOfMemoryError: Java heap space, увеличение YARN_HEAPSIZE до 10gb не помогло
источник

AZ

Anton Zadorozhniy in Data Engineers
Sergej Khakhulin
И еще вопрос, thift при запросе жирного SQL выдает Error running query: java.lang.OutOfMemoryError: Java heap space, увеличение YARN_HEAPSIZE до 10gb не помогло
YARN_HEAPSIZE это настройка RM/NM, вам нужно вашему конкретному приложению дать больше памяти - сначала в самом spark, а потом (если объем больше чем максимальный контейнер у вас в YARN) увеличить размер максимального контейнера в YARN
источник

MB

Mikhail Butalin in Data Engineers
Столкнулся с реализацией CDH(cloudera) и большим количеством дисков на одной датаноде. Каждый диск примонтирован отдельно.
источник

MB

Mikhail Butalin in Data Engineers
Я правильно понимаю что репликация HDFS происходит между томами, а не датанодами?
источник

AZ

Anton Zadorozhniy in Data Engineers
Mikhail Butalin
Я правильно понимаю что репликация HDFS происходит между томами, а не датанодами?
нет, репликация происходит между нодами, тома на сервере нужны только для повышения производительности
источник

MB

Mikhail Butalin in Data Engineers
странно...
источник

MB

Mikhail Butalin in Data Engineers
тогда если ноду целиком вырубить то недолжны появляться missing blocks, а у меня появились :)
источник

MB

Mikhail Butalin in Data Engineers
и по доке вроде как написано что между томами реплицируется
источник

АЖ

Андрей Жуков in Data Engineers
Mikhail Butalin
и по доке вроде как написано что между томами реплицируется
балансируется - да
не реплицируется
источник

АЖ

Андрей Жуков in Data Engineers
Mikhail Butalin
тогда если ноду целиком вырубить то недолжны появляться missing blocks, а у меня появились :)
может, где-то поставили setrep 1? %)
источник

MB

Mikhail Butalin in Data Engineers
неа
источник

MB

Mikhail Butalin in Data Engineers
везде - 3
источник

MB

Mikhail Butalin in Data Engineers
это и беспокоит
источник

MB

Mikhail Butalin in Data Engineers
попробую на домашнем стенде воспроизвести, посмотрим что получится
источник

AZ

Anton Zadorozhniy in Data Engineers
временные файлы могут быть с RF1
источник