Телеграмм чат группы hadoopusers страница 3313

Uncel Duk

Есть крутилка у ведра

Тут про что речь?

11:46пожаловаться #1

A

Просто если у вас нету оверкомита, то ярн свои джобы будет держать в указанных пределах

Дальше 2 варианта
1. Если без cgroups то просто процесс убивается(но он трекает по таймеру, в пике можно и больше сожрать, главное не попасться и успеть вернуть)
2. Если с cgroups то как раз будет невозможность алоцировать память (ядро не даст процессу больше чем на него лимиты стоят)

11:47пожаловаться #2

UD

Uncel Duk in Data Engineers

Nikita Blagodarnyy

Тут про что речь?

vm.max_map_count

11:47пожаловаться #3

A

Я бы посмотрел в этот момент в логах мастера, так как в логах контейнера пусто и там просто процесс убит

11:48пожаловаться #4

A

А вот в мастере уже можно найти инфу что попытка алокации больше чем разрешено

11:49пожаловаться #5

N

Alex

Просто если у вас нету оверкомита, то ярн свои джобы будет держать в указанных пределах

Дальше 2 варианта
1. Если без cgroups то просто процесс убивается(но он трекает по таймеру, в пике можно и больше сожрать, главное не попасться и успеть вернуть)
2. Если с cgroups то как раз будет невозможность алоцировать память (ядро не даст процессу больше чем на него лимиты стоят)

Когда вы говорите про оверкоммит, имеется ввиду spark.executor.memoryOverhead?
Я как-то не сталкивался с оверкоммитом памяти в ярне, только с vcores.

11:53пожаловаться #6

A

Нет, я говорю что в хадупе при настройке ярна можно указать памяти больше на нодаменеджере чем действительно есть

То есть мы знаем что джобы не выжирает обычно все. Следовательно модем на машине в 10гб сказать что ярн располагает 12гб

Если свопа нету, то в какой-то момент может случится ситуация что всем не хватит и кто-то упадёт

Видел такие настройки и по памяти и по cpu. Чтобы поднять общий уровень утилизации. Так как частенько воркеры стоят ожидая следующих команд

11:55пожаловаться #7

A

Да, из той же оперы что vcores

11:56пожаловаться #8

A

Но cpu более эластичен чем память :)

11:56пожаловаться #9

A

Поэтому уточнил на всякий случай

11:56пожаловаться #10

A

Вообще как уже говорил я бы проверил сразу логи на драйвере почему умирает воркер, не помню про спарк, но в моём апп мастере я регулярно вижу как парни запрашивают один контейнер под кернел, а потом выжирает и он падает

11:58пожаловаться #11

N

Alex

Нет, я говорю что в хадупе при настройке ярна можно указать памяти больше на нодаменеджере чем действительно есть

То есть мы знаем что джобы не выжирает обычно все. Следовательно модем на машине в 10гб сказать что ярн располагает 12гб

Если свопа нету, то в какой-то момент может случится ситуация что всем не хватит и кто-то упадёт

Видел такие настройки и по памяти и по cpu. Чтобы поднять общий уровень утилизации. Так как частенько воркеры стоят ожидая следующих команд

Не, таким не балуемся. NM выдано меньше, чем физической + еще под ОС и прочее оставлено.

11:58пожаловаться #12

A

Лог контейнера будет пустой, максимум в ноде менеджер логе можно что-то найти

11:59пожаловаться #13

A

Ещё полезно посмотреть мониторинг памяти уже самой ноды

вы думаете что это память, а там откажется что занято только 80%

Андрей Жуков... in Data Engineers

12:00пожаловаться #14

АЖ

Alex

Ещё полезно посмотреть мониторинг памяти уже самой ноды

вы думаете что это память, а там откажется что занято только 80%

Какие-нибудь зомби-запилины или жупитеры легко

12:02пожаловаться #15

A

Да

12:04пожаловаться #16

A

Поэтому посмотреть инфу по ноде

Посмотреть логи мастера/драйвера и логи ноды

12:04пожаловаться #17

N

Хотя про оверкоммит идея интересная. Машины в кластере разные, а настройки нодменеджеров могли раскатать одинаковые. Тогда там, где меньше памяти, может получаться тот самый оверкоммит.

Андрей Жуков... in Data Engineers

12:05пожаловаться #18

АЖ

Nikita Blagodarnyy

Хотя про оверкоммит идея интересная. Машины в кластере разные, а настройки нодменеджеров могли раскатать одинаковые. Тогда там, где меньше памяти, может получаться тот самый оверкоммит.

а вот и колено нашлось

12:05пожаловаться #19

E

Evgeny in Data Engineers

Nikita Blagodarnyy

Хотя про оверкоммит идея интересная. Машины в кластере разные, а настройки нодменеджеров могли раскатать одинаковые. Тогда там, где меньше памяти, может получаться тот самый оверкоммит.

кажется, что правильный путь - уходить от хардкода памяти\ядер и динамически считать все это дело с помощью ansible\salt\puppet