Телеграмм чат группы hadoopusers страница 1417

В sys

22:44пожаловаться #1

Nata in Data Engineers

У меня была схожая проблема на сервере с убунту, там был сервис, который при kernel error ах не мог найти а чем проблема, отъедал все ядра и вешал систему

22:44пожаловаться #2

Nata in Data Engineers

Вылетело из головы, как назывался

22:44пожаловаться #3

Nikita Blagodarnyy in Data Engineers

Polina Azarova

Атоп тоже показывает, но для всяких тредов просто java
Ни флажков ни названия демона)
Вот и гадай что этот за покемон

Может по lsof станет понятнее, кто это?

22:45пожаловаться #4

Надо выловить момент)
Но я попробую накронить что-нибудь вменяемое, спасибо за идею

22:45пожаловаться #5

Anton Zadorozhniy in Data Engineers

strace по процессу показывает на какие вызовы он тратит время

22:46пожаловаться #6

Самый первый вопрос: изоляция cgroups использует или нет?

Если нету изоляции то хоть ты одно ядро попроси, но потом можешь утилизировать все что только можно

22:47пожаловаться #7

Не использует

22:48пожаловаться #8

То есть он может отъесть больше чем выделено под nodemanager?

22:48пожаловаться #9

За что?(

22:48пожаловаться #10

Да, он может запросить вообще 1 vcpu и создать 100500 нагруженных потоков

22:49пожаловаться #11

И утилизирует всю машинку

22:49пожаловаться #12

А как это разруливается? Прибивать сигруппами не очень хочется(
И странно что такое происходит только на нескольких машинах

22:50пожаловаться #13

вообще можно оверкоммитить, если не используются изоляция по cgroups (вроде сейчас у всех отключено, бывают кернелпаники от него) yarn.nodemanager.linux-container-executor.cgroups.strict-resource-usage

22:50пожаловаться #14

Вот поэтому выше и сказали про cgoups

22:50пожаловаться #15

Оверкоммитить - я поняла что увеличивать количество ядер в настройках нодменеджера (больше чем физическое)

22:51пожаловаться #16

Может конфигурация так совпала, на остальных спайки что есть быстро проходят

22:51пожаловаться #17

Да, но возьмем абстрактный spark worker

Он запросил 3 vcpu, ему его выдали, он на эти 3 vcpu запустил 3 рабочих потока.

Вроде все ок

Потом мы вспоминаем что у jvm ещё есть потоки на gc, jit, в самом спарке потоки на io, и всякие blockmanager

Итого вопрос: сколько потоков-ядер сожрёт воркер :)

22:54пожаловаться #18

Anton Zadorozhniy in Data Engineers

вообще надо понять что за джоб, что делает, поговорить с автором.. 30% sys это в любом случае не очень стандартно, мб есть что-то что пользователь не знает или делает не так

22:55пожаловаться #19

Поэтому без изоляции полагаясь только на уоличество vcpu это как "мы джентльмены друг друга не обманываем"