Телеграмм чат группы metrics

2020 March 11

AR

Вот это главное помнить:
Usually, the only valid use case for the Pushgateway is for capturing the outcome of a service-level batch job
https://prometheus.io/docs/practices/pushing/

источник

12:00пожаловаться #1

VL

Vethopheth Lephanim in Церковь метрик

Yerzhan Zhiyentayev

Да, container_memory_failcnt похоже на правду)

у меня только что oom сработал на 2х машинах убив процессы от которых докер контейнер не сдох и там эта метрика по нулям, и напротив есть контейнеры где она не нулевая и при этом оом на машине вообще не спавнился. Я снова что-то не так понял, да? :(

источник

13:59пожаловаться #2

YZ

Yerzhan Zhiyentayev in Церковь метрик

VL

Vethopheth Lephanim in Церковь метрик

сорян за хайлайт)

источник

14:00пожаловаться #4

VL

Vethopheth Lephanim in Церковь метрик

в общем вопрос открыт: нужно что-то чтоб мониторить оом на машинах

источник

14:01пожаловаться #5

IY

Ilya Yakimavets in Церковь метрик

Я dmesg грепал)

источник

14:02пожаловаться #6

VL

Vethopheth Lephanim in Церковь метрик

ну если нет альтеернатив, то придётся костыль вбить и textfile collector юзать)

источник

14:04пожаловаться #7

A

Andor in Церковь метрик

netconsole + rsyslogd + экспортер из текста на выбор

источник

14:05пожаловаться #8

NZ

Nikolay Zykov in Церковь метрик

node_exporter разве не умеет oom мониторить?

источник

14:09пожаловаться #9

A

Alexander in Церковь метрик

Vethopheth Lephanim

у меня только что oom сработал на 2х машинах убив процессы от которых докер контейнер не сдох и там эта метрика по нулям, и напротив есть контейнеры где она не нулевая и при этом оом на машине вообще не спавнился. Я снова что-то не так понял, да? :(

Возможно, если oom глобальный, а не cgroup-ный, то метрика не накручивается (но тогда вопрос к твоему подходу к управлению ресурсами нод).

источник

14:09пожаловаться #10

VL

Vethopheth Lephanim in Церковь метрик

Nikolay Zykov

node_exporter разве не умеет oom мониторить?

я не нашёл там такой метрики

источник

14:10пожаловаться #11

AR

Alexandr Revko in Церковь метрик

Vethopheth Lephanim

в общем вопрос открыт: нужно что-то чтоб мониторить оом на машинах

мы у себя telegraf и лог парсер его используем

источник

14:10пожаловаться #12

AR

Alexandr Revko in Церковь метрик

метрики, правда, в, проси хоспаде, инфлюкс шлются, но работает как нужно

источник

14:11пожаловаться #13

A

Alexander in Церковь метрик

Vethopheth Lephanim

у меня только что oom сработал на 2х машинах убив процессы от которых докер контейнер не сдох и там эта метрика по нулям, и напротив есть контейнеры где она не нулевая и при этом оом на машине вообще не спавнился. Я снова что-то не так понял, да? :(

Также вопросы есть по поводу того, как так получается, что у тебя кильнулись воркеры в контейнере, а мастер-процесс этого не заметил.

источник

14:11пожаловаться #14

NZ

Nikolay Zykov in Церковь метрик

node_vmstat_oom_kill

источник

14:11пожаловаться #15

VL

Vethopheth Lephanim in Церковь метрик

у меня такой нет :(

источник