Вот это главное помнить: Usually, the only valid use case for the Pushgateway is for capturing the outcome of a service-level batch job https://prometheus.io/docs/practices/pushing/
у меня только что oom сработал на 2х машинах убив процессы от которых докер контейнер не сдох и там эта метрика по нулям, и напротив есть контейнеры где она не нулевая и при этом оом на машине вообще не спавнился. Я снова что-то не так понял, да? :(
у меня только что oom сработал на 2х машинах убив процессы от которых докер контейнер не сдох и там эта метрика по нулям, и напротив есть контейнеры где она не нулевая и при этом оом на машине вообще не спавнился. Я снова что-то не так понял, да? :(
Возможно, если oom глобальный, а не cgroup-ный, то метрика не накручивается (но тогда вопрос к твоему подходу к управлению ресурсами нод).
у меня только что oom сработал на 2х машинах убив процессы от которых докер контейнер не сдох и там эта метрика по нулям, и напротив есть контейнеры где она не нулевая и при этом оом на машине вообще не спавнился. Я снова что-то не так понял, да? :(
Также вопросы есть по поводу того, как так получается, что у тебя кильнулись воркеры в контейнере, а мастер-процесс этого не заметил.