у меня только что oom сработал на 2х машинах убив процессы от которых докер контейнер не сдох и там эта метрика по нулям, и напротив есть контейнеры где она не нулевая и при этом оом на машине вообще не спавнился. Я снова что-то не так понял, да? :(
Нет, канеш. А там, где архитектура nginx-like - там сам мастер-процесс всё умеет делать как нужно. Правда, при сборе метрик приходится страдать в этом разе (где делать агрегацию?)
но к сожалению флоу на базе тасктрекера почти всегда становится довольно не приятным особенно в моменте группировки алертов в инцидент
инцидент на самом деле не про алерты. инцидент про коммуникацию с кастомером и другими заинтересованными. алерты в нем очень малая часть и каждый раз связь с алертами уникальная.