если рестарт сервиса в предалах 10-15 секунд происходит более одного раза я думаю точное время каждого рестарта нужно только для анекдота в столовой или для постмортема
SLA по уведомлениям 1 минута с момента падения до момента отправки почты. И погрешность факта падения минута вполне нормально. Главное, чтобы даже если система поднялась за 1 секунду, всё равно пошло уведомление и получили на графике точку
В таком варианте, получается, я могу не заметить падение сервиса, если он успеет восстановиться до следующего опроса Prometheus. Нам критично важно регистрировать все факты именно