Тут еще вопрос и по поводу триггеров ,к примеру есть лаг репликации ( в мегабайтах ) ,непонятно какое значение лага норма а после какого уже надо алертить ,для примера: я выставил триггер лага на {Template Patroni:patroni.postgresql.node.lag.last(}>10 и буквально в туже ночь лаг вырос за пару часов до 800 мегабайт, а потом самоустранился. После этого(чтобы убрать ненужные флапы) я выставил алерт лага на
{Template Patroni:patroni.postgresql.node.lag.min(90m)}>10 ,но это как мне кажется костыль. В общем моя боль в том я не понимаю какие значения нужно указывать для триггеров лага =/
Кажется нашел ответ на свой вопрос ,мой мониторинг валиден но нужно чтобы в кластере была хотя бы одна нода без лага (вот на это нужен алерт ) и минимум 3 ноды в кластере ,тк в patroni есть прекрасная настройка maximum_lag_on_failover и если у тебя кластере из 2-х нод ,и на одной из них есть лаг и мастер внезапно падает то ты получишь неработующую постгрю и патрони тебя не спасет .Всем спасибо