Ещё вопрос, чтобы два раза не вставать. На ocp 3.11 кроме prometheus alerts ещё поставили Tivoli agents которые мониторят процессы ocp на самих нодах. В 4.6/7 особо много чего на coreos не поставишь. Как отмониторить факт того, что кластер упал? В этом случае prometheus alerts естественно не будут посылаться... Думала построить какой нибудь алерт вне ocp который будет зажигаться если в течении какого то времени нет prometheus alerts. Но вроде как то кривовато. Может есть что-то что все таки можно поставить на coreos с целью промониторить кластер не основываясь на prometheus?
Дергайте внешним мониторингом статус бэкендов лоадбалансера аписервера. Или просто курлить сам аписервер.
Будет самый настоящий мониторинг, не зависящий от объекта контроля.
Ну или канарейка, как Вадим предлагал.