Тут недавно произошла интересная история. Модно-молодежно собирая метрики в пром и прикрутив к нему графану и алертинг мы стали спокойно спать по ночам. Помимо традиционных алертов на ресурсы, кубер и каких-то бизнесовых показателей мы везде поставили алерты на отсутствие данных(сервис помер и ничего не отправляет). И вот в один прекрасный день в слак прилетает пачка зеленых алертов из категории "все пропало". Сразу зеленых, красных не было. Пошли разбираться: оказывается кубер решил перезагрузить прометеус и графана на несколько минут потеряла связь с промом что и вызвало недопонимание с ее стороны. Но! Так как алерты на отсутствие данных у нас были, а вот алертов на недоступность data source не было, то о падении мы узнали только пост-фактум.
История смешная, а ситуация страшная: если бы в этот момент свалился еще и прод или вырубился бы весь куб-кластер, то об этом бы мы узнали только от пользователей.
Кароч выводы мы сделали такие: алерты надо тестировать. Причем, перед этим, надо тщательно продумать и приоритезировать все кейсы. Ну и вот парочка крутых видосов про мониторинг\алертинг от Контура:
раз два