И снова про Alertmanager от Prometheus
Смотреть актуальные алерты в почте/слаке/телеграме не самая приятная затея. Поэтому мы используем плагин для Grafana:
http://bit.ly/2ttHY25Но потом появился вопрос как посчитать кол-во однотипных проблем, самые популярные алерты, ну и все в этом роде. Это позволит провести некоторый тюнинг, понизить критичность и так далее. Хотя понизить уровень severity в не нужных местах удалось так: поставили ардуину со здоровенной мигалкой, она бегает в апишку alertmanager и если есть critical на проде - крутит 🚨 Осталось прикрутить Алису, чтобы она кричала что-нибудь по немецки.
В общем у алертменеджера есть ручка с метриками
/metrics, но в ней нет метрик по конкретным алертам и чего либо более менее интересного. На гитхабе они сами предлагают через webhook слать события к примеру в Elasticsearch. Парни из cloudflare так и сделали:
http://bit.ly/2tDLdUsПока не пробовал, результатами не поделюсь ☹️
На десерт предлагаю почитать статью от Uber про on-call dashboard:
https://ubr.to/2TN63f4