Size: a a a

Церковь метрик

2020 January 17

A

Andrey Afoninskiy in Церковь метрик
Paul Rudnitskiy
видимо хочется как в заббиксе: если есть аларм "веб-сервер не отвечает" - перезапустить сервис
а ну да, актуальненько, я скоро буду такую проблему решать - пока сделал через вебкухи и кастоменые штуковины
источник

A

Andor in Церковь метрик
Paul Rudnitskiy
видимо хочется как в заббиксе: если есть аларм "веб-сервер не отвечает" - перезапустить сервис
Чтобы оно по ssh ходило и выполняло команды от рута?
источник

A

Andrey Afoninskiy in Церковь метрик
но я тут вижу проблему отслеживания мониторинга, если вебхуки не работают то как об этом узнать :)
источник

A

Andor in Церковь метрик
Andrey Afoninskiy
но я тут вижу проблему отслеживания мониторинга, если вебхуки не работают то как об этом узнать :)
Мониторингом ;)
источник

A

Andrey Afoninskiy in Церковь метрик
we need to go deeper? )
источник

A

Andor in Церковь метрик
Метрики же вроде есть про это
источник

YZ

Yerzhan Zhiyentayev in Церковь метрик
Andrey Afoninskiy
а ну да, актуальненько, я скоро буду такую проблему решать - пока сделал через вебкухи и кастоменые штуковины
вроде stackstorm для таких целей есть. но я не пробовал. там авторизация через жопу
источник

A

Andrey Afoninskiy in Церковь метрик
игрался, не зашло - больше serverless понравилось для этого (все равно надо только вебкухи туда-сюда пересылать)
источник

A

Andrey Afoninskiy in Церковь метрик
это, туплю чета
- name: sli-errate-le20
   interval: 5m
   rules:
   - record: errrateless02:up
       expr: sum(rate(http_request_duration_milliseconds_count{status=~"[5].."}[5m])) / sum(rate(http_request_duration_milliseconds_count[5m])) < bool 0.2
в этом правиле errrateless02:up создается без учета лейблов http_request_duration_milliseconds_count
а если я хочу создать отдельные errrateless02:up для каждого из лейблов - это можно сделать в этом же правиле, или надо создавать отдельные правила?
источник

PR

Paul Rudnitskiy in Церковь метрик
Nklya
ты про штуку, которая делает всякое разное через вебхуки?
ну да. Других вариантов нет, но вебхуки позволяют сделать довольно много. Это дичь, извращение, но работать будет
источник

PR

Paul Rudnitskiy in Церковь метрик
по хорошему там нужен механизм обратной связи какого-то рода, в стиле "этот сервис перезагружается, убрать из мониторинга на 10 минут", но на безрыбье придется есть лягушек
источник

A

Andor in Церковь метрик
Paul Rudnitskiy
по хорошему там нужен механизм обратной связи какого-то рода, в стиле "этот сервис перезагружается, убрать из мониторинга на 10 минут", но на безрыбье придется есть лягушек
Метрика?
источник

PR

Paul Rudnitskiy in Церковь метрик
Andor
Метрика?
почти. смотри, у тебя есть метрика, которая говорит, что что-то сломалось. За ней вызывается действие, которое должно это что-то починить, но на время починки оно может спровоцировать каскадный отказ по метрикам (ребутнул базу - все приложения полегли) на какое-то время. По этому на время аварии надо исключить сервисы из мониторинга, иначе ребут будет вечным, особенно, если сервис тяжелый, в стиле JBoss
источник

A

Andor in Церковь метрик
Ну ты можешь зажигать специальную метрику, когда едешь что-то жырное рестартить и по этой метрике делать алерт с inhibit
источник

A

Andor in Церковь метрик
Даже будет работать
источник

A

Andor in Церковь метрик
Да, это всё не в коробке
источник

PR

Paul Rudnitskiy in Церковь метрик
да, это такой выход на улицу через окно. можно, но неудобно. В идеале метрика должна зажигаться сама. Плюс тут надо как-то обязать алертменеджер проверять, что:
- экшн действительно отправился. Его не надо отправлять повторно
- экшн выполнился (а если не выполнился - отправить его повторно или зажечь аварию с более высоким приоритетом)
источник

A

Andor in Церковь метрик
Paul Rudnitskiy
да, это такой выход на улицу через окно. можно, но неудобно. В идеале метрика должна зажигаться сама. Плюс тут надо как-то обязать алертменеджер проверять, что:
- экшн действительно отправился. Его не надо отправлять повторно
- экшн выполнился (а если не выполнился - отправить его повторно или зажечь аварию с более высоким приоритетом)
Кому должна?
источник

PR

Paul Rudnitskiy in Церковь метрик
в идеале)
источник

PR

Paul Rudnitskiy in Церковь метрик
скажем так, как я хотел бы, чтобы этот конструкт работал
источник