Size: a a a

Церковь метрик

2020 January 17

PR

Paul Rudnitskiy in Церковь метрик
надежность отправки-обработки-безопасности экшнов критична, иначе он как горилла в посудной лавке - все разнесет
источник

A

Andor in Церковь метрик
Ну прометей это не система мониторинга покрывающая любые хотелки, это кирпичик конструктора из которого такую систему можно построить
источник

A

Andor in Церковь метрик
Ты можешь построить свою систему мониторинга на прометее и у тебя даже есть инструменты для этого
источник

A

Andor in Церковь метрик
Но да, хотелось бы чтобы из коробки всё сразу и само :)
источник

A

Andor in Церковь метрик
И аномали детекшон
источник

S

Stas in Церковь метрик
Andor
И аномали детекшон
совсем недавно смотрел доклад от Gitlab на эту тему: https://about.gitlab.com/blog/2019/07/23/anomaly-detection-using-prometheus/. Толково
источник

PR

Paul Rudnitskiy in Церковь метрик
я не прошу все сразу и само. Но мне кажется, что трекинг статуса алерта (экшна) в алертменеджере сильно бы помог
источник

A

Andor in Церковь метрик
Нене, в коробке надо чтобы было
источник

PR

Paul Rudnitskiy in Церковь метрик
экшны дальше я сам подкручу, это нерально сделать сразу удобно для всех (у красного с экшнами серьезные ограничения, например)
источник

S

Stas in Церковь метрик
а, это "быстро дешево качественно" треугольник. Выберите два :)
источник

PR

Paul Rudnitskiy in Церковь метрик
можно подумать, если выбрать "дорого" (например HP OpenView, IBM Tivoli) - станет лучше :)
источник

PR

Paul Rudnitskiy in Церковь метрик
поверьте - не станет, я пробовал
источник

S

Stas in Церковь метрик
Paul Rudnitskiy
я не прошу все сразу и само. Но мне кажется, что трекинг статуса алерта (экшна) в алертменеджере сильно бы помог
не понял про трекинг статуса в alertmanager. В alertmanager можно сделать silence для алерта. В моем случае alertmanager это только часть системы, доставка, ack' и остальное идет уже в Opsgenie
источник

S

Stas in Церковь метрик
и алерить на low level сервисы можно не сразу, только если избыточность стала меньше нужного уровня. High level проверки (алерты из-вне системы) - там да, алертить сразу
источник

S

Stas in Церковь метрик
"По этому на время аварии надо исключить сервисы из мониторинга, иначе ребут будет вечным, особенно, если сервис тяжелый, в стиле JBoss" - в SRE книге про это хорошо написано (cascade failures раздел). Jitter'ы в сервисах нужно, чтобы не флудили в backend\DB пока они не готовы
источник

G

GithubReleases in Церковь метрик
VictoriaMetrics/VictoriaMetrics tagged: v1.32.4
Link: https://github.com/VictoriaMetrics/VictoriaMetrics/releases/tag/v1.32.4
Release notes:
### Changes since v1.32.3

*   Improve error messages when VictoriaMetrics cannot handle too high number of concurrent inserts / selects. Now these messages mention the corresponding command-line flags, which could be used for avoiding these errors.
...
More
источник

S

Stas in Церковь метрик
по хорошему для каждого компонента нужно сделать threat assessment ("что если?") и в бэклог все идеи. В данном случае "что если БД ляжет, как сервис будет себя вести?"
источник

A

Andor in Церковь метрик
Долго и дорого
источник

S

Stas in Церковь метрик
ну ок :) я все сказал (с)
источник

G

GithubReleases in Церковь метрик
VictoriaMetrics/VictoriaMetrics tagged: v1.32.5
Link: https://github.com/VictoriaMetrics/VictoriaMetrics/releases/tag/v1.32.5
Release notes:
lib/uint64set: typo fix in Set.Intersect
источник