Ааа
У нас заббикс используется для траблшуттинга ещё, а не просто тупо пульнуть аварию.
Пример.
Мониторится multipath на серверах.
Метрика возвращает: 3 — все норм, 2 — часть путей отъехало, потери резерва нет, 1 — потеря резерва, 0 — полная деградация.
Обновляли SAN-директоры, оба плеча с перерывом.
В какой-то момент один из серверов предбиллинга вдруг перезагрузился.
Стали разбираться почему.
И по корреляции графиков мониторинга icmp и multipath, выяснили, что после обновления первого плеча SAN, драйвер multipath на сервере не присосался к СХД по первому плечу. Через время стали обновлять второе плечо, и сразу сервер ушёл в ребут.
Далее стали копать в драйвере и нашли проблему.
Вот один из кейсов использования последних данных: когда кучи команд. Одни отвечают за ОС, вторые за СХД и SAN, третьи за сервис, четвёртые за сеть, и т.д.
То каждый собирает свою пачку метрик, чтобы иметь фактуру для разбора таких ситуаций.