Size: a a a

Мониторинг

2019 June 18

IA

Ilya Ableev in Мониторинг
ari force
всем привет. использует ли кто-то какой либо вариант логбука/бортового журнала, для передачи информации по сменам внутри noc команды? подскажите инструмент?
Noc - сетевики?
источник

af

ari force in Мониторинг
не вполне, просто команда мониторинга
источник

IA

Ilya Ableev in Мониторинг
У нас есть дежурная смена мониторинга 🙂
источник

af

ari force in Мониторинг
учитывая некоторый зоопарк систем мониторинга, и довольно большой объем метрик/триггеров, есть проблема передачи информации по сменам. как опция, хотелось бы иметь возможность поиска для выявления каких-то зависимостей и периодичностей инцидентов. как-то сходу такой инструмент не гуглится, может кто-то решал подобную задачу?
источник

IA

Ilya Ableev in Мониторинг
Ща расскажу со своей колокольни
источник

DT

Dmitry Tigrov in Мониторинг
может все алармы со всех систем закидывать в одну систему алертинга и в ней следить? как например пейджер дьюти или чтото бесплатное
источник

П

Паша in Мониторинг
ari force
учитывая некоторый зоопарк систем мониторинга, и довольно большой объем метрик/триггеров, есть проблема передачи информации по сменам. как опция, хотелось бы иметь возможность поиска для выявления каких-то зависимостей и периодичностей инцидентов. как-то сходу такой инструмент не гуглится, может кто-то решал подобную задачу?
Дежурные отдела мониторинга заносят все инциденты в таск-трекер. В них протоколируется ход решения проблем, по необходимости таски линкуются с задачами на отделы разработки/тестирования/эксплуатации, в зависимости от того, как устранялось. Всякого рода ценные указания передаются в отчете за смену в почте на группу рассылки.
источник

af

ari force in Мониторинг
с алертингом как раз проблем нет, как и в целом с задачей по обнаружению и решению инцидентов. проблема есть в передаче информации по смене (а даже скорее через смену), и ее последующем анализе. попутно, не хотелось бы излишне бюрократизировать процесс, и так как подавляющее большинство событий сами по себе не превращаются в задачи для rnd, таск трекеры не выглядят подходящим решением.
источник

af

ari force in Мониторинг
однако, в задачу для rnd может превратится нечто найденое в результате серии событий, например периодически повторяющихся
источник

AE

Ant0n Erem1n in Мониторинг
ari force
однако, в задачу для rnd может превратится нечто найденое в результате серии событий, например периодически повторяющихся
А у вас руководители смены или сервис менеджеры есть? Кто определяет что данная задача - бизнес критикал?
источник

af

ari force in Мониторинг
есть конечно
источник

AE

Ant0n Erem1n in Мониторинг
Может они и буду контролировать исполнение и передачу инфы о тикетах?
источник

TU

Tikhon Uskov in Мониторинг
мы регламентарно обязали в тикетах подробно описывать лог решения инцидента. это нормальная практика.
в конце смены дежурные пишут письмо с копией на руководителя группы и департамента с указанием сложных\нестандартных ситуаций, которые приходилось эскалировать. письмо
1. ускоряет процесс приема-передачи смены, т.к. на словах это реально дольше
2. обеспечивает передачу через одного и далее.

Инциденты ведем в Jira, туда их заносит заббикс, дежурные их подчищаюст. Могу сказать, что чистить лишнее легче, чем заводить новые.
Автозаведение дает ряд преимуществ. Например, по каждому инциденту считается количество повторений, плюс описание всегда совпадает с описанием триггера. Ну и ищется это все на JQL просто великолепно, поэтому никогда не составляет труда найти, что делали другие в подобной ситуациии
источник

AE

Ant0n Erem1n in Мониторинг
Tikhon Uskov
мы регламентарно обязали в тикетах подробно описывать лог решения инцидента. это нормальная практика.
в конце смены дежурные пишут письмо с копией на руководителя группы и департамента с указанием сложных\нестандартных ситуаций, которые приходилось эскалировать. письмо
1. ускоряет процесс приема-передачи смены, т.к. на словах это реально дольше
2. обеспечивает передачу через одного и далее.

Инциденты ведем в Jira, туда их заносит заббикс, дежурные их подчищаюст. Могу сказать, что чистить лишнее легче, чем заводить новые.
Автозаведение дает ряд преимуществ. Например, по каждому инциденту считается количество повторений, плюс описание всегда совпадает с описанием триггера. Ну и ищется это все на JQL просто великолепно, поэтому никогда не составляет труда найти, что делали другие в подобной ситуациии
Очень здорово организованно!
источник

TU

Tikhon Uskov in Мониторинг
Ant0n Erem1n
Очень здорово организованно!
спасибо)
источник

af

ari force in Мониторинг
спасибо, организация интересная, напрямую в мой кейс не копируется. с другой стороны можно подумать об отдельном проекте в jira, откуда часть тикетов пойдет в утиль, часть закроется ноками, и уже что-то полезное пойдет в проект к rnd
источник

af

ari force in Мониторинг
единственное что меня смущает сильно это письма. в моей практике это достаточно быстро превращается в формальность/копипасту/забыл/забил
источник

AE

Ant0n Erem1n in Мониторинг
ari force
единственное что меня смущает сильно это письма. в моей практике это достаточно быстро превращается в формальность/копипасту/забыл/забил
Письма можно заменить на сообщение в чате, но все равно придётся с ними работать.
Иначе изучайте опыт гигантов типа нетфликса. У них vector чудеса творит.
источник

TU

Tikhon Uskov in Мониторинг
ari force
единственное что меня смущает сильно это письма. в моей практике это достаточно быстро превращается в формальность/копипасту/забыл/забил
любое документирование, в том числе подробности в инцидентах, превращается в рутину и, как следствие, копипасту/забыл/забил.

я постарался максимально успростить формат таких писем.

Дежурный прикладывает ссылку на все инциденты, которые были отправлены дальше по процессу (в нашем воркфлоу это фильтр по смене статуса с new в ready), далее коротко:
ссылка на инцидент - кратко суть - кратко, что пришлось сделать.

В итоге, получается весьма сжатое и информативное письмо, которое пишется либо в течение всей смены, либо за 5-7 минут в конце.
Ребята не халтурят, т.к. эти письма сильно экономят их время в первую очередь, уменьшая время, когда дежурные пересекаются.
источник

af

ari force in Мониторинг
ок, спасибо
источник