пиздец у тебя каша в голове
Kibana Это смотрелка в эластик с графиками
такая же убогая как grafana
то есть свистелок перделок много, а толка мало
мониторинг это или prometheus + alertmanager (ну может karma если вдруг от алертинга дашборды отдельные нужны будут) или zabbix
в мониторинге главное ПРАВИЛЬНЫЕ алерты (это вроде бы можно достигнуть) и правильная на них реакция (этого я пока НИГДЕ не видел за 20 лет и не знаю как этого добиваются в других местах)
иначе он бесполезен
чтобы были правильные алерты, нужны грамотно заданные по SRE показатели SLA / SLO / SLI
https://www.atlassian.com/incident-management/kpis/sla-vs-slo-vs-sliкроме базовых алертов (типа сожрали диск, сожрали cpu, сожрали сеть, сожрали память. своп и ошибки по диску , сети, памяти и рестарты всякие)
есть еще метрики SLI выросшие из SRE, типа apdex, saturation и т.п. персентили latency
еще есть RUM метрики (монитоирнг)
еще есть мониторинг сети (типа пингуешь сам себя отовсюду, раньше я советовал
https://worldping.raintank.io, но он заглох), и RUM метрики стало модно мерять самостоятельно через какую нибудь jinba или
site24x7.comи есть еще Бизнес метрики (кол-во регистраций новых юзеров в час, кол-во заказов) для них есть balerter