а есть еще "ложные" срабатывания мониторинга и тут понятие "закрыли с РЕАЛЬНЫМИ исправлениями" играет новыми красками =))
в том то и дело что "не ложные"
там даже аномалии не детектились
и выбросы по 0.9 персентилю latency
но вот например сейчас стоит дилемма
большинство тех, кто начинает использовать кликхаус, используют его сначала неправильно (криво вставляют в основном)
алерты на это срабатывают
и тут интересный вопрос
для SaaS сервиса, что делать если клиентов много? проактивный подход (когда мы говорим клиентам чем конкретный алерт может грозить в ближайшем будующем) не масштабируется, пассивный подход (вот вам алерты, а дальше как хотите так и реагируйте) тоже не работает, потому что в последствии приводит к плохому пользовательскому опыту (clickhouse тормозит ;)
и я вот не вижу никакого решения =)
ну ребят из ClickHouse team в итоге заставят сделать WAL + in-memory parts похоже в этом году, но лично я сомневаюсь что это правильный подход и скорее всего он будет тормозить и вместо 1kk строк в секунду, давать жалкие 100-200k как у MySQL с LOAD DATA