если приложение знает о своей недоступности(таймауты на конекшенах, не 200 ск), то оно может и экспортить соответствующую метрику (счетчик), который будет аккумулировать все ошибки.
аналогично можно экспортить метрики с клиентов этого приложения, если вы контролируете их.
В случае с прометеусом всегда нужно помнить, что скрейпы происходят в случайное время и соответственно проектировать мониторинг. Например, у вас есть рейтлимитинг и вы хотите знать когда он срабатывает. Обычная метрика по кол-ву запросов может не показать этого, т.к. неизвестно когда прометеус соберет эти данные. Поэтому лучше в самом приложение записывать случаи срабатывания лимитера в отдельный счетчик и эксопртить еще и его.
Можно еще использовать
https://github.com/netdata/netdata и писать в ремоут какой-то.