Size: a a a

Церковь метрик

2020 February 20

АС

Антон Сенько in Церковь метрик
тьфу, все. вопрос снят
источник

АС

Антон Сенько in Церковь метрик
Andor
pod_name / pod
именно тут косяк
источник

АС

Антон Сенько in Церковь метрик
у container_cpu_usage_seconds_total есть метка pod равная pod_name
источник

VL

Vethopheth Lephanim in Церковь метрик
а как лучше составлять алерты?  Вот, например, я могу вот это 100 - (avg by (instance) (rate(node_cpu_seconds_total{mode="idle"}[5m])) * 100) прям в expr алерта загнать, либо я могу сделать record node:cpu_seconds_total:rate5m  и уже его в expr алерта использовать. Я хз как более правильно. Типа, что я выигрываю и проигрываю в этих подходах?
источник

AS

Aleksey Shirokikh in Церковь метрик
проигрываешь то что сохраняешь метрику. и считаешь её каждый evolution_Interval выигрываешь то что считаешь ее один раз. если переиспользуешь в графиках в сумме можешь выйграть можешь проиграть
источник

J

John Roe in Церковь метрик
* Andor никогда не понимал страсть к умножению на 100Andor никогда не понимал страсть к умножению на 100
источник

VL

Vethopheth Lephanim in Церковь метрик
и я не понимаю, это просто пример отсюда)
https://www.robustperception.io/understanding-machine-cpu-usage
источник

OT

One Two in Церковь метрик
Посоветуйте что нибудь кроме fprobe для снятия netflow с линуксовых интерфейсов.
источник

OT

One Two in Церковь метрик
Трендовая аналитика трафика у всех с сетевых железок чтоль? А непосредственно с сервера?
источник

GM

Gleb Mekhrenin in Церковь метрик
One Two
Посоветуйте что нибудь кроме fprobe для снятия netflow с линуксовых интерфейсов.
nprobe
источник

GM

Gleb Mekhrenin in Церковь метрик
источник

yL

yuyu L16+8E in Церковь метрик
8 * rate(mdt.bytes_received{devName="$devName",interface_name=~"[[ifName]].177"})
источник

yL

yuyu L16+8E in Церковь метрик
В чём может быть причина появления пилы. Запрос  из графаны делается к VictoriaMetrics. Данные поступают с периодичностью 2 минуты. Шаг "пилы" - такой же...
источник

K

KK in Церковь метрик
Антон Сенько
ребят, подскажите, каким правилом можно отслеживать, что под превысил request cpu?
Привет, у меня такое правило висит
ceil((sum by (pod) (avg_over_time(node_namespace_pod_container:container_cpu_usage_seconds_total:sum_rate{pod!=""}[3m]))/sum by (pod) (avg_over_time(kube_pod_container_resource_requests_cpu_cores{pod!=""}[3m]))) * 100) / 100 > 1


Ну и нужную длительность (`for`) поставь, чтобы не было ложных срабатываний
источник

АС

Антон Сенько in Церковь метрик
KK
Привет, у меня такое правило висит
ceil((sum by (pod) (avg_over_time(node_namespace_pod_container:container_cpu_usage_seconds_total:sum_rate{pod!=""}[3m]))/sum by (pod) (avg_over_time(kube_pod_container_resource_requests_cpu_cores{pod!=""}[3m]))) * 100) / 100 > 1


Ну и нужную длительность (`for`) поставь, чтобы не было ложных срабатываний
да я ж уже разобрался, спасибо )
источник

K

KK in Церковь метрик
Антон Сенько
да я ж уже разобрался, спасибо )
Добавил коммент про длительность от ложных срабатываний
источник

OT

One Two in Церковь метрик
tnx, сейчас на стенде поиграюсь
источник

K

KK in Церковь метрик
KK
Приветствую, комрадс!
Занимался нагрузочным тестированием prometheus в k8s ( со стандартной TSDB, которая определена в promtheus-operator ).

Поставил тест и пошел пить чай. Когда пришел, прометей в циклической перезагрузке, т.к. пытается загрузить все данные из TSDB в RAM, ему не хватает RAM, OOM-killer его грохает и так по кругу.
Нагрузочный тест конечно отключил, но как почистить TSDB от тестовых логов не знаю (контейнер не поднимается, поэтому через REST не могу его почистить).
Может быть можно как-то загрузить прометей, чтобы он не выедал всю память  (с каким-то спецефическим флагом)?

Вопросы:
1) Кто-нибудь может подскзать, как почистить TSDB от ненужных метрик, если prometheus не запускается ?
2) С помощью Victoria Metrics( или Thanos например) можно же избежать подобных проблем (переполнение памяти) ? Если есть уже описанные подобные кейсы, просьба кинуть линк.
Отличная статья, которая объясняет многие проблемы, которые я повстречал при первом нагрузчоном тетсировании Prometheus … Рекомендую…

https://habr.com/ru/company/funcorp/blog/445370/
источник

A

Andor in Церковь метрик
Знаю автора даже
источник

K

KK in Церковь метрик
Andor
Знаю автора даже
Клево, жаль что я  ранее не видел эту статью. НО лучше поздно. чем никогда
источник