Телеграмм чат группы metrics

а нафига там используются rpm репы для экспортеров? эж фигня полная что для apt что для rpm, вон даже в репе обновления для некоторых экспортеров были полтора года назад
лучший способ это на мой взгляд тар тянуть и вокруг бинаря свой сервис описывать, и пути кастомные будут и тп

Да кто против? Примеры запаздывания экспортёров в rpm?

источник

19:38пожаловаться #5

ST

Sergey Trapeznikov in Церковь метрик

AG

Alexey Genus in Церковь метрик

Кто-нибудь знает, как работает rate? Что-то не могу понять, почему он иногда теряет значения. Вот пример ниже, на котором $interval = 1min. если поставить $interval 30s (равным scrape_interval), то график с ним вообще возвращает пустоту.
Читаю вот это https://prometheus.io/docs/prometheus/latest/querying/functions/#rate и это https://medium.com/@valyala/why-irate-from-prometheus-doesnt-capture-spikes-45f9896d7832 и озарения не приходит.

prometheus.io

Query functions | Prometheus

An open-source monitoring system with a dimensional data model, flexible query language, efficient time series database and modern alerting approach.

источник

20:22пожаловаться #7

AG

Alexey Genus in Церковь метрик

источник

20:22пожаловаться #8

AG

Alexey Genus in Церковь метрик

Т.е. вместо того, чтобы показывать мне 0.0167 ops, он показывает 0.3, но реже, чем это необходимо.

источник

20:23пожаловаться #9

A

Alexander in Церковь метрик

Alexey Genus

Т.е. вместо того, чтобы показывать мне 0.0167 ops, он показывает 0.3, но реже, чем это необходимо.

Делай лучше rate(sum()), чем sum(rate())

источник

20:35пожаловаться #10

AG

Alexey Genus in Церковь метрик

Но в доке же написано противоположное. И это логично, потому что так не будут ломаться перезагрузки.
Вообще, в данном запросе там ровно одна серия, так что sum вообще ничего менять не должен.

источник

20:37пожаловаться #11

A

Alexander in Церковь метрик

Alexey Genus

Но в доке же написано противоположное. И это логично, потому что так не будут ломаться перезагрузки.
Вообще, в данном запросе там ровно одна серия, так что sum вообще ничего менять не должен.

Ну, если есть перегрузки, то да.

источник

20:38пожаловаться #12

AG

Alexey Genus in Церковь метрик

Короче, смена функций местами ничего не меняет. Даже, если убрать sum, результат аналогичный. Дело в rate, это точно.

источник

20:40пожаловаться #13

A

Alexander in Церковь метрик

Alexey Genus

Кто-нибудь знает, как работает rate? Что-то не могу понять, почему он иногда теряет значения. Вот пример ниже, на котором $interval = 1min. если поставить $interval 30s (равным scrape_interval), то график с ним вообще возвращает пустоту.
Читаю вот это https://prometheus.io/docs/prometheus/latest/querying/functions/#rate и это https://medium.com/@valyala/why-irate-from-prometheus-doesnt-capture-spikes-45f9896d7832 и озарения не приходит.

prometheus.io

Query functions | Prometheus

An open-source monitoring system with a dimensional data model, flexible query language, efficient time series database and modern alerting approach.

Работает он, по идее, как приращение за указанный интервал, нормированное по секундам. С экстраполяцией данных, если есть необходимость.

источник

20:43пожаловаться #14

A

Alexander in Церковь метрик

В любом случае, не стоит считать rate() точным, это индикатор для примерной оценки динамики приращения метрики.

источник

20:44пожаловаться #15

A

Alexander in Церковь метрик

И, вообще, сам prometheus не стоит считать хранилищем точных данных, раз уж на то пошло :)

источник

20:46пожаловаться #16

S

Slach in Церковь метрик

а никто не знает в графана есть какой то аналог /etc/grafana/config.d/*.ini ???
чтобы можно было часть grafana.ini переопределить?

или только provisioners с yaml файлами?

источник

20:46пожаловаться #17

AG

Alexey Genus in Церковь метрик

Alexander

В любом случае, не стоит считать rate() точным, это индикатор для примерной оценки динамики приращения метрики.

Ну это в некотором роде позор😕 Я бы, конечно, не отказался смотреть на эти данные, как на примерные, но я бы хотел понимать, насколько они примерные.

Судя по всему, нужно переходить на rollup от VM. Но только у меня почему-то VM на тестовом контуре, а на прод её ставить не хотят.

источник

20:48пожаловаться #18

A

Alexander in Церковь метрик

Alexey Genus

Ну это в некотором роде позор😕 Я бы, конечно, не отказался смотреть на эти данные, как на примерные, но я бы хотел понимать, насколько они примерные.

Судя по всему, нужно переходить на rollup от VM. Но только у меня почему-то VM на тестовом контуре, а на прод её ставить не хотят.

Это не позор, это такова предметная область: ты не тратишь кучу ресурсов на сбор и хранение точных данных, но за это расплачиваешься погрешностями при сборе метрик (timestamp выставляется в prome-е и может расходиться с временем актуальности метрики в экспортере), при хранении и при обработке (точка, в конечном счете, должна быть выровнена по периоду таймсерии, что уже само по себе вызывает необходимость в интерполяции).
Если тебе нужны абсолютно точные данные (например, потому что тебе нужно хранить бизнес-метрики), то prom (и, вообще, системы для работы с техническими метриками) — неподходящий для этого инструмент.

источник

20:54пожаловаться #19

AG

Alexey Genus in Церковь метрик

Да я ж говорю: я готов мириться с погрешностями, я просто хочу понимать, какая она. Кстати, все это я понимаю, но на моем графике четко видно, что все данные выровнены, а результат все равно непонятный

источник

20:59пожаловаться #20