Телеграмм чат группы metrics

Я о том что в момент миграции будет outage так или иначе.

Aliaksandr Valialkin in Церковь метрик

19:21пожаловаться #1

AV

Aleksey Shirokikh

Прометей таки не инфлюкс не замечен в часовом старте

Прометей может медленно стартовать и жрать память после kill -9 или OOM. См. https://github.com/prometheus/prometheus/issues/4609 . ВМ в этом плане быстрее всего рнстартует :)

GitHub

Prometheus Crash Recovery Consumes Excessive Amount of Memory · Issue #4609 · prometheus/prometheus

As Of Prometheus 2.3.2 Crash recovery can be excessively memory important leading to the case when normally running system is unable to ever recover after abnormal reboot. How to repeat: Run promet...

19:21пожаловаться #2

DZ

Ну да, я плюс минус так и думал. Спасибо за подтверждение.

19:21пожаловаться #3

VS

Denys 💛📈 💫 Zhdanov

Ну да, я плюс минус так и думал. Спасибо за подтверждение.

магии не существует*

* - магии общего типа, устраивающей всех и вся, а специализированные решения уже не магия

19:22пожаловаться #4

VS

@valyala просто люди хотят репликацию, а подразумевают какую-то возможность автоматической проверки консистентности и понимание где данные правильные (поэтому multi write не катит)

19:29пожаловаться #5

VS

и хотят что-то что не будет требовать дорогих решений и будет работать на любом разумном хостинге (on-prem на железе, gcp, aws, azure, digital ocean, ...) и позволит переживать локальные аутейджи (зона или стойка отъехала)

19:30пожаловаться #6

VS

ну или как минимум мое понимание причин такое

Евгений Омельченко in Церковь метрик

19:30пожаловаться #7

ЕО

Vladimir Smirnov

@valyala просто люди хотят репликацию, а подразумевают какую-то возможность автоматической проверки консистентности и понимание где данные правильные (поэтому multi write не катит)

И хотя бы умеренную возможность меж-AZ растягивать

19:30пожаловаться #8

DZ

тогда могу развернуть так.
"В Кортексе данные хранятся в Кассандре, которую можно (при всех ее других минусах) настроить под любую консистентность и потерять хоть всю AZ целиком.
ВМ не имеет репликации и настраиваемой консистентности, поэтому в вопросах надежности полагается только на GCP персистентные диски
(или аналогичное решение у других клауд провайдеров). Это решение в принципе достаточно надежно, но стоит понимать что не обеспечивает
100% доступности при проблемах с инфраструктурой провайдера (потеря виртуалок, zone outage). Также использование персистентных GCP дисков может быть ощутимо дороже обычных или даже облачных SSD дисков. Ну и использование только GCP дисков для HA не дает возможности развернуть ВМ в HA режиме on-premise, на собственном железе или в частном облаке".
Не понимаю, почему люди любят строить простые но ненадежные системы из говна и палок вместо использования готовых, надежных и проверенных временем решений (хоть и за счет увеличенной сложности). :trollface:

19:31пожаловаться #9

VS

Евгений Омельченко

И хотя бы умеренную возможность меж-AZ растягивать

и это тоже

19:31пожаловаться #10

DZ

yep, what @Civiloid said

Aliaksandr Valialkin in Церковь метрик

19:31пожаловаться #11

AV

Serge Yuriev

Да, именно это - метрики измеряют одно и тоже. Я пробовал quantile_over_time в разных видах

quantile_over_time считает индивидуальный квантиль для каждого временного ряда. Эти квантили потом нельзя агрегировать, т.е. sum(quantile_over_time(...)) не имеет смысла.
Если нужно подсчитать квантиль поверх многих временных рядов, то можно использовать что-то вроде такого:
histogram_quantile(0.95, sum(histogram_over_time(metric[1h])))
Функция histogram_over_time есть только в вм, поэтому такой запрос не будет работать в проме. Пишу это с телефона, поэтому могу допустить ошибки в запросе. Но идея должна быть понятна. См. про histogram_over_time и другие дополнительные функции, подлерживаемые вм, вот тут - https://github.com/VictoriaMetrics/VictoriaMetrics/wiki/MetricsQL

GitHub

MetricsQL

VictoriaMetrics - fast, cost-effective and scalable time series database, long-term remote storage for Prometheus - VictoriaMetrics/VictoriaMetrics

19:32пожаловаться #12

VS

@valyala и если что это не является нападками на VM, а просто попытка объяснить почему людям не нравится текущее положение дел ) Подобные претензии можно очень много к каким системам предъявить и не значит, что эти проблемы не надо как-то решать

Serge Yuriev in Церковь метрик

19:32пожаловаться #13

SY

Aliaksandr Valialkin

quantile_over_time считает индивидуальный квантиль для каждого временного ряда. Эти квантили потом нельзя агрегировать, т.е. sum(quantile_over_time(...)) не имеет смысла.
Если нужно подсчитать квантиль поверх многих временных рядов, то можно использовать что-то вроде такого:
histogram_quantile(0.95, sum(histogram_over_time(metric[1h])))
Функция histogram_over_time есть только в вм, поэтому такой запрос не будет работать в проме. Пишу это с телефона, поэтому могу допустить ошибки в запросе. Но идея должна быть понятна. См. про histogram_over_time и другие дополнительные функции, подлерживаемые вм, вот тут - https://github.com/VictoriaMetrics/VictoriaMetrics/wiki/MetricsQL

GitHub

MetricsQL

VictoriaMetrics - fast, cost-effective and scalable time series database, long-term remote storage for Prometheus - VictoriaMetrics/VictoriaMetrics

я в результате сделал через quantile (by job) (label_replace(metric) or label_replace(metric))
гистограмму тоже попробую - может оно будет интереснее :)

19:36пожаловаться #14

DZ

Да и у меня нет особых претензий к ВМ, продукт хороший. Но аггресивный маркетинг штука обоюдоострая - будь или лучше своего конкурента во всем или понимай (и доноси до потенциального пользователя) ограничения текущей реализации - а значит и недостатки, а не только преимущества своего продукта. А они всегда есть.
Честность - лучшая политика имхо в таком вопросе.

Artem Navoiev in Церковь метрик

19:37пожаловаться #15

AN

Ребята все ок мы понимаем что репликация нужна. Это сложно и нет решения которое хоп и работает. Задача намного глубже чем просто скопируй метрики из одного инстанса в другой. Тут куча инженерных деталей.

Artem Navoiev in Церковь метрик

19:43пожаловаться #16

AN

Диски не выход - но могут решить проблему но это не панацея

Artem Navoiev in Церковь метрик

19:45пожаловаться #17

AN

И да они отказывают хотя и не часто :)

Aliaksandr Valialkin in Церковь метрик

19:46пожаловаться #18

AV

yuyu L16+8E

Есть два запроса:

1) sum by (name, class) (rate(drop_bytes{name=~".+", class!=""} )) > 0
2) sum by(name,class) (increase( drop_bytes{name=~".+", class!=""}[:24h]) ) > 0

Задача (примерно) - найти для каких пар (name,class) было ненулевой прирост счётчика drop_bytes.
Не могу понять: почему на выходе они дают разный набор пар (name, class) - второй запрос даёт больше пар.

Второй запрос, скорее всего, неправильный - там двоеточие лишнее перед 24h. В текущем виде он пытается использовать prometheus subquery, который тут вообще не нужен. См. https://medium.com/@valyala/prometheus-subqueries-in-victoriametrics-9b1492b720b3
Если же убрать лишнее двоеточие перед 24h, то этот запрос вернет ряды, значения которых увеличились в течение последних 24 часов. Подразумевается, что ряды drop_bytes могут только расти, но не уменьшаться, т.е. это counter. Если это не так, то increase может возвращать вообще все, что угодно. См. про counter вот тут - https://prometheus.io/docs/concepts/metric_types/#counter
Первый же запрос возвращает ряды, значения которых увеличились в течение последнего шага (параметр step в запросе к /api/v1/query_range или к /api/v1/query - см. https://prometheus.io/docs/prometheus/latest/querying/api/#expression-queries ). По умолчанию он равен 5 минутам. Очевидно, что количество рядов, значение которых увеличилось за последние 5 минут, будет меньше количества рядов, значение которых увеличилось за последние 24 часа

Medium

Prometheus Subqueries in VictoriaMetrics

Prometheus added support for subqueries in v2.7.0. This is quite useful concept, which simplifies graphing and alerting the following cases

19:49пожаловаться #19

VS

Artem Navoiev

Ребята все ок мы понимаем что репликация нужна. Это сложно и нет решения которое хоп и работает. Задача намного глубже чем просто скопируй метрики из одного инстанса в другой. Тут куча инженерных деталей.

ровно об этом и была речь выше )