Size: a a a

Церковь метрик

2020 February 13

AS

Aleksey Shirokikh in Церковь метрик
тоесть данные бы хранились дважды. и занимали бы в 2 раза больше места.
источник

AS

Aleksey Shirokikh in Церковь метрик
что эффективно говорит нам что мы можем сделать не так.
мы можем сделать 2 кластера. каждый из которых будет иметь полный набор данных.
в каждый будет писать прометей. тоесть на каждом проме по 2 remote_write. это будет стоить +60% mem per prometheus
источник

AS

Aleksey Shirokikh in Церковь метрик
вероятность выхода из строя одной ноды в каждом кластере в один момент времени не высока. пренебрежём ею.
источник

AS

Aleksey Shirokikh in Церковь метрик
промкси в этом случае может смотреть на оба кластера одновременно
источник

DZ

Denys 💛📈 💫 Zhdanov in Церковь метрик
ну, нужны 2 кластера и promxy, да. Ну и персистентность дисков, синхронизировать данные между кластерами будет проблематично.
источник

AS

Aleksey Shirokikh in Церковь метрик
данные синхрить между системами не нужно. напомню у нас 28 часов данных в промах в их локальных стораджах
источник

DZ

Denys 💛📈 💫 Zhdanov in Церковь метрик
Ну нам то такое все равно не актуально, у нас данные в один пром не влазят, так что консолидация маст хэв.
источник

AS

Aleksey Shirokikh in Церковь метрик
их можно просто забекфилить и всё. и это потребуется только в том случае если даунтайм превысит 2 часа
источник

AS

Aleksey Shirokikh in Церковь метрик
Denys 💛📈 💫 Zhdanov
Ну нам то такое все равно не актуально, у нас данные в один пром не влазят, так что консолидация маст хэв.
а у меня тоже. мне надо 2 десятка промов
источник

DZ

Denys 💛📈 💫 Zhdanov in Церковь метрик
про 28 часов тоже обсудили, 8 - 14 дней надо
источник

AS

Aleksey Shirokikh in Церковь метрик
ваше право.
источник

AS

Aleksey Shirokikh in Церковь метрик
минимально там должно быть столько сколько покрывает ваш бекап + время востановления из бекапа. максимально столько сколько надо под самый болшой алерт интервал
источник

AS

Aleksey Shirokikh in Церковь метрик
промкси в схеме с вм всё равно появляется ибо расчёт рулов по консолидированным данным
источник

AS

Aleksey Shirokikh in Церковь метрик
если данных не много то два кластера вм это две виртуалки.
источник

AS

Aleksey Shirokikh in Церковь метрик
там сверху в тестах на капец жирных тачках было 66 милионов на загрузку в секунду.
разделим на 10 что бы отбросить любой маркетинг.
много тут народу с 6милионами в секунду ?
источник

DZ

Denys 💛📈 💫 Zhdanov in Церковь метрик
Не знаю. Я наверно слишком старый для этого новомодного дерьма. Я сразу начинаю задавать много глупых вопросов - в основном по масштабированию, в результате подобная схема сразу отправляется в мусорник.
источник

SY

Serge Yuriev in Церковь метрик
Aliaksandr Valialkin
Для анализа трендов хорошо подходит оператор offset. Например, metric offset 1d вернет данные для metric за предыдущий день, но таймстемпы у них будут за текущий день. Это позволяет сравнивать их с текущими данными. Например, график по metric > (metric offset 1d) покажет моменты времени, когда значения metric за текущее время превышали значения сутки назад
Ну собственно именно такие квантили за несколько недель я и хочу считать :)
источник

RK

Roman Khavronenko in Церковь метрик
Denys 💛📈 💫 Zhdanov
Не знаю. Я наверно слишком старый для этого новомодного дерьма. Я сразу начинаю задавать много глупых вопросов - в основном по масштабированию, в результате подобная схема сразу отправляется в мусорник.
а где здесь проблемы с масштабированием?
источник

SY

Serge Yuriev in Церковь метрик
Denys 💛📈 💫 Zhdanov
Требует нескольких часов вдумчивой проработки, но оно того стоит
Спасибо, буду изучать
источник

S

Stas in Церковь метрик
Aleksey Shirokikh
что эффективно говорит нам что мы можем сделать не так.
мы можем сделать 2 кластера. каждый из которых будет иметь полный набор данных.
в каждый будет писать прометей. тоесть на каждом проме по 2 remote_write. это будет стоить +60% mem per prometheus
у меня в проде именно так. 2 прома со своими VM, отдельно promxy + grafana. У промов 5 дней retention, и на каждом по alertmanager в кластер (для дедупликации). При падении одного из промов есть доступ к tsdb, есть алерты. t3.large - прометеи+vm (3-4% cpu util), 17K точек в секунду, 0.5М активных ts
источник