Size: a a a

Церковь метрик

2020 February 12

DZ

Denys 💛📈 💫 Zhdanov in Церковь метрик
Ivan Moiseev
Да не. Скорее надо посчитать сам кластер ZK, чтобы он успевал и не плакал. Для людей, которые впервые слышат слово “арбитр” - это такое себе удовольствие.
Если я не ошибаюсь, ZK горизонтально не масштабируется. Все операции идут на мастер, больше 3-5 нод держать смысла нет.
источник

DZ

Denys 💛📈 💫 Zhdanov in Церковь метрик
Aleksey Shirokikh
предположим так.
я собираю данные прометеем. в нем храню 28 часов.
у меня есть виктория.
я бекаплю ёё каждые 24 часа.
алертинг работает на прометееях.
есть бизнес метрики расчитанные на vm. исходя из данных в виктории.
где мне должно быть больно?
А если внезапно алертинг не на прометеях, потому как консолидация?
источник

W

Warrax in Церковь метрик
Aliaksandr Valialkin
Уже выходили из строя диски в raid6? Сколько времени заняло восстановление данных после замены диска? А не то тут пугают недельным восстановлением, в течение которого высока вероятность выхода из строя дополнительных дисков с последующим отказом всего raid-массива.
Также не совсем понятно, зачем нужны дополнительные затраты на raid6 при включенной репликации в кликхаусе. Почему не подошли jbod диски? Было бы дешевле, быстрее и было бы доступно больше суммарной емкости.
у рейда же ребилд фоновый - он на доступность не влияет (речь понятно НЕ про R0), только на производительность
для HDD ёмкостью 1.2TB  и более, с точки зрения доступности, по best practice необходимы рейды с двойным контролем четности (R6 и прочие), как раз из-за времени ребилда
сейчас вместо hotspare disk, более распространен hotspare space, разнесенный по всем дискам - ребилд идёт параллельно и потому быстро, а вот после замены вылетевшего диска - перестроение на него уже медленней будет, но это не столь важно - т.к. уровень избыточности обычно восстанавливается ещё до этого
источник

AS

Aleksey Shirokikh in Церковь метрик
Denys 💛📈 💫 Zhdanov
А если внезапно алертинг не на прометеях, потому как консолидация?
алернтинг по консолидированным данным это крайне редкий кейс и сильно зависит от шардирования именно прометеев
источник

AS

Aleksey Shirokikh in Церковь метрик
я согласен есть варианты алертинга типа кластеры не в синхре которые можно сделать только на консолидированных данных и с этим кейсом сложно что то придумать.
в этом случае нужно рассматривать вм как часть схемы которая должна быть HA. в этом случае возникает множество других вопросов.
источник

DZ

Denys 💛📈 💫 Zhdanov in Церковь метрик
Aleksey Shirokikh
алернтинг по консолидированным данным это крайне редкий кейс и сильно зависит от шардирования именно прометеев
Если нужна глубина более 28 часов - не такой и редкий. А она нужна, как минимум недельная, а лучше двух.
источник

AS

Aleksey Shirokikh in Церковь метрик
Denys 💛📈 💫 Zhdanov
Если нужна глубина более 28 часов - не такой и редкий. А она нужна, как минимум недельная, а лучше двух.
алертинг по двухнедельным данным? можно реальный не синтетический пример?
источник

AS

Aleksey Shirokikh in Церковь метрик
если nda можно в приват.
источник

IM

Ivan Moiseev in Церковь метрик
Aleksey Shirokikh
если nda можно в приват.
типо там nda не имеет силы?)
источник

DZ

Denys 💛📈 💫 Zhdanov in Церковь метрик
Ну пока алертинга в ВМ вообще нет, так что и нечего обсуждать, бггг.
источник

vk

vladimir kolobaev in Церковь метрик
Aleksey Shirokikh
Владимир, это звучит как оценка даже не на салфетке. я уважаю ваше экспертное мнение и подход но тут удивлен поверхностностью суждений.
В принципе если учитывать что помимо системы, которая контролирует состояние бизнесс метрик и при их деградации будет бить тревогу, есть ещё и тех поддержка, в которую начнут ломиться пользователи, и в конечном счёте о проблеме мы так или иначе узнаем. То можно эту цифру ещё отодвинуть, но это уже зависит от очень много количества факторов.
Предположим у вас есть сервис автоматизированной пролонгации чего-то, к примеру подписок, и он вроде бы работает, но по какой-то причине выполняет свои задачи на 1% - частичная деградация. И тут предположим что наши алерты молчат, так как мы потеряли используемые ими данные. Вопрос, какова цена этих наших метрик?
источник

AS

Aleksey Shirokikh in Церковь метрик
Denys 💛📈 💫 Zhdanov
Ну пока алертинга в ВМ вообще нет, так что и нечего обсуждать, бггг.
алертинг в вм есть на промкси. он на основании данных вм
источник

DZ

Denys 💛📈 💫 Zhdanov in Церковь метрик
Ну у нас недельный, как минимум мерять разницу now - 7d
источник

AS

Aleksey Shirokikh in Церковь метрик
Denys 💛📈 💫 Zhdanov
Ну у нас недельный, как минимум мерять разницу now - 7d
можно примеры ?
источник

AS

Aleksey Shirokikh in Церковь метрик
хочу понять может чего я не так мониторю
источник

DZ

Denys 💛📈 💫 Zhdanov in Церковь метрик
примеры чего?
источник

AS

Aleksey Shirokikh in Церковь метрик
Denys 💛📈 💫 Zhdanov
примеры чего?
как выглядит алерт на offet 7d
источник

AS

Aleksey Shirokikh in Церковь метрик
vladimir kolobaev
В принципе если учитывать что помимо системы, которая контролирует состояние бизнесс метрик и при их деградации будет бить тревогу, есть ещё и тех поддержка, в которую начнут ломиться пользователи, и в конечном счёте о проблеме мы так или иначе узнаем. То можно эту цифру ещё отодвинуть, но это уже зависит от очень много количества факторов.
Предположим у вас есть сервис автоматизированной пролонгации чего-то, к примеру подписок, и он вроде бы работает, но по какой-то причине выполняет свои задачи на 1% - частичная деградация. И тут предположим что наши алерты молчат, так как мы потеряли используемые ими данные. Вопрос, какова цена этих наших метрик?
нет. вопрос звучит не какова цена метрик а какова цена точки.
источник

DZ

Denys 💛📈 💫 Zhdanov in Церковь метрик
метрика минус метрика 7 дней назад. Для сезонных данных ложится очень хорошо. Народ накручивает еще почасовые аггрегации вместо мгновенных данных, так еще лучше.
источник

ДУ

Денис Устинов in Церковь метрик
хм, для такого прогнозирование лучше подходит
источник