Телеграмм чат группы pro

На эту тему у OVH есть забавный механизм обнаружения аппаратных неисправностей арендованного оборудования

По умолчанию, все дедики подключены к "мониторингу".
На основной IP приобретённой железки, OVH шлёт ICMP-пинги с 213.186.33.0/24

Если пинг прерывается и не отвечает, он помечается в стойке, как неисправный:
http://travaux.ovh.net/vms/index_rbx.html (это лишь один из ДЦ, справа сверху выкидушка)
и спустя ещё 5-10 минут мониторинг вызывает технарей, если пинг не вернулся за это время сам

Инженеры отправляют железку в холодный ребут сначала удалённо, а если не получается, то кнопкой.

Смотрят, вернулся ли пинг.
Если пинг не возвращается, они интервенятся в аккаунт сервака (это останется в журнале в вебке), смотрят состояние по вебке и загружают сервер через образ селф-диагностики, которая там у них автоматом генерит smart-чеки, цпу чек, ram чек (этой же штукой они автоматически проверяют состояние серверов перед сдачей следующему арендатору).
Если они увидят аппаратный фейл, они сразу меняют неисправную железку (у OVH они обычно есть сразу; у SYS тоже часто есть, но может не быть конкретной) и запускают сервер ещё раз.

travaux.ovh.net

OVH VMS - Realtime datacenter monitoring

RBX-1/FR / WESTERN Europe

источник

10:13пожаловаться #8

Aleksandr Kozlov in Hosting and so on

То есть, в этом смысле, они оперативно среагируют на сфейлевшееся железо, если оставить Monitoring: Enabled в панели

источник

10:14пожаловаться #9

Aleksandr Kozlov in Hosting and so on

Но... понимаете, к чему я клоню?

источник

10:14пожаловаться #10

Aleksandr Kozlov in Hosting and so on

Однажды я залил там гипервизор, и, поскольку не доверял его вебке, решил его ограничить фаерволом. Про нюанс об этих ICMP-чеках и выезде инженера я не знал на тот момент

источник

10:14пожаловаться #11

Aleksandr Kozlov in Hosting and so on

И потом гадал, какого чёрта этот сервер сам по себе, когда хочет, перезагружается, а в логе какие-то интервенты каких-то сэмов струбински, майков карпентеров

источник

10:15пожаловаться #12

Aleksandr Kozlov in Hosting and so on

И с тех пор на всякий только на нём выключил "Monitoring" на нём
но, как вы уже поняли, на свой страх и риск

при выключенном "Monitoring" им нужно самостоятельно очень доказать, что сервер неисправен

источник

10:15пожаловаться #13

Aleksandr Kozlov in Hosting and so on

ещё был инцидент, что мой сервер тупо резко перезагружался по рандому в конкретный день месяца плюс минус, причём с этим столкнулся ещё один чел (видимо из моей стойки)

продолжалось около трёх месяцев

я отправил об этом несколько тикетов с данными своих собственных мониторингов

мы с челом на их форуме решили, что это сбойный упс или проблемные БП у наших серверов

спустя три месяца, спонтанные ребуты прекратились; видимо втихую что-то исправили

но конкретно это было не у OVH, а у SYS

источник

10:20пожаловаться #14

Aleksandr Kozlov in Hosting and so on

Ещё они неохотно меняют диски, даже если там есть бэды, до тех пор, пока он совсем не сдохнет

источник

10:21пожаловаться #15

Aleksandr Kozlov in Hosting and so on

Но они всегда внимательно читают смарт-дату, что им присылают
И, если совсем каюк, начинают процесс замены

источник

10:21пожаловаться #16

Aleksandr Kozlov in Hosting and so on

Проектируя системы на OVH, короче, надо делать приложение таким образом, чтобы возникшая необходимость заинтервентиться в сервак и чёт там поменять не повлияла на работу сервиса

Некоторые там на форуме истерят, что теряют каждый час 20,000$ от простоя, но эти клёвые "бизнесмены" почему-то крутят абсолютно весь свой сервис на одной железке

источник

10:24пожаловаться #17

Aleksandr Kozlov in Hosting and so on

Два сервера - уже будут в разных стойках, с разной изношенностью оборудования, и одновременно из строя не выйдут

источник

10:24пожаловаться #18

Aleksandr Kozlov in Hosting and so on

Я не адвокатю OVH, но такого прям, чтобы у меня всё рухнуло и ничего не поднималось неделю и никто на это никак не реагировал, у меня ещё не было
Возможно мне повезло, и мои инциденты решались быстро

источник

10:26пожаловаться #19

Ivan Borovkov in Hosting and so on

ну овх в этом плане хороши, они стабильны

источник

10:28пожаловаться #20