Антон Розенберг - о том, как перегреваются кластеры. Занимательно и познавательно.
✅Отсюда:
https://www.facebook.com/sinodov/posts/10157308473622785"...если ломается система кондиционирования со всеми резервированиями, в соответствующем помещении начинает резко расти температура - каждая стойка серверов потребляет от 6 кВт электричества и выделяет ровно столько же тепла. Если оборудование не выключить, минут за 20 температура поднимается до 60 градусов, начинают отключаться жёсткие диски. При 80-ти градусах начинают отключаться маршрутизаторы и коммутаторы. У процессоров критическая температура порядка 80-100 градусов, но внутри серверов горячее, чем снаружи. В общем, всё вырубается, надо починить кондиционирование, потом включить обратно оборудование и начать поднимать сервисы/менять сломавшиеся диски - а на тысячу серверов несколько штук не включится.
Правда, я был в этом датацентре в 2014-м году, он выглядел построенным весьма качественно, по резервированию охлаждения всё должно было быть хорошо. Но если действительно случился перегрев, возможно, надо ещё найти тех, кто разберётся и починит. В России у ВК были хорошие команды инженеров и электриков, которые очень оперативно умели во всём разбираться, про европейскую поддержку в этом плане не уверен. Там всякие зоны ответственности, инженер не будет трогать рубильники в ГРЩ. :)
Ну и всё зависит от масштабов беды, кластер - это может быть и ряд стоек, и серверная, и датацентр целиком.
...при перегреве можно успеть удалённо выключить большую часть серверов. Но даже при отключении питания ломалось порядка 10 дисков на тысячу серверов. С другой стороны, если просто перезагрузить 1000 серверов, то что-то всё равно не поднимется, хотя до этого работало, просто по закону больших чисел. Но самым феерическим в этом плане был дефект в планках памяти мощных коммутаторов одного известного производителя. Всё работало годами, но после одной перезагрузки не включилось процентов 30 линейных карт."