Подготовили постмортем по инциденту 16.04 в регионе ru-2 Облачной платформы.
Краткая версия
16 апреля 2021 в 06.00 (UTC+3) в результате ошибочного автоматического изменения настроек сетевых интерфейсов некоторых платформ сетевых дисков в зонах ru-2a и ru-2b виртуальные машины в них потеряли возможность пользоваться сетевыми дисками всех трёх типов. Применение новой конфигурации не было вовремя замечено. Это привело к тому, что в качестве возможной причины сбоя долгое время исследовалась ошибочная гипотеза некорректной работы сетевого оборудования. Из-за некорректно выбранного направления и допущенных в процессе ошибок, восстановительные работы заняли большое количество времени.
Всем клиентам, пострадавшим в ходе инцидента, будет выплачена компенсация.
Подробности инцидента
Общий контекст:
Зоны ru-2a и ru-2b региона Москва проходят через крупный рефакторинг архитектуры дискового хранилища. Для повышения отказоустойчивости и стабильности работы дисков мы выделяем сеть, через которую виртуальные машины общаются с сетевыми дисками, в отдельный стек коммутаторов. Эта работа состоит из двух основных частей – физическое подключение серверных платформ к новому набору сетевого оборудования и переконфигурирование сетевых интерфейсов на платформах. Основная часть работы с физическим оборудованием сейчас завершена, заканчивается перенастройка сетевых интерфейсов дисковых платформ.
Из-за сложности проводимой работы оборудование реконфигурируется в несколько этапов. Между каждым переходом подготавливается новая часть конфига для последующего применения после готовности других платформ и связанных систем.
Хронология:
06:00
Часть такого этапного конфига сетевых интерфейсов была незапланированно применена в платформах дискового кластера автоматизированной системой – без участия инженера облака и должного сопровождения. Оборудование стало полностью недоступным.
Из-за нетипичности сбоя его истинная причина была первоначально диагностирована как программно-аппаратный сбой сетевого оборудования (коммутаторов). К сожалению, из-за позднего подключения специалистов, занимающихся рефакторингом сетевого дискового хранилища, неправильность выбранного направления дебага была поздно замечена, а бóльшая часть времени ушла на сложную и затратную по времени работу с сетевым оборудованием.
В процессе этой диагностики потребовалось выполнять действия с физическими портами коммутаторов, которые также были выполнены с ошибкой, что дополнительно усложнило и затянуло исследование, и в конечном итоге привело к неработоспособности части сетевого оборудования.
08:58
К расследованию инцидента были подключена команда, ответственная за работу по рефакторингу сетевого хранилища. Была локализована и устранена проблема с некорректной конфигурацией сетевых серверных платформ дискового кластера. Однако из-за ошибочных действий с сетевым оборудованием, совершенных ранее, не удалось восстановить предыдущий конфиг коммутаторов. В итоге было принято решение переконфигурировать дисковый кластер и подключить его к резервным коммутаторам в сетевом стеке.
При этом возникла новая проблема - с сетевой доступностью хостов с виртуальными машинами, которые ранее были подключены в проблемные коммутаторы.
10:41
Кластер хранилища был переконфигурирован для работы с резервными коммутаторами в сетевом стеке, его работоспособность была восстановлена. Продолжаются попытки восстановить сетевую связность хостов, на которых запущены виртуальные машины.
12:15
После того, как не удалось восстановить сетевую связность хостов, начата миграция части виртуальных машин на здоровую часть инфраструктуры.
13:34
В результате очередной попытки восстановить работу сетевого оборудования, ранее выведенного из строя, из-за аппаратных проблем коммутатора произошла повторная потеря связности с дисковым кластером. Было установлено, что откатить неудачный реконфиг сетевого оборудования невозможно. Команда инженеров облака приняла решение выключить из работы сегмент оборудования, обслуживаемый пострадавшими коммутаторами.