Рубрика "Нам (ну почти) пишут"
TL;DR: Жил да был один провайдер по защите от DDoS, но внезапно оказалось, что его сеть можно положить попингуями. Теперь им очень стыдно.
Сегодня в нашей сети произошел серьезный сбой. В этом письме я объясню ситуацию - что произошло, почему и какие меры были приняты.
У нас обширная инфраструктура фильтрации - 5 точек присутствия в 6 датацентрах по всему миру. У каждой точки присутствия имеется отказоустойчивость в пределах нее самой, а также все точки присутствия поддерживают друг друга в случае падения. Если быть точным, каждый наш сайт снабжен как минимум 2-мя высокопроизводительными коммутаторами Cisco Nexus (объединенных в кластеры VPC), которые используются в качестве фабрики для соединения нашего оборудования.
Все работало штатно, пока в 16:44 по МСК все коммутаторы Cisco Nexus во всех наших датацентрах не начали циклично перезагружаться. После проведения диагностики, выяснилось что это произошло из-за недавно обнаруженной ошибки в софте Cisco (что также относится к новым версиям NX-OS) -
https://quickview.cloudapps.cisco.com/quickview/bug/CSCvj95682Наша команда использовала SNMP для мониторинга сетевых устройств в течение многих лет, и пару недель назад мы настроили улучшенный мониторинг сети, чтобы упростить поиск проблем и ускорить устранение неисправностей. Это привело к более высокой частоте сообщений SNMP, что спровоцировало баг на коммутаторах. К сожалению, эта ошибка не оставляет следов в логах устройств - они просто перезагружаются, как будто происходит сбой питания, работают в течение 5-10 минут и снова перезагружаются - поэтому для диагностики потребовалось так много времени.
В 19:50 по МСК нам, в конце концов, удалось восстановить услуги защиты веб-сайтов, IP и сетей, а еще спустя немного времени нам удалось восстановить VPS во Франкфурте, что на самом деле является большим простоем.
Проблема была совершенно неожиданной, абсолютно непредсказуемой и чрезвычайно трудной для диагностики. Нам очень жаль, что это привело к прерыванию ваших услуг. На данный момент мы применили workaround, чтобы предотвратить повторение проблемы и сейчас сеть работает стабильно.