50 часов потребовалось чтобы локализовать и устранить причину массовых сбоев на сети очень крупного оператора связи CenturyLink в США.
На протяжении всего времени были недоступны сервисы компании в 32 штатах, включая сервис доступа DSL, облачную инфраструктуру и национальную систему экстренной помощи 911.
Причиной оказалась сетевая карта в одном из серверов, которая безостановочно генерировала некорректные сетевые пакеты ... по всему общему L2-домену управления всех 15ти ЦОД.
https://twitter.com/GossiTheDog/status/1079144491238469638?s=09