
Американский интернет-провайдер CenturyLink в воскресенье потерпел серьезный технический сбой после аварии. неправильная конфигурация одного из центров обработки данных привела к хаосу во всем Интернете.
Из-за технического характера сбоя, связанного как с межсетевым экраном, так и с маршрутизацией BGP, ошибка распространилась за пределы сети CenturyLink, а также затронула других провайдеров интернет-услуг, в результате чего возникли проблемы с подключением для многих других компаний.
В список технологических гигантов, у которых из-за сбоя CenturyLink сократились услуги, входят такие известные компании, как Amazon, Twitter, Microsoft (Xbox Live), EA, Blizzard, Steam, Discord, Reddit, Hulu, Duo Security, Imperva, NameCheap, OpenDNS и многие другие.
Cloudflare, который также сильно пострадал, заявил, что проблема распространения CenturyLink за пределы сети привела к падению глобального интернет-трафика на 3,5%, что сделало бы это одним из самых больших отключений Интернета, когда-либо зарегистрированных.
Основная причина: неправильно настроенное правило Flowspec
Согласно странице состояния CenturyLink, проблема возникла в центре обработки данных CenturyLink в Миссиссаге, городе недалеко от Торонто, Канада.
Телефонная компания утверждает, что основной причиной инцидента было неправильное объявление Flowspec.
Flowspec — это расширение протокола BGP, которое позволяет компаниям использовать маршруты BGP для распределения правил межсетевого экрана по своей сети. Объявления Flowspec обычно используются при инцидентах безопасности, таких как перехват BGP или DDoS-атаки, поскольку они позволяют компаниям изменять всю свою сеть для реагирования и смягчения атак в течение нескольких секунд.
Однако CenturyLink заявила, что ее центр обработки данных в Миссиссаге отправил неверное объявление Flowspec, что фактически помешало внедрению маршрутов BGP компании.
Cloudflare, наблюдавший за инцидентом издалека, считает, что CenturyLink эффективно замкнул всю свою сеть, объявив совершенно новый набор маршрутов BGP и затем случайно отбросив все маршруты с помощью неправильно настроенного правила Flowspec.
Маршруты BGP — это связующее звено, поддерживающее работу Интернета. Это своего рода сообщение, которое интернет-компании передают друг другу. Маршруты BGP сообщают каждому интернет-провайдеру, какой блок IP-адресов доступен в его сети.
Однако, поскольку некорректная команда CenturyLink Flowspec вызвала отключение некоторых маршрутизаторов внутри своей сети, некоторые из этих маршрутизаторов также начали объявлять неправильные маршруты BGP к другой соседней интернет-службе «Уровня 1».
Это, в свою очередь, привело к отключению других сетей в виде эффекта домино.
Для устранения сбоя потребовалось семь часов
CenturyLink устранил проблему, сделав редкий шаг, сообщив всем другим интернет-провайдерам уровня 1 отключиться от сети и игнорировать любой трафик, исходящий из своей сети. Компании редко принимают такие решения, поскольку это приводит к полной потере связи для всех их клиентов.
вау, вау, должно быть, это было одно из самых больших отключений Интернета за последнее время .. @CenturyLink просит другие "tier1" отключить одноранговое соединение … это показывает, насколько все должно быть плохо, неспособность выздороветь.
Клиенты прекращают пиринг с 3356, но маршруты не удаляются .. #ouch— Андре Тунк (@atoonk) 30 августа 2020 г.
По запросу L3 / CTL мы отключили все пиринговые сеансы, пока ситуация не будет под контролем. Приятно видеть отраслевое сотрудничество в то время, которое, несомненно, является тяжелым для AS3356. https://t.co/lbr38IHhyi
— Йохан Густавссон (@Gustawsson) 30 августа 2020 г.
В общем, CenturyLink пришлось перезагрузить все оборудование и начать с чистых таблиц маршрутизации BGP. Этот процесс занял почти семь часов, примерно с 12:13 UTC до 18:58 UTC, сообщила компания.
«Это было серьезное глобальное отключение Интернета, — сказал Мэтью Принс, соучредитель и генеральный директор Cloudflare, в своем анализе сбоя.