Это заняло около шести часов, новый рекорд времени простоя Facebook, но Facebook наконец-то вернулся. Что случилось? Вот что мы знаем на данный момент:
Старая поговорка об устранении неполадок в сети гласит, что когда что-то идет не так, «это DNS». На этот раз сервер доменных имен (DNS), по-видимому, является признаком основной причины глобального сбоя Facebook. Истинная причина в том, что на сайты Facebook нет рабочих маршрутов протокола пограничного шлюза (BGP).
BGP — это стандартизированный протокол внешнего шлюза, используемый для обмена информацией о маршрутизации и доступности между автономными системами верхнего уровня (AS) в Интернете. Большинству людей, а точнее большинству сетевых администраторов, никогда не нужно иметь дело с BGP.
Многие люди заметили, что Facebook больше не указан в DNS. Действительно, были анекдоты, предлагающие продать вам домен Facebook.com.
Вице-президент Cloudflare Дейн Кнехт был первым, кто сообщил об основной проблеме BGP. Это означало, как написал в Твиттере Кевин Бомонт, бывший руководитель Центра управления безопасностью Microsoft: «Из-за отсутствия объявлений BGP для ваших DNS-серверов DNS разваливается = никто не сможет найти вас в Интернете. Кстати, то же самое и с WhatsApp. сами со своей собственной платформы ".
Упс.
Как бы это ни раздражало вас, это может раздражать еще больше сотрудников Facebook. Есть сообщения, что сотрудники Facebook не могут войти в свои здания, потому что их «умные» значки и двери также были отключены из-за сбоя сети. Если это правда, люди Facebook буквально не могут войти в здание, чтобы что-то исправить.
Тем временем пользователь Reddit u / ramenporn, который утверждал, что является сотрудником Facebook, работающим над восстановлением социальной сети из мертвых, сообщил перед тем, как удалить свою учетную запись и свои сообщения, что «DNS для FB сервисы были затронуты, и это, вероятно, является симптомом реальной проблемы, и это то, что пиринг BGP с одноранговыми маршрутизаторами Facebook отключился, скорее всего, из-за изменения конфигурации, которое вступило в силу незадолго до того, как произошли перебои (началось примерно в 15.40 по всемирному координированному времени) . "
Он продолжил: «Сейчас есть люди, пытающиеся получить доступ к пиринговым маршрутизаторам для внесения исправлений, но люди с физическим доступом отделены от людей, знающих, как на самом деле аутентифицироваться в системах, и людей, которые знать, что на самом деле делать, поэтому теперь существует логистическая проблема с объединением всех этих знаний. Частично это также связано с сокращением штата в центрах обработки данных из-за пандемических мер ".
Раменпорн также заявил, что это была не атака, а ошибочное изменение конфигурации, сделанное через веб-интерфейс. Что действительно неприятно — и почему Facebook все еще не работает несколько часов спустя — так это то, что, поскольку и BGP, и DNS не работают, «соединение с внешним миром не работает, удаленный доступ к этим инструментам больше не существует, поэтому экстренная процедура» состоит в том, чтобы получить физический доступ к одноранговым маршрутизаторам и выполнить всю настройку локально ». Конечно, технические специалисты на месте не знают, как это сделать, а старших сетевых администраторов нет. Короче говоря, это одна большая неразбериха.
Facebook не сразу сообщил о том, что пошло не так и как это было исправлено. Спустя несколько часов после того, как Facebook и все связанные с ним службы вышли из строя, технический директор Facebook Майк Шрепфер написал в Твиттере: «У нас возникли проблемы с сетью, и команды работают как можно быстрее, чтобы отладить и восстановить как можно быстрее». После того, как Facebook начал появляться, он добавил: «Сервисы Facebook сейчас возвращаются в сеть — может потребоваться некоторое время, чтобы достичь 100%. . »
Как бывший сетевой администратор, работавший в Интернете на этом уровне, я ожидал, что Facebook будет недоступен на несколько часов. Я также был прав в том, что это будет самый длительный и самый серьезный провал Facebook на сегодняшний день. Мне интересно, что именно пошло не так и как это было исправлено. Будьте на связи. Мы сообщим об этом, как только узнаем подробности.
Истории по теме: