28 и 29 сентября на этой неделе ряд клиентов Microsoft по всему миру столкнулись с серией каскадных проблем, из-за которых многие не смогли получить доступ к своим приложениям и службам Microsoft. 1 октября Microsoft опубликовала вскрытие сбоев, в котором рассказывается о том, что произошло, и о дальнейших шагах, которые компания планирует предпринять, чтобы решить эту проблему в будущем.
Начало примерно в 17:30. В понедельник, 28 сентября, по восточноевропейскому времени клиенты начали сообщать, что не могут войти в приложения Microsoft и сторонних производителей, которые использовали Azure Active Directory (Azure AD) для аутентификации. (Да, это означает Office 365 и другие облачные службы Microsoft.) У тех, кто уже вошел в систему, вероятность возникновения проблем была ниже. Согласно отчету Microsoft, пользователи в Северной и Южной Америке и Австралии, вероятно, пострадают больше, чем в Европе и Азии.
Microsoft подтвердила, что это обновление службы, предназначенное для внутреннего проверочного кольца, вызвало сбой в серверных службах Azure AD. «Скрытый дефект кода в системе безопасного развертывания (SDP) серверной службы Azure AD привел к тому, что это было развернуто непосредственно в нашей производственной среде, пройдя наш обычный процесс проверки», — заявили официальные лица.
Azure AD предназначен для географического распределения и развертывания с несколькими разделами в нескольких центрах обработки данных по всему миру и построен с границами изоляции. Microsoft обычно применяет изменения в кольце проверки, которое не включает данные о клиентах, с последующими четырьмя дополнительными кольцами в течение нескольких дней, прежде чем они попадут в производство. Но на этой неделе SDP неправильно нацелился на кольцо проверки из-за дефекта, и все кольца были нацелены одновременно, что привело к ухудшению доступности услуг, говорится в отчете Microsoft.
В течение пяти минут после появления проблемы инженеры Microsoft поняли, что что-то не так. В течение следующих 30 минут Microsoft начала предпринимать шаги по ускорению смягчения последствий путем горизонтального масштабирования некоторых служб Azure AD для обработки нагрузки после того, как было бы применено смягчение, и переключения определенных рабочих нагрузок в резервную систему проверки подлинности Azure AD.
К сожалению, автоматический откат Microsoft завершился неудачно из-за повреждения метаданных SDP. Поэтому команда начала вручную обновлять конфигурацию сервиса, минуя систему SDP. Microsoft заявляет, что вся операция была завершена примерно к 20:00. ET. Microsoft сообщает, что «все экземпляры служб с остаточным воздействием были восстановлены» более чем через два часа после этого.
Представители Microsoft заявили, что они устранили скрытый дефект кода в бэкэнд-системе SDP Azure AD; исправлена существующая система отката; и расширил объем и частоту тренировок по откату. Команде по-прежнему необходимо применить дополнительные средства защиты к системе SDP Azure AD, чтобы предотвратить подобные проблемы. Также необходимо ускорить развертывание системы аутентификации резервного копирования Azure AD для всех ключевых служб и встроить сценарии Azure AD в автоматизированный конвейер связи, чтобы в течение 15 минут сообщить затронутым клиентам о том, что происходит.
В отчете Microsoft не упоминается о ключевой проблеме, отмеченной рядом пользователей Twitter на этой неделе: панели администратора Microsoft для Office 365 и Azure требуют аутентификации для входа в систему и просмотра их. Многие пользователи, которые были заблокированы, не могли видеть обновления, которые Microsoft предоставляла на порталах администрирования.
В отчете Microsoft также не упоминается, что последние пару дней клиенты из разных регионов сообщали о проблемах с Exchange Online и Outlook на своих мобильных устройствах. (Также вчера произошел сбой в SharePoint Online, затронувший некоторых пользователей.) Microsoft связала эту проблему с ситуацией, связанной с Exchange ActiveSync, и «недавнее обновление конфигурации компонентов, которые направляют запросы пользователей, было причиной воздействия».
Сегодня, 1 октября, Exchange и Outlook снова вызвали проблемы у пользователей, преимущественно находящихся в Европе. Официальные лица Microsoft назвали недавнее обновление конфигурации причиной сегодняшних проблем.