Участие в аварийном восстановлении требует от компании размышлений о многих вещах, но, несмотря на длинные контрольные списки, которые создаются для выполнения аварийного восстановления, есть некоторые области, которые часто упускаются из виду в вопросах обеспечения непрерывности бизнеса и аварийного восстановления. планирование.
Например, те, кто изучает аварийное восстановление, часто уделяют особое внимание защите своих серверов и данных — и, конечно же, это чрезвычайно важно. Однако они не охватывают всю картину. Крайне важно рассмотреть все вопросы, вызывающие беспокойство, до того, как произойдет стихийное бедствие, а не во время или после события.
Убедитесь, что вы продумали уникальные ответы своей компании на следующие важные вопросы, чтобы помочь обеспечить выживание вашей организации в случае катастрофы.
Содержание статьи
Что должны делать сотрудники?
Этот вопрос эволюционировал в мире Covid-19, но он вызывает дискуссию, поскольку тот, который будет определять мир после Covid, меняется каждый день. В зависимости от стихийного бедствия (например, пожара, наводнения, урагана) офис вашей компании может какое-то время не работать. Если ваш офис недоступен, как сотрудники должны работать?
Замечательно, что ваши серверы и данные успешно вышли из строя, но какая польза, если ваши сотрудники не могут получить к ним доступ? Во время бедствия не время начинать искать решения.
Ранее я рекомендовал компаниям иметь политику работы на дому и необходимую инфраструктуру, особенно те, которые могут справиться с масштабированием или легко масштабироваться для поддержки всей рабочей силы. Ничто не может поседеть системному администратору быстрее, чем иметь дело с целой компанией, пытающейся подключиться к малоразмерному VPN-соединению.
Еще одна рекомендация — договориться с управляющей компанией о временном использовании одного из их местоположений или местного отеля для использования конференц-зала.
Но в нашем мире Covid-19 работа из дома стала новой нормой; и малоразмерные туннели VPN были (или находятся) в процессе корректировки размера из-за массового перехода на удаленную работу. Итак, этот вопрос только что ответил сам на себя? Можем ли мы все просто опубликовать наш любимый праздничный мем? Может быть. Может и нет.
Крупномасштабные бедствия могут повредить дома ваших сотрудников так же, как и офисный парк. Ураган «Сэнди» отключил электричество в значительной части Нью-Йорка, Нью-Джерси и Пенсильвании. Для некоторых эти отключения длились неделями.
Итак, представьте себе такой ход событий: офис закрыт из-за катастрофы, например, глобальной пандемии. Затем предположим, что ураган вырубил 40 процентов критически важного ИТ-персонала. Учитывая, что мы находимся в разгаре пандемии и всегда приближается сезон ураганов, это не исключено.
Могут ли ваши системы позволить, чтобы персонал был недоступен в течение нескольких дней? Достаточно ли у вас разнообразия навыков / избыточности, чтобы преодолеть временную потерю персонала на 40 процентов? Что, если все ваши администраторы баз данных входят в эту затронутую группу?
Если вы национальная или глобальная компания с сотрудниками, разбросанными по географическим регионам, возможно, у вас избыточные навыки в разных регионах. Но что, если вы небольшая компания с одним офисом? Может быть, вы откроете офис только для критически важных сотрудников. При небольшой рабочей силе возможно социальное дистанцирование.
Может быть, я просто послал холодок по спине вашего сотрудника по корпоративным рискам. Возможно, ваши сотрудники смогут пойти в гости к друзьям или родственникам? Может быть, компания просто выберет гостиничные номера для критически важных сотрудников, чтобы они могли работать вдали от общества?
Каков план восстановления после отказа?
Произошла катастрофа, и ваши процессы заработали. Ваши данные, приложения и серверы успешно вышли из строя! Потрясающий. Давайте выльем шампанское, взорвем воздушные рожки, взорвем конфетти, сделаем все праздничные вещи (лично я бросаю картон и раскручиваю ветряную мельницу для обратного вращения на века).
Здорово, что ваш план аварийного восстановления сработал, но что делать дальше? Вы постоянно находитесь на своем сайте аварийного восстановления? Если нет, как вы собираетесь восстановить данные после сбоя?
Наличие плана восстановления после сбоя так же важно, как и план аварийного восстановления. Что это за процессы? Например, если вы используете репликацию хранилища, нужно ли вам повторить весь процесс установки / заполнения? Может ли ваш процесс продолжить работу с того места, где остановились исходные устройства хранения? Или вам нужно полностью создать экземпляр хранилища в исходном месте?
Некоторые решения автоматически меняют направление репликации данных как часть аварийного переключения. Но что, если исходный сайт отключен в течение длительного времени? Как долго вы можете хранить изменения данных, прежде чем исходное местоположение окажется слишком далеко позади? Или, что, если вы используете компанию DR для размещения своего DR? Взимается ли более высокая или дополнительная плата за запуск ваших производственных систем вне помещений на длительный период?
Может быть, вы находитесь в одной из тех модных общедоступных облачных сред, и это не имеет значения. вы находитесь в другом регионе / зоне доступности. Примите перемены и да здравствует США-Запад-2!
Планы восстановления после отказа могут быть запутанными и дорогостоящими, даже если они продуманы и практикуются. Практические тесты могут быть невозможны, но вы определенно можете убедиться, что ваша компания думает об этом, говорит об этом, выполняет настольные упражнения и разрабатывает теоретические учебники. Готовность может означать разницу между успехом и неудачей.
Находится ли на сайте аварийного восстановления инфраструктура резервного копирования?
Этот вопрос похож на отказоустойчивый, но несколько отличается. Ваш процесс аварийного восстановления прошел отлично. Теперь у вас заканчивается ваш DR-сайт. Большой. Вам нужно беспокоиться о резервном копировании и восстановлении? Стив из команды CRM случайно удалил все данные клиента. Как вы это решаете? У вас есть реплика инфраструктуры аварийного восстановления на вашем сайте аварийного восстановления? Большой. Сделайте это как приключение по выбору и переходите к следующему разделу.
Все еще здесь? Каков план ваших резервных копий? Резервное копирование и восстановление по-прежнему необходимо. Эти проблемы не откладываются из-за стихийных бедствий; и если ваши варианты восстановления после отказа особенно задействованы, вы можете работать на своем сайте аварийного восстановления в течение длительного времени. «Стивы» мира сами по себе ходячая катастрофа.
Какие есть варианты? Если вы находитесь в одной из облачных инфраструктур, ваши системы резервного копирования можно легко включить в планы аварийного восстановления или легко воссоздать в новой зоне доступности или в новом регионе. Если это локальное решение, установка пары репликации может быть очень хорошим результатом. Или наличие процесса для использования существующей инфраструктуры резервного копирования в этом месте, если это рабочий сайт вашей компании.
Некоторые компании вместе со своими поставщиками ИТ планируют быстро приобрести необходимую инфраструктуру и внедрить ее как можно скорее после аварии. Зачем покупать его, пока он вам не понадобится? Экономьте деньги, пока они не потребуются. Хотя это приемлемое решение, я не фанат. На мой вкус остается слишком много переменных. Будет ли в это время товар на складе, будут ли другие люди пытаться купить точно такой же товар (а)? Будут ли задержки с доставкой? Вы абсолютно уверены, что центр обработки данных / центр обработки данных может поддерживать его физически или электрически? Это много, что нужно оставить на последнюю минуту.
DRaaS: сколько жителей региона используют одного и того же провайдера?
Аутсорсинг аварийного восстановления сторонней компании может быть отличным решением. Но готовы ли они к более масштабной региональной катастрофе? Со сколькими другими компаниями, подобными вашей, они ведут бизнес? Сколько компаний в вашем регионе также имеют планы аварийного восстановления, которые включают использование их производств в Фениксе, Атланте или Лас-Вегасе?
Если бы что-то вроде урагана пролетело через северо-восток, смогла бы ваша компания аварийного восстановления справиться с этим? многие компании переходят на один и тот же объект? Сколько еще клиентов у вашего «выделенного» DR-менеджера? Получите ли вы необходимое внимание и услуги в трудную минуту? Или они будут серьезно отвлекаться на 10 или 15 других клиентов в такой же ситуации?
Да, я описываю довольно экстремальную ситуацию. Но стихийные бедствия сейчас более распространены, чем когда-либо. Ураганы чаще обрушиваются на побережья, и все Западное побережье подвержено пожарам. Следует ли избегать использования стороннего провайдера? Не обязательно. Просто будьте в курсе, задавайте вопросы и устанавливайте реалистичные ожидания. Если вы не получаете ответов, которые вам нравятся, изучите альтернативные направления, например, обратитесь к другому поставщику или одному из поставщиков облачных услуг.
План впереди
Надеюсь, эти вопросы дали вам пищу для размышлений. Аварийное восстановление — это обширная ИТ-область, имеющая множество разновидностей, многие из которых кажутся незначительными, пока вы не столкнетесь с ними.
Знание того, к чему вы идете, и наличие твердого плана может иметь решающее значение между успехом и неудачей, а также продолжительностью вашего бизнеса.