Обеспечение бесперебойной работы: Важность плана аварийного восстановления

В современной деловой среде предприятия всех размеров обрабатывают огромные объемы цифровой информации. Несмотря на то, что никто не желает столкнуться с непредвиденными ситуациями, катастрофа - будь то природная, техногенная или кибератака - может произойти в любой момент. Поэтому наличие плана аварийного восстановления (ПАР) для быстрого восстановления прерванных или подвергшихся угрозе сервисов данных становится жизненно важным. ПАР поможет смягчить стресс и беспокойство, возникающие при сбоях в работе.

Что такое план аварийного восстановления ИТ?

План аварийного восстановления, известный также как план DR или DRP, представляет собой набор процедур и инструментов, которые компания использует для восстановления после серьезных сбоев данных. Он помогает организации реагировать на катастрофы, принимать меры по предотвращению ущерба и быстро восстанавливать работу. DRP позволяет компании сфокусироваться, определить приоритеты рисков и активов, разработать стратегию защиты данных и найти оптимальный способ возвращения к нормальной работе.

В контексте ИТ-услуг, DRP фокусируется на минимизации времени простоя серверов, баз данных и рабочих станций сотрудников, а также на возвращении критически важных систем в рабочее состояние. Это ключевая мера по снижению рисков, позволяющая преодолеть катастрофу данных и восстановить нормальную работу.

Катастрофой может быть любое событие, которое нарушает ИТ-процессы и ограничивает доступ к данным, приложениям или системам. Это может быть отключение электричества, повреждение хранилища данных, распределенная атака типа отказ в обслуживании (DDoS) или стихийное бедствие, нарушающее работу серверов. Потеря или повреждение данных вследствие сбоя оборудования, человеческой ошибки, взлома или вредоносного ПО может иметь серьезные последствия.

Сбои могут привести к организационным проблемам, включая потерю дохода, ущерб репутации бренда или изменения в операционной структуре. Чем больше времени требуется для восстановления бизнеса, тем большее влияние оно оказывает на все аспекты деятельности организации. Именно поэтому ПАР должен содержать подробную информацию, позволяющую организации быстро и эффективно восстановиться.

Аварийное восстановление vs. непрерывность бизнеса

Термины план аварийного восстановления и план обеспечения непрерывности бизнеса (ПНБ) звучат похоже, но они совершенно разные. DRP подробно описывает, как компания восстановит свои ИТ-операции после катастрофы. ПНБ описывает, как компания продолжит работать во время катастрофы. Он часто включает в себя конкретные меры по управлению угрозами для предотвращения потенциальной катастрофы.

Проще говоря, ПНБ направлен на поддержание работы несмотря на перебои. Аварийное восстановление, являющееся подмножеством ПНБ, фокусируется на восстановлении после прерываний. Для компаний, которые могут себе это позволить, наличие как DRP, так и ПНБ может обеспечить более комплексное решение по аварийному восстановлению.

Например, DRP может предусматривать использование удаленного сервера резервного копирования данных для хранения копий критически важных данных. ПНБ может включать в себя резервную производственную среду, зеркально отражающую производственный сервер, которая запускается сразу же после возникновения аварии. Резервная система обеспечивает едва заметное переключение для поддержания работы.

Что включают в себя планы аварийного восстановления?

Надежный ПАР должен включать потенциальные сценарии сбоев и способы реагирования на них. Поскольку в результате стихийного бедствия сотрудники могут быть вынуждены покинуть свои рабочие места или не иметь возможности оказывать помощь, ПАР должен быть легкодоступным и понятным.

Приступая к разработке ПАР для своей компании, обратите внимание на следующие элементы:

  • Цели: Цели компании в ответ на катастрофу, включая максимальное время простоя, максимальную потерю данных, время и точки восстановления.
  • Процедуры резервного копирования: Где и как создаются резервные копии всех ресурсов данных, а также инструкции по восстановлению резервных копий данных.
  • Инвентаризация ИТ: Список всех программных и аппаратных активов, их использование и то, считаются ли они критическими для бизнес-операций.
  • Обязанности персонала: Список всех сотрудников, участвующих в ПАР, кто отвечает за какие действия после сбоя и кто будет их дублером.
  • Места аварийного восстановления: Место расположения вторичной резервной копии или хранилища данных вне офиса.
  • Процедуры аварийного восстановления: Как организация будет реагировать в чрезвычайной ситуации, например, при угрозе кибербезопасности, чтобы ограничить масштабы ущерба и выполнить срочное резервное копирование.
  • Точка восстановления после катастрофы: Мера того, какой объем данных может быть потерян в процессе восстановления. Это контролируется путем корректировки частоты резервного копирования данных.
  • Время восстановления после катастрофы: Оценка того, сколько времени потребуется для возобновления нормальной работы после катастрофы.
  • Восстановление: Любые процедуры, которые будут выполняться для восстановления утраченных систем или данных и возобновления нормальной работы.
  • Тестирование ПАР: Планируйте частое тестирование, чтобы убедиться, что действия могут быть выполнены в случае реальной чрезвычайной ситуации.

Как создать план аварийного восстановления

При создании DRP для вашей организации следуйте этим шагам, чтобы убедиться, что план включает все важные детали:

  1. Проведите аудит ИТ-ресурсов: Прежде чем планировать восстановление, вы должны знать, какие ИТ-ресурсы используются в нормальной работе вашего бизнеса. Узнайте, какое влияние они окажут на компанию, если будут недоступны. Для этого необходимо провести инвентаризацию сетевой инфраструктуры вашей компании.
  2. Определите критически важные операции: Определите, что необходимо защитить во время катастрофы, включая сетевое оборудование, аппаратные средства, программное обеспечение, облачные сервисы и, самое главное, ваши критически важные данные. Хорошая DRP направлена на то, чтобы как можно быстрее восстановить работоспособность критически важных сервисов.
  3. Рассмотрите потенциальных нарушителей: Многие ситуации могут привести к сбоям в работе бизнеса, и ваша отрасль играет определенную роль среди потенциальных разрушителей. Например, технологическая отрасль может подвергаться повышенному риску кибератак. Работайте с отделами вашей компании над составлением полного списка потенциальных угроз для бизнес-операций.
  4. Назначьте роли и обязанности: После выявления потенциальных факторов сбоя определите, как компания будет реагировать в каждой ситуации. Определите, кто отвечает за каждую область реагирования и кто будет их дублером. Это гарантирует, что все действия и детали будут учтены. Ваша DRP также должна включать детали, касающиеся коммуникации, например, кто и с кем будет общаться в определенных ситуациях. Когда все знают, что делать в ответ на бедствие, ваша ПРБ будет более эффективной и действенной.
  5. Установите цели восстановления: Теперь подумайте, как быстро ваша компания должна быть способна восстановиться после аварии и какой объем данных вы можете позволить себе потерять в случае аварии. Эти показатели известны как цель времени восстановления (RTO) и цель точки восстановления (RPO), соответственно. Расчет точных и надежных RTO и RPO - это способ установить пределы, в которых должен действовать ваш план восстановления.
  • RTO представляет собой максимальное количество минут, часов или дней, в течение которых ваша организация может пережить отключение ИТ-услуг. Ваш план восстановления должен будет включить эти жесткие сроки в свои протоколы.
  • RPO - это количество транзакционных данных, которые ваша организация может позволить себе потерять во время сбоя и выжить.
  1. Определите приоритет данных: Возможно, вы захотите определить приоритетность данных, необходимых для восстановления операций. Например, данные, необходимые для кредиторской и дебиторской задолженности или соблюдения нормативных требований, должны иметь высокий приоритет, чтобы минимизировать сбои в работе. Это может потребовать частого резервного копирования этой информации или даже создания резервного производственного сервера, который заменит основной сервер в случае аварии.
  2. Найдите решение для удаленного хранения данных: Ваша компания может рассмотреть возможность удаленного резервного копирования своих данных на случай аварии. Такое решение позволит вам восстановить данные, которые в противном случае могут быть потеряны. Кроме того, если ваши средства хранения данных физически повреждены, например, в результате пожара, наводнения или несанкционированного проникновения, вы можете использовать данные, хранящиеся в резервной копии, чтобы компенсировать потери. Это поможет свести к минимуму перебои в работе бизнеса.

Компании могут рассмотреть облачные решения, которые могут автоматически загружать и копировать данные каждые несколько дней или часов. В отличие от ручного резервного копирования, требующего от пользователей копирования данных на диск или накопитель, резервное копирование в облаке может быть выполнено в любое время.

Физические резервные копии, однако, легче изолировать от зараженных систем, сохраняя их в автономном режиме до тех пор, пока они не понадобятся. Это снижает вероятность их повреждения вымогателями и другими вредоносными программами.

  1. Создание теста DRP: Теперь, когда вы создали план восстановления, вы хотите убедиться, что он работает, когда вам это нужно. Возможно, ваша компания захочет периодически тестировать DRP. При создании теста учитывайте следующее:
  • Единые точки отказа: Есть ли в вашем плане восстановления системы, которым не хватает избыточности? Если эти единичные точки отказа столкнутся с проблемой, сможете ли вы продолжать выполнять свой план восстановления?
  • RTO: Сколько времени с момента начала тестирования требуется для восстановления минимальной функциональности? Сколько еще времени должно пройти, чтобы все пришло в норму? Рассмотрите время восстановления и изучите, как вы можете сделать его более быстрым.
  • RPO: Сколько данных было потеряно при переключении на удаленное резервное копирование? Были ли потерянные данные каким-либо образом важны для вашей деятельности? Проверка точек восстановления важна для предотвращения потери данных во время реальной аварии.
  • Тип моделируемой катастрофы : Проводите ли вы тест, предполагающий, что данные в вашей сети повреждены или недоступны из-за повреждения центра обработки данных? Рассмотрите, как различные типы бедствий могут повлиять на ваши возможности и потребности в восстановлении. Это поможет вам создать более надежный и эффективный план DR.

Протестируйте план, проведя реалистичную тренировку и посмотрев, как сотрудники действуют в соответствии с планом. Извлеките из него уроки и при необходимости измените ППР и процедуры. Периодически пересматривайте план - не реже одного раза в шесть месяцев - чтобы убедиться, что он по-прежнему актуален и отражает текущую структуру и ИТ-настройку вашей компании.

Рубрика: 
Ключевые слова: 
Источник: 
  • indeed.com
Перевод: 
  • 1

Поделиться