«Аварийный план восстановления функционирования вычислительной системы (информационной системы)»

По данной тематике были использованы следующие информационные источники:

http://www.connect.ru/article.asp?id=3634
http://www.peterlife.ru/st%20petersburg/krest_prison/books%20049.htm
http://www.ot.ru/press20060715.html
http://www.jet.msk.su/vc_reheniya_katastrof
http://www.lynx.ru/decisions/db_center/elem
http://www.avosp.ru/affair/7nonstop.htm Обеспечение непрерывности деятельности организации в нештатных ситуациях,описываются всевозможные нештатные ситуации;очень подробно написано о составлении плана
http://www.ot.ru/press20060715.html
http://www.peterlife.ru/st%20petersburg/krest_prison/books%20049.htm
Воспользовавшись данными сылками вы прочитаете много полезной информации о составление плана для восстановления вычислительной системы в результате различных чрезвычайных ситуаций, в том числе природного характера.

Подробные планы действий в случае аварий и катастроф помогают действовать эффективно и гарантируют, что ни один важный аспект не будет упущен. План аварийного восстановления – это подробный перечень мероприятий и действий, которые необходимо выполнить «до», «во время» и «после» возникновения чрезвычайной ситуации. Здесь определяется порядок уведомления руководителей и ответственных сотрудников, а также излагаются детальные инструкции для исполнителей. Все это позволяет максимально быстро восстановить работоспособность важных информационных систем и сервисов. Сроки восстановления четко регламентируются в зависимости от требований и специфики работы компании-заказчика. Приемлемое для бизнеса время восстановления является одним из ключевых факторов, от которого зависит выбор стратегии резервирования оборудования и способа репликации данных.

Этапы разработки плана

Разработку плана обеспечения бесперебойной деятельности предприятия необходимо организовать в виде проекта, чтобы управлять задачами, сроками и конечными результатами. Основными этапами типичного проекта являются: Организация выполнения проекта;
1.Оценка риска, уменьшение нежелательных последствий от наступления событий, связанных с риском, анализ последствий для бизнеса;
2.Разработка стратегии восстановления деятельности;
3.Документирование плана;
4.Обучение;
5.Имитация бедствия.

Организация выполнения проекта

Организация выполнения проекта включает в себя административное управление проектом, определение допущений, проведение совещаний и разработку политики.

Оценка риска

При оценке риска выявляются типы бедствий, которые могут произойти в каждом конкретном месте. Обследуется физическая инфраструктура здания и его окружения. Для каждого типа бедствия делается оценка возможной продолжительности и присваивается относительная величина, соответствующая вероятности их появления. Используется шкала, например, от 0 до 3; где 0 означает невероятное событие, а 3 — весьма вероятное. В результате этого выявляются области, в которых следует провести дальнейшие исследования, чтобы уменьшить последствия событий, приводящих к риску. Анализ последствий для деятельности организации После оценки риска проводится анализ последствий бедствия для деятельности организации, в ходе которого определяются потери из-за невозможности продолжать нормальную деятельность. Они могут быть очевидными или носить более абстрактный характер, при котором руководству придётся сделать предположительную оценку потерь. В любом случае цель заключается не в том, чтобы получить точный ответ, а в том, чтобы выявить факторы, которые являются критически важными для продолжения деятельности компании. На этом этапе определяется масштаб плана обеспечения бесперебойной деятельности. Чрезмерные меры предосторожности потребуют лишних средств, а недостаточные — не обеспечат должной безопасности.

Разработка стратегии обеспечения бесперебойной деятельности

После определения требований можно принимать решение о том, как обеспечивать восстановление деятельности. Существует множество вариантов технических решений, в том числе: - Использование "горячего" резервного помещения. Поставщик предоставляет компании подготовленное рабочее помещение с оборудованием, средствами телекоммуникации, персоналом, осуществляющим техническую поддержку, и т.д., обычно по годовому контракту. Заказчики получают доступ к оборудованию по принципу "первый пришел — первым обслуживается". - Использование "холодного" резервного помещения. Компания организует работу в пустующем или арендуемом помещении, которое подготовлено к использованию. Сразу после бедствия в помещении развёртывается оборудование (возможно, закупаемое у поставщиков), программное обеспечение и службы обеспечения. - Использование внутренних резервов. Для предоставления услуг в чрезвычайных обстоятельствах используется оборудование компании, которое расположено в ином месте. - Заключение соглашения о взаимной поддержке. Заключается соглашение с другой компанией о коллективном использовании ресурсов после бедствия. При этом предполагается, что резервное оборудование всегда имеет нужную производительность и вас устраивает степень защиты информации при коллективной работе. В некоторых случаях можно использовать комбинацию этих вариантов. Крупные многонациональные компании чаще всего используют для локальных вычислительных сетей метод внутреннего резервирования. Поскольку количество имеющихся резервных помещений ограничено, может оказаться, что в случае чрезвычайных обстоятельств не окажется рабочего помещения, которое можно было бы использовать. Бедствие в масштабе региона может привести к тому, что все резервные помещения будут заняты и компании негде будет возобновить работу. Хорошо подготовленный план обеспечивает компанию пошаговыми инструкциями, соответствующими типу и тяжести бедствия. В нём указываются функциональные группы специалистов компании, подготовленные для реализации плана. Наличие хорошо проработанного плана гарантирует, что в стрессовой ситуации после возникновения чрезвычайных обстоятельств, критически важные факторы не будут упущены.

Документация

План может документироваться различными способами. Большинство компаний всё еще применяют традиционные текстовые редакторы, другие используют коммерческое программное обеспечение. Какой бы метод ни был использован, важно обеспечить строгое выполнение процедур управления внесением изменений, чтобы поддерживать план в состоянии, соответствующем реальной текущей ситуации.

Обучение

Обучение "Группы восстановления" направлено на то, чтобы каждый сотрудник знал свои функции и обязанности в случае возникновения нештатных ситуаций.

Имитация бедствия

Большинство компаний проводят испытания плана минимум один раз в полгода. Имитируя бедствия можно проверить план, найти его слабые места и отработать взаимодействие участников. Обнаружение недостатков обычно влечёт за собой корректировку плана. План должен регулярно проходить испытания и корректироваться. Лишь немногие планы обеспечения бесперебойной деятельности выполняются так, как это предусматривалось первоначально. Поскольку внесение поправок в план необходимо делать регулярно, должна быть максимально упрощена процедура корректировки плана.

Примерное содержание плана

Непременным условием быстрого и успешного восстановления деятельности организации после бедствия является предварительная разработка и регулярное обновление постоянно действующего плана обеспечения бесперебойной деятельности компании. В зависимости от специфики компании и принятой в ней политики подобный план мероприятий может иметь различные формы и названия. Он может состоять из нескольких разделов, отражающих различные направления работ: план подготовки к чрезвычайным ситуациям, план действий в чрезвычайной ситуации, план резервирования и восстановления информации, план восстановления деятельности и т.п. План может также детализироваться по категориям и продолжительности чрезвычайных обстоятельств. План включает следующие основные разделы:

1 Основные положения плана.
2 Оценка чрезвычайных ситуаций:
- выявление уязвимых мест компании;
- классификация возможных опасных событий и оценка вероятности их возникновения;
- сценарии чрезвычайных ситуаций;
- потенциальные источники отрицательных последствий каждой чрезвычайной ситуации и оценка величины ущерба;
- набор критериев, на основании которых объявляется чрезвычайная ситуация.
3 Деятельность компании в чрезвычайной ситуации:
- первоначальное реагирование на чрезвычайную ситуацию (оценка опасного события, объявление чрезвычайной ситуации, оповещение необходимого круга лиц, ввод в действие чрезвычайного плана);
- мероприятия, обеспечивающие бесперебойность деятельности компании в чрезвычайной ситуации и восстановление ее нормального функционирования.
- контроль правильности и корректировка содержания плана;
- составление списка адресов и процедуры рассылки плана;
- подготовка к опасным событиям, обеспечение безопасности и предотвращение бедствий;
4 регулярное создание резервных копий данных, документации, бланков входных и выходных документов и основного программного обеспечения, их хранение в безопасном месте.
5 Информационное обеспечение:
- приоритетные функции, выполняемые компанией;
- списки внутренних и внешних ресурсов — технических средств, программного обеспечения, средств связи, документов, офисного оборудования и персонала;
- учётная информация о техническом, программном и другом обеспечении, необходимом для восстановления деятельности организации в случае чрезвычайной ситуации;
- список лиц, которых необходимо оповестить о чрезвычайной ситуации с указанием адресов и телефонов;
- вспомогательная информация — планы и схемы, маршруты перевозок, адреса и т.п.;
- описание детальных пошаговых процедур, обеспечивающих чёткое выполнение всех предусмотренных мер;
- функции и обязанности сотрудников в случае возникновения непредвиденных обстоятельств;
- сроки восстановления деятельности в зависимости от типа возникшей чрезвычайной ситуации;
- смета расходов, источники финансирования.
6 Техническое обеспечение:
- создание и поддержание базы технических средств, обеспечивающей бесперебойную деятельность компании в чрезвычайной ситуации;
- создание и поддержание в надлежащем состоянии резервного производственного помещения.
7 Организационное обеспечение, состав и функции следующих групп, обеспечивающих бесперебойную деятельность в случае бедствия:
- группы оценки чрезвычайной ситуации;
- группы управления в кризисной ситуации;
- группы для работ в чрезвычайной ситуации;
- группы восстановления;
- группы обеспечения работы в резервном производственном помещении;
- группы административной поддержки.

Немного более подробно о 4 пункте плана:


Резервное копирование системы/данных для быстрого последующего восстановления является обязательным.

Для наиболее критичных систем дополнительно необходимы системы репликации данных и планы аварийного восстановления, обеспечивающие сохранность данных и непрерывность функционирования ИС. Основным способом восстановления данных является наличие копии этих данных.Используются всевозможные способы и носители,для того чтобы сделать копии данных
1.Создание копии системы/разделов/данных на всевозможные носители информации,причем с определенной периодичностью (как предусмотрено планом и позволяют финансовые возможности фирмы)
2.Дублирование вычислителных систем(пример,создание 2 сервера,который дублирует работу 1 или включается когда 1 выйдет из строя)
3.Использование RAID-массивов
4.Создание копии информации и пересылка ее по сети в удаленное хранилище

Репликация данных

При чрезвычайных ситуациях наибольший ущерб компании наносят потеря данных и невозможность доступа к ним. Минимизация этих рисков достигается за счет резервирования ресурсов (серверов, систем хранения, каналов связи), репликации и резервного копирования.
1.Периодическая репликация (репликация по расписанию) помогает сохранить в удаленном центре копию данных на фиксированный момент времени в прошлом. Основной недостаток этого метода – потеря актуальности данных за период времени, равный интервалу между репликациями. Тем не менее, репликация по расписанию – весьма экономное решение, отлично подходящее компаниям, для которых время восстановления не является критически важным, а также допускается незначительная потеря данных.
2.Синхронная репликация гарантирует самый высокий уровень надежности, обеспечивая идентичность всех копий данных. Предъявляя высокие требования к каналам связи, синхронная репликация чаще всего применяется для наиболее важных приложений, где необходима максимальная защита данных.
3.Асинхронная репликация обеспечивает непрерывность передачи данных, причем даже в условиях нестабильности каналов связи. Этот способ помогает сохранить высокую производительность информационных систем и контролировать загрузку каналов передачи данных, но не обеспечивает столь же высокий уровень актуальности данных как синхронная репликация.
4.В последнее время часто применяются схемы множественной репликации, когда данные передаются из основного вычислительного центра сразу в несколько резервных центров. Нередко в этих случаях даже применяются разные способы репликации для обеспечения более надежной и комплексной защиты данных ИС.
5.Распределенные сети хранения данных Обеспечение сохранности важных данных в случае возникновения чрезвычайной ситуации обеспечивается при помощи систем репликации и резервного копирования. Для работы этих систем необходимы надежные и высокопроизводительные каналы передачи данных. Наиболее эффективным способом объединения систем хранения и обеспечения надежной среды для репликации являются сети хранения данных (SAN). Наибольшее распространение получили сети хранения данных, построенные на базе технологии Fibre Channel, но, поскольку катастрофоустойчивые вычислительные центры часто разнесены на значительные расстояния (десятки, сотни и даже тысячи километров), возможны специализированные распределенные решения. Объединение SAN с помощью IP-сетей имеет меньшую производительность, но за счет широкой распространенности и низкой стоимости IP-каналов этот вариант может быть более доступен. Сети хранения данных с применением технологий DWDM и CWDM обеспечивают передачу данных на большие расстояния с высокой скоростью. В решениях этого класса используются оптоволоконные распределенные сети, в том числе уже существующие сети глобальных операторов связи.
Hosted by uCoz