Jednym z elementów zarządzania ciągłością działania jest opracowywanie planów odzyskiwania po awarii tzw. DRP z ang. Disaster Recovery Plan. DRP jest zazwyczaj zbiorem, procedur i praktyk związanych z odzyskiwaniem po awarii, które mają na celu, w szczególności zaplanowanie szybkiego odzyskiwania wszystkich krytycznych systemów dotkniętych awarią, a w szczególności eliminację chaosu powstałego w sytuacji katastrofy. Niewątpliwą zaletą opracowywania DRP jest uporządkowanie działań podejmowanych podczas odzyskiwania systemów.

Czym się kierować tworząc plan odzyskiwania po awarii (DRP) i jakie wymagania należy uwzględniać? Opracowując dokumentację odzysku po awarii warto zastosować podejście, na które wskazują wytyczne NIST SP800-34. Taka praktyka powinna zapewnić, że podczas odzyskiwania systemu realizować będziemy działania w założonej kolejności co podniesie skuteczność odzyskiwania i skróci czas potrzebny na przywrócenie. NIST SP800-34 wskazuje na trzy fazy odzyskiwania systemu:

  1. Faza aktywacji i powiadamiania — w tej fazie następuje aktywacja planu po zakłóceniu lub awarii, która może wykraczać poza zakładane dla systemu RTO.
  2. Faza odzyskiwania — ta faza szczegółowo opisuje działania i procedury odzyskiwania. Należy pamiętać, iż działania i procedury powinny być tak napisane, aby odpowiednio wykwalifikowany informatyk mógł odzyskać system bez specjalistycznej wiedzy o systemie (opisując kroki odzyskiwania warto założyć, że nie zawsze administrator danego systemu będzie dostępny w sytuacji awaryjnej).
  3. Faza rekonstrukcji – ta faza określa procedury przetestowania i sprawdzenia systemu po odtworzeniu. Przede wszystkim należy określić, kto i w jakim zakresie jest odpowiedzialny za weryfikację poprawności odtworzenia. Procedury sprawdzania poprawności mogą obejmować testowanie funkcji i/lub sprawdzanie poprawności danych. W tej fazie również następuje dezaktywacja planu, należy zatem wskazać kto i w jaki sposób powiadomi użytkowników o przywróceniu systemu. Warto w tej fazie uwzględnić udokumentowanie przeprowadzonych podczas odtwarzania działań np.: poprzez uzupełnienie dzienników administratora oraz wskazanie wniosków do aktualizacji planu.

Zaczynając dokumentowanie DRP należy uwzględnić kilka wymagań, które zapewnią, że dokument będzie dostosowany do sytuacji awaryjnej oraz umożliwi przeprowadzenie działań w celu przywrócenia systemu. Wymagania te to w szczególności:

  1. Kryteria aktywacji planu: wskazujemy jakie typy zdarzeń spowodują aktywację planu, kto będzie odpowiadał za decyzje o aktywacji planu oraz zasady oceny zdarzeń dzięki którym uruchomienie planu będzie uzasadnione i zatwierdzone przez osoby do tego wyznaczone;
  2. Odzyskiwanie po awarii: w szczególności uwzględniamy, które systemy są krytyczne dla organizacji, jak są skonfigurowane, gdzie są zlokalizowane, jaka jest ich rola w działalności biznesowej, dlaczego akurat te systemy te zostały uznane za kluczowe i niezbędne dla ciągłości działania;
  3. Komunikacja: określamy w jaki sposób zapewniona i utrzymywana będzie komunikacja wewnętrzna w trakcie i po awarii oraz w jaki sposób zapewniona zostanie dostępność systemów łączności (telefony, e-mail, internet i intranet) oraz jak te systemy będą wykorzystywane w trakcie i po awarii;
  4. Tworzenie kopii zapasowych: wskazujemy, które kopie zapasowe będą wymagane, jaki jest wymagany harmonogram wykonywania kopii zapasowych, gdzie są zlokalizowane i ile czasu jest potrzebne na przywrócenie krytycznych danych.
  5. Dokumentacji: jakie dokumenty będą wymagane do obsługi procesu odzyskiwania po awarii;
  6. Eksploatacja: ustalenie sprzętu i materiałów potrzebnych do obsługi procesu odzyskiwania po awarii;
  7. Szkolenia: w jakim zakresie należy przeszkolić personel w celu wsparcia procesu odzyskiwania po awarii, jakie rodzaje szkoleń będą prowadzone dla pracowników i zewnętrznym dostawcą w celu wsparcia procesu odzyskiwania po awarii?

W kolejnym kroku opracowywania dokumentacji odtworzenia po awarii tworzymy procedury określające krok po kroku działania, które należy podjąć po uruchomieniu planu. Do takich procedur w zależności od rodzaju awarii w szczególności zaliczyć trzeba:

  1. Procedury komunikacyjne określające awaryjne informacje kontaktowe dla pracowników, klientów, dostawców i innych grup lub osób, w razie potrzeby. Wskazujące zasady korzystania i dostępności telefonów, urządzeń bezprzewodowych, poczty głosowej, poczty elektronicznej, intranetu w trakcie awarii. Kroki i procedury w celu dostarczenia bieżących informacji „in how-to” w celu informowania pracowników o aktualnym stanie i bieżących procedurach biznesowych podczas trwania awarii.
  2. Procedury dostępu zdalnego opisujące jakie działania mogą być wykonywane zdalnie np.: z lokalizacji biura domowego, jakiego typu sprzęt i oprogramowanie będą wymagane oraz w jaki sposób zostaną uruchomione alternatywne systemy i procedury zdalnego dostępu dla osób zaangażowanych w proces odzyskiwania.
  3. Techniczne procedury wdrożeniowe mówiące o tym w jaki sposób systemy będą instalowane, konfigurowane i administrowane np.: w zapasowych lokalizacjach.
  4. Procedury tworzenia kopii zapasowych i odzyskiwania danych mówiące w jaki sposób kopie zapasowe będą pobierane w przypadku aktywacji planu oraz w jaki sposób zostaną przywrócone dane z tych kopii.
  5. Procedury tymczasowego dostępu, w których należy wskazać sposób dostępu do alternatywnych systemów, sprzętu i programów.
  6. Procedury wsparcia technicznego mówiące o tym kto będzie odpowiedzialny za wsparcie techniczne podczas awarii, jaki rodzaj pomocy technicznej będzie świadczony i w jaki sposób.
  7. Procedury operacyjne (tzw. procedury obejścia) w trakcie awarii mówiące o tym jakie i jak długo operacje można realizować podczas nie działania systemu np.: z wykorzystaniem systemów/aplikacji zainstalowanych lokalnie na stacjach użytkowników lub za pomocą ręcznych procedur. Warto również określić jakie działania muszą podjąć pracownicy pomocy technicznej i/lub użytkownicy końcowi, aby realizować operacje biznesowe poza systemem.

Niewątpliwe istotnym jest, aby wszelkie działania odzyskiwania po awarii testować. Każdorazowe przeprowadzenie testów może zdecydowanie zmienić nasz plan odzysku i pokazać obszary które uległy zmianie i należy je zaktualizować.

Autor: Piotr Maziakowski