Sekcja specjalistyczna
Definicja i rotacja kopii zapasowych
27.02.2012, 12:38
Jednym z kluczowych elementów każdego procesu zapasowego kopiowania danych jest takie ustalenie schematu rotacyjnego, aby była zagwarantowana ochrona minimalnie o jeden dzień do tyłu. Najlepszym schematem rotacyjnym jest taki schemat, który zagwarantuje możliwie co najdłuższe, najbardziej obszerne i najbardziej różnorodne zapasowe kopiowanie danych firmy.
W odróżnieniu od schematu Tape-A-Day, np. kiedy przepisujemy dane z zeszłego dnia kopią dnia następnego, takie kopiowanie zapasowe uznajemy za najmniej bezpieczne i użyteczne.
Zapasowe kopiowanie danych i ich późniejsze składowanie w okresie dłuższym niż jeden dzień jest niezbędne. Mimo to koszty lub czas potrzebny na każdodzienne pełne kopiowanie zapasowe, mogą być niepraktyczne, szczególnie dla firm z większą ilością danych. Wielu użytkowników z tego powodu w większości dni pracujących dokonuje kopii bądź różnicowych albo przyrostowych.
Typy kopii
Kopia pełna (full backup) – w przypadku pełnej kopii są wybrane pliki skopiowane a jednocześnie jest u nich usunięty atrybut Archive. Atrybut służy do rozróżnienia danych skopiowanych, od tych które jeszcze nie były skopiowane. W momencie zmiany treści pliku atrybut Archive jest ponownie nastawiony. Pełne kopie są w większości fazą wstępną przed użyciem kopii typu Incremental (przyrostowe) i Differental (różnicowe), z ich pomocą jest możliwa oszczędność czasu niezbędna do przeprowadzenia kopii zapasowych. Jeśli w celu zapasowego kopiowania jest użyta pełna kopia, do odnowy pierwotnego stanu danych wystarczy jedynie odnowa tej jedynej kopii.
Kopia przyrostowa (incremental backup) – w przypadku kopii przyrostowej są kopiowane tylko pliki, u których widnieje atrybut Archive, przy czym ten oto atrybut zostaje po skopiowaniu usunięty. W ten sposób skopiujemy tylko te pliki, w których doszło do jakiejś zmiany (lub u których był od ostaniej pełnej kopii ręcznie nastawiony atrybut Archive). To kopiowanie jest w sposób istotny krótsze od kopii pełnej, dlatego się to wykorzystuje w celu kopiowania w trakcie tygodnia pracy. Do odnowy z kopii przyrostowej nie wystarczy tylko odnowa tej oto kopii. W przypadku awarii serwera albo macierzy najpierw musimy odnowić ostatnią kopię pełną a następnie w odstępie czasu wszystkie kopie przyrostowe począwszy od najstarszej aż po najnowszą wytworzoną w okresie po ostaniej kopii pełnej. Z tego płynie wniosek, że kopie przyrostowe są wprawdzie szybsze w tworzeniu, aczkolwiek czas odnowy z powodu konieczności odnowy kilku różnych skopiowanych kompletów jest dłuższy. Aczkolwiek prawdopodobieństwo wielkiej awarii nie jest w tak dużym stopniu realne, dlatego z pewnością wykorzystacie korzyści z kopiowania przyrostowego.
Kopia różnicowa (differential backup) – w przypadku kopii różnicowej są kopiowane tylko pliki, w których jest nastawiony atrybut Archive, przy czym ten oto atrybut po skopiowaniu nie jest usunięty. Mianowicie skopiują się w ten sposób tylko pliki, które uległy zmianie (lub u których był od ostaniej pełnej kopii ręcznie nastawiony atrybut Archive). Proces kopiowania jest w istotny sposób krótszy od kopii pełnej, dlatego można ją używać do kopiowania w trakcie tygodnia pracy, podobnie jak to było w przypadku kopii przyrostowej. Również do odnowy z kopii różnicowej nie wystarczy odnowa jedynie tej oto kopii. W przypadku awarii serwera lub macierzy najpierw musimy odnowić ostatnią kopię pełną, a następnie w określonym odstępie czasu ostatnią kopię różnicową w okresie po ostatniej kopii pełnej. Z tego wynika, że kopie różnicowe są z punktu widzenia tworzenia porównywalnie szybkie jako kopie przyrostowe, czas odnowy jest krótszy w związku z koniecznością odnowy jedynie kopii różnicowej, przy czym widać wyraźną zależność od tego, do ilu niekompletnych kopii od ostatniej kopii pełnej doszło. W pierwszy dzień po kopii pełnej jest czas na wytworzenie kopii przyrostowej lub różnicowej, w trakcie kolejnych dni wzrasta czas na kopiowanie metodą różnicową, aczkolwiek czas na odnowę się względnie skraca.
W takim razie to, jaki typ kopii wybierzecie (przyrostowy lub różnicowy) po wykorzystaniu kopii pełnej, to zależy tylko od środowiska, które panuje w waszej firmie. Aczkolwiek w tym przypadku jest lepsze wytworzenie analizy i projektu realizacji zostawić specjalistom, aby się w samą porę ustrzec błędów w źle zaprojektowanej polityce kopiowania zapasowego, która może mieć wpływ w waszej firmie na złe rozłożenie kosztów w sferze storage.
Po krótkim przybliżeniu dostępnych typów kopii, możemy zacząć ze zwięzłym opisem najczęściej używanych metod rotacji taśm z wykorzystaniem wyżej wymienionych typów kopiowania zapasowego.
Rotacja taśm
Round Robin – algorytm karuzelowy (schemat z jedną taśmą na każdy dzień)
Najprostszy schemat rotacji taśm uzyskamy, kiedy zarezerwujemy na każdy dzień tygodnia pracy jedną taśmę. Taśmy są oznaczone (poniedziałek, wtorek, środa, czwartek, piątek). Każdego dnia na daną taśmę jest dokonywana pełna kopia wszystkich danych zastrzeżonych do kopiowania. Ta oto rotacja umożliwia odnowę danych z maksymalnym skokiem wstecz – jeden tydzień. Schemat jest stosowny do użycia w mniejszych firmach z wykorzystaniem wewnętrznej lub zewnętrznej mechaniki taśmowej albo z wykorzystaniem urządzenia NAS z wytworzoną VDL (virtual disk library – wirtualna biblioteka dysków), która może służyć jako podstawowe miejsce składowania danych. To rozwiązanie jest stosowane również tam, gdzie jest możliwe dokonanie pełnej kopii każdego dnia i czasowy skok o jeden tydzień wstecz jest wystarczający.
Grandfather-Father-Son (GFS) / Dziadek-Ojciec-Syn (GFS)
Do najbardziej powszechnego i wykorzystywanego schematu kopiowania zapasowego należy metoda "Grandfather-Father-Son" /“Dziadek-Ojciec-Syn“/. Ten oto schemat wykorzystuje dzienne (Son – syn), tygodniowe (Father-ojciec) i miesięczne (Grandfather-dziadek) zestawy nośników. Cztery zestawy nośników są oznaczone do każdodziennej kopii w tygodniu pracy (np. poniedziałek aż czwartek). Na te zestawy nośników (oznaczone w schemacie GFS jako Son) dochodzi później do kopiowania przyrostowego. Te oto nośniki (Son) są ponownie przepisywane w następnym tygodniu. Kolejną grupą, w skład której wchodzi pięć zestawów nośników a która jest częścia schematu kopiowania GFS są zestawy nośników oznaczone jako: Week 1, Week 2 itd. Patrz na obrazek:
Na te oto zestawy nośników dochodzi każdego tygodnia do pełnej kopii, nośniki z zestawu Son nie są uzyte i dla grupy „Father“ jest nastawiony okres ważności na jeden miesiąc. Po tym czasie dochodzi do ich ponownego przepisania. Końcowy zestaw nośników „Grandfather“ składa się z trzech zestawów nośników (zestaw nośników może się składać jak z jednej taśmy, tak i z kilku taśm) i jest oznaczony jako: Month 1, Month 2, Month 3 itd. Na te zestawy nośników dochodzi później do ponownego kopiowania raz na trzy lub więcej miesięcy (to zależy od ilości zestawów, które zostały wybrane do grupy „Grandfather“). W przypadku tych zestawów okres ważności (tzn. możliwość kolejnego przepisania) jest nastawiony według ilości zestawów, które wchodzą w skład grupy „Grandfather“. Każdy „zestaw nośników“ z grupy taśm (Son, Father, Grandfather) jest bądź jedną taśmą albo grupą taśm. To jest zależne od wielkości kopiowanych danych. Całkowita ilość użytych zestawów nośników w schemacie GFS wynosi dwanaście. Z powodu zużycia taśm i z powodu utrzymania dłuższej historii (archiwizacji) kopii zapasowych, zaleca się w danym przedziale czasowym wymienić stare zestawy nośników za nowe.
Tower of Hanoi (Wieże Hanoi)
Schemat Wieże Hanoi wywodzi się z gry logicznej, która pochodzi z Chin. Gra polega na przesunięciu pięciu krążków z jednego słupka na kolejny a to jak najmniejszą ilością posunięć. Przy czym gracz nigdy nie może mieć w ręku więcej niż jeden krążek i nigdy nie może położyć większy krążek na mniejszy. Jest dowiedzione, że nejmniejsza liczba posunięć to 31.
Metoda Wieży Hanoi wykorzystuje w celu kopiowania pięć zestawów nośników:
- Zestaw nośników A jest użyty każdy inny dzień
- Zestaw nośników B jest użyty każdy czwarty dzień
- Zestaw nośników C jest użyty każdy ósmy dzień
- Zestawy nośników D i E są użyte na zmianę każdy szestnasty dzień
Plan schematu Wieże Hanoi jest następujący:
Kopiowanie zaczyna się na zestawie nośników „A“ i następnie się powtarza każdy inny dzień. Kolejna kopia jest zapisywana na zestaw nośników „B“ (aczkolwiek nie w ten sam dzień, kiedy doszło do kopiowania na zestaw „A“] i następnie się powtarza każdą czwartą kopię. Zestaw nośników „C“ zaczyna pracować, ale nie w dzień kopiowania na zestawy „A“ i „B“ i powtarza się każdą ósmą kopię. Dla zestawów „D“ i „E“ jest przygotowana następująca polityka. Pierwsza kopia nie zaczyna się w dzień kopiowania zestawów „A“, „B“ albo „C“ i powtarza się każdą szestnastą kopię.
Zaletą tego schematu jest przede wszystkim możliwość przyłączenia nowego zestawu nośników i dzięki temu otrzymujemy większą historię kopiowania (analogicznie do GFS). Częściej używane zestawy zawierają nowsze kopie plików, podczas gdy mniej używane zestawy zawierają starsze wersje plików.
Ten oto schemat jest stosunkowo uciążliwy dla ręcznej obsługi – administracji. Dlatego do tego typu schematu poleca się użycie oprogramowania służącego do kopiowania z możliwością harmonogramu /scheduling/ całego procesu (np. NetVault 7.1) i głównie z wykorzystaniem autoloadera taśmowego (np. Tandberg, autoloader SLR140) albo bardziej stosowne rozwiązanie z większą ilością slotów, jakim są biblioteki taśmowe (np. ADIC Scalar 24, ADIC Scalar 100) do wystarczającej ilości zestawów nośników, które zawierają taśmy do kopiowania, archiwizacji i rozwiązań disaster recovery (działań odtworzeniowych). Wieże Hanoi podobnie jak schemat Grandfather-Father-Son umożliwiają periodyczne wyłączenie zestawów nośników w celu archiwizacji.
Podsumowując
Obecne trendy w kopiowaniu zapasowym dodatkowo wnoszą do schematów kopiowania wykorzystanie podstawowych i wtórnych przechowywalni danych w celu wyższego bezpieczeństwa. Jako podstawowa przechowywalnia danych w wiekszości firm służy urządzenie NAS (Network Attached Storage), gdzie najczęściej kopiowanie przebiega w tygodniu pracy a kopiuje się na dyski a potem kopie są umieszczane na mechanizmy taśmowe czy biblioteki taśmowe.
W trakcie projektowania całego rozwiązania jest dobre wykorzystywać poniższe równania, które służą obliczeniom ilości potrzebnych taśm umożliwiających bezpieczne kopiowanie, archiwizację danych i rozwiązania Disaster recovery. O wykorzystaniu podstawowych przechowalni opartych o urządzenia NAS (np. Iomega NAS p400/p800) i późniejszego przemieszczenia danych do wtórnych przechowalni opartych o technologie taśmowe z wykorzystaniem schematów kopiowania powiemy sobie trochę więcej następnym razem…
Obliczenie ilości taśm w celu kopiowania włącznie z archiwizacją i Disaster Recovery:
Taśmy przeznaczone do kopiowania
Xs = D * T * S * R + N
Xs = ilość taśm potrzebnych do kopiowania na okres jednego roku
D = ilość mechanizmów kopiowania
T = ilość taśm w zestawie nośników
S = ilość zestawów nośników w schemacie kopiowania
R = ilość rotacji schematu kopiowania w ciągu roku
Taśmy przeznaczone do archiwizacji
Xa = T * S * A
Xa = ilość taśm potrzebnych do archiwizacji
T = ilość taśm potrzebnych do kopii zapasowej każdego serwera
S = ilość serwerów
A = ilość zestawów archiwizacyjnych na rok
Taśmy przeznaczone do Disaster Recovery
Xr = T * S * R
Xr = ilość taśm potrzebnych do odtworzenia (recovery)
T = ilość taśm potrzebnych do Disaster Recovery kopii jednego serwera (patrz archiwizacja)
S = ilość serwerów (patrz archiwizacja)
R = ilość wymaganych rotacji disaster recovery na rok
Ogólna potrzeba taśm danych na rok
X = Xs + Xa + Xr + R
X = ogólna ilość taśm potrzebnych na okres jednego roku
Xs = ilość taśm potrzebnych do kopiowania na okres jednego roku
Xa = ilość taśm potrzebnych do archiwizacji
Xr = ilość taśm potrzebnych do recovery
R = zbliżona ilość taśm, które trzeba będzie zastąpić nowymi