Odborná sekce
TIERING V DISKOVÉM POLI
23.11.2015, 10:30
Tierované úložiště lze chápat jako systém, který rozpozná míru využívání různých dat a přiřazuje jej k různým typům médií o různých výkonech a ceně. Smyslem takového konání je vytěžit z diskových médií to nejlepší – ze SSD výkon a z klasických disků jejich dobrou cenu za jednotku uložené kapacity.
Diskové pole nepracuje se soubory, ale s bloky dat. Z bloků je vytvořen soubor až na úrovni operačního systému – například známého NTFS. Nicméně aby diskové pole mohlo rozhodnout, kam nejlépe uložit data, tak informace od souborového systému nepotřebuje.
Klíčem, který se využívá k rozpoznání kam data uložit, je takzvaný „Heat Index“.
Diskové pole si monitoruje, jak často servery přistupují k jednotlivým blokům dat. Bloky, které jsou využívány často, tedy „High Activity Set“, jsou realokovány do rychlých médií a naopak málo často využívané bloky, tedy „Quiet Data Set“, jsou realokovány například do NL-SAS disků.
Z hlediska serveru je vše transparentní. Do toho, na jakých médiích si diskové pole drží data, server „nevidí“.
Protože se pracuje nikoliv na souborové, ale na blokové úrovni, může se stát, že z hlediska serveru mohou části i pouze jediného souboru ležet na různých médiích. V praxi se tak běžně děje.
Příkladem mohou být rozsáhlé databázové soubory ERP systému. Je pravděpodobné, že nejčastěji používané části databáze budou souviset s aktuálním finančním rokem. Čím dále se ale půjde do historie, tím bude četnost použití dat klesat. V tomto případě tiering a několik SSD/Flash mohou zásadně zlepšit výkonnostní potenciál diskového pole.
KDY TIERING NEFUNGUJE?
Tiering sám o sobě neumí zázraky a nemůže diskové pole zrychlit. Může pouze nalézt nejefektivnější umístění dat na základě skutečnosti, jak často se s daty pracuje. V tom je ale také jeho achillova pata. Aby tiering mohl něco optimalizovat, musí existovat data, která jsou používaná častěji než ostatní data.
Co se ale stane v situaci, že všechna data jsou využívána stejně často? Příkladem budiž databáze shopu, kde na všechny produkty přistupují uživatelé přibližně stejně často.
Ať již hovoříme o technologii Fast Cache či Automatic Tiering, v obou případech bude algoritmus diskového pole bezradný.
Proto pozor na zjednodušení typu „náš systém bude mít vysoký výkon, protože tam jsou SSD“. Je to marketingová zkratka, která nemusí platit za všech okolností.
ZRANITELNOST TIERINGU - BACKUP
Existují situace, kdy provoz serverů může algoritmus FastCache či Tieringu zmást tak, že na výkonná a drahá média „probublají“ data, která by tam vůbec nemusela být.
Typickou situací je servisní provoz. Jde zejména o „noční“ procesy jako je zálohování, ale i třeba softwarové synchronizace či replikace. Je proto výhodou, pokud v nastavení Bering politik je možno v některých časových pásmech zakázat, aby provoz serverů ovlivňoval fungování tieringu.
PŘÍKLAD Z PRAXE
Následující příklad popisuje situaci z praxe středně velkého podniku. Použito je diskové pole HUS 130 a tři fyzické servery s VMware virtualizací. Uvnitř virtuálního prostředí běží cca více než desítka serverů plnících běžné podnikové úlohy – ekonomické systémy, informační systémy, docházkové systémy, poštovní servery, CIFS sdílení a další. Všechny tyto systémy vyžaduji řadu databází, kterými jsou v tomto konkrétním případě MS SQL, poštovní systém je pak MS Exchange. Tierovaný pool je složen z 1,4 TiB SSD kapacity a 14,4 TiB kapacity na 18 x 900 GB 10krpm discích. Tento podnik vytváří provoz o průměrné výši okolo 7.000 transakcí za sekundu, ve špičkách pak přes 20 000 IOPs.
V tomto konkrétním případě tiering zafungoval naprosto přesvědčivě. I relativně velmi malé množství SSD kapacity ve spojení s inteligentním algoritmem tieringu dokázalo „vychytat“ 82 % veškerého provozu způsobeného servery.
ZÁVĚR
Ve výše uvedeném konkrétním případě pouhá 4 % SSD kapacity dokázala obsloužit 82 % provozu. Automatický tiering tak v plné šíři splnil očekávání.
Je ale třeba mít na mysli, že tento závěr nelze zobecnit na všechny případy. Vysoká účinnost tieringu je v tomto konkrétním případě dána povahou řady aplikací provozovaných nad diskovým polem. Významnou část kapacity si alokují poštovní server a sdílené síťové úložiště – tedy aplikace, pro které je typické, že pracují dominantně s malým objemem aktuálních dat. A právě tato povaha provozu umožňuje tieringu být velmi efektivní.