Vysoká dostupnost - High availability

Vysoká dostupnost ( HA ) je charakteristika systému, který si klade za cíl zajistit dohodnutou úroveň provozního výkonu, obvykle provozuschopnosti , po delší než normální dobu.

Modernizace vedla ke zvýšené závislosti na těchto systémech. Například nemocnice a datová centra vyžadují vysokou dostupnost svých systémů pro provádění rutinních každodenních činností. Dostupnost se týká schopnosti uživatelské komunity získat službu nebo zboží, přistupovat do systému, zda odeslat novou práci, aktualizovat nebo změnit stávající práci nebo sbírat výsledky předchozí práce. Pokud uživatel nemá přístup do systému, je - z pohledu uživatele - nedostupný . Obecně se termín prostoje používá k označení období, kdy je systém nedostupný.

Zásady

K dispozici jsou tři principy navrhování systémů v inženýrství spolehlivosti , které mohou pomoci dosáhnout vysoké dostupnosti.

  1. Odstranění jednotlivých bodů selhání . To znamená přidání nebo vybudování redundance do systému, takže selhání součásti neznamená selhání celého systému.
  2. Spolehlivý crossover. V nadbytečných systémech má bod křížení tendenci stát se jediným bodem selhání. Spolehlivé systémy musí zajistit spolehlivý crossover.
  3. Detekce selhání tak, jak nastanou. Pokud jsou dodrženy výše uvedené dva principy, uživatel nemusí nikdy vidět poruchu - ale činnost údržby musí.

Plánované a neplánované prostoje

Je možné rozlišovat mezi plánovanými a neplánovanými odstávkami. Plánované prostoje jsou obvykle výsledkem údržby, která narušuje provoz systému a při aktuálně nainstalovaném návrhu systému se jí obvykle nelze vyhnout. Plánované události prostojů mohou zahrnovat opravy systémového softwaru, které vyžadují restart nebo změny konfigurace systému, které se projeví až po restartu. Obecně je plánovaný výpadek obvykle výsledkem nějaké logické události iniciované správou. Neplánované prostoje obvykle vyplývají z nějaké fyzické události, jako je selhání hardwaru nebo softwaru nebo anomálie prostředí. Mezi příklady neplánovaných prostojů patří výpadky napájení, neúspěšné součásti CPU nebo RAM (nebo případně jiné neúspěšné hardwarové součásti), vypnutí související s přehřátím, logicky nebo fyzicky přerušená síťová připojení, narušení zabezpečení nebo selhání různých aplikací , middlewaru a operačního systému .

Pokud lze uživatele varovat před plánovanými odstávkami, pak je rozlišení užitečné. Ale pokud je požadavek na skutečně vysokou dostupnost, pak prostoje jsou prostoje, ať už jsou naplánovány nebo ne.

Mnoho výpočetních webů vylučuje plánované prostoje z výpočtů dostupnosti za předpokladu, že mají malý nebo žádný dopad na komunitu počítačových uživatelů. Tímto způsobem mohou tvrdit, že mají fenomenálně vysokou dostupnost, což by mohlo dávat iluzi nepřetržité dostupnosti . Systémy, které vykazují skutečně nepřetržitou dostupnost, jsou poměrně vzácné a za vyšší cenu a většina z nich pečlivě implementovala speciální návrhy, které eliminují jakýkoli jednotlivý bod selhání a umožňují online aktualizace hardwaru, sítě, operačního systému, middlewaru a aplikací, opravy a výměny. U některých systémů na plánovaných odstávkách nezáleží, například na prostojích systému v kancelářské budově poté, co všichni odešli na noc domů.

Výpočet procent

Dostupnost je obvykle vyjádřena jako procento uptime v daném roce. Následující tabulka ukazuje prostoje, které budou povoleny pro určité procento dostupnosti, za předpokladu, že systém bude vyžadovat nepřetržitý provoz. Smlouvy o úrovni služeb často odkazují na měsíční prostoje nebo dostupnost, aby bylo možné vypočítat kredity služeb tak, aby odpovídaly měsíčním fakturačním cyklům. Následující tabulka ukazuje překlad z daného procenta dostupnosti na odpovídající dobu, po kterou by byl systém nedostupný.

Dostupnost % Prostoje za rok Prostoje za čtvrtletí Prostoje za měsíc Prostoje za týden Prostoje za den (24 hodin)
90% („jedna devítka“) 36,53 dne 9,13 dne 73,05 hodin 16,80 hodin 2,40 hodiny
95% („jeden a půl devítky“) 18,26 dne 4,56 dne 36,53 hodin 8,40 hodin 1,20 hodiny
97% 10,96 dne 2,74 dne 21,92 hodiny 5,04 hodiny 43,20 minut
98% 7,31 dne 43,86 hodin 14,61 hodin 3,36 hodiny 28,80 minut
99% („dvě devítky“) 3,65 dne 21,9 hodiny 7,31 hodin 1,68 hodiny 14,40 minut
99,5% („dva a půl devítky“) 1,83 dne 10,98 hodiny 3,65 hodiny 50,40 minut 7,20 minut
99,8% 17,53 hodin 4,38 hodiny 87,66 minut 20,16 minut 2,88 minut
99,9% („tři devítky“) 8,77 hodiny 2,19 hodiny 43,83 minut 10,08 minut 1,44 minuty
99,95% („tři a půl devítky“) 4,38 hodiny 65,7 minut 21,92 minut 5,04 minuty 43,20 sekundy
99,99% („čtyři devítky“) 52,60 minut 13,15 minut 4,38 minut 1,01 minuty 8,64 sekundy
99,995% („čtyři a půl devítky“) 26,30 minut 6,57 minuty 2,19 minut 30,24 sekundy 4,32 sekundy
99,999% („pět devítek“) 5,26 minut 1,31 minuty 26,30 sekundy 6,05 sekundy 864,00 milisekund
99,9999% („šest devítek“) 31,56 sekund 7,89 sekund 2,63 sekundy 604,80 milisekund 86,40 milisekund
99,99999% („sedm devítek“) 3,16 sekundy 0,79 sekundy 262,98 milisekund 60,48 milisekund 8,64 milisekund
99,999999% („osm devítek“) 315,58 milisekund 78,89 milisekund 26,30 milisekund 6,05 milisekund 864,00 mikrosekund
99,9999999% („devět devítek“) 31,56 milisekund 7,89 milisekund 2,63 milisekund 604,80 mikrosekundy 86,40 mikrosekundy

Provozuschopnost a dostupnost lze použít synonymně, pokud jsou diskutované položky konzistentní. To znamená, že systém může být spuštěn, ale jeho služby nejsou k dispozici, jako v případě výpadku sítě . Na to lze také pohlížet jako na systém, na kterém je možné pracovat, ale jeho služby nejsou z funkčního hlediska (na rozdíl od hlediska softwarových služeb/procesů). Zde je důležitá perspektiva - ať už je diskutovanou položkou hardware serveru, OS serveru, funkční služba, softwarová služba/proces ... atd. Udržujte perspektivu v průběhu diskuse konzistentní, poté lze synonymně využívat provozuschopnost a dostupnost.

"Devět"

Procenta určitého řádu jsou někdy označována počtem devítek nebo „třídou devítek“ v číslicích. Například, elektrické energie, která je dodávána bez přerušení ( výpadky , dočasným poklesem napětí nebo přepětí ) 99,999% času bude mít 5 devitkovou spolehlivost, nebo třídu pět. Tento termín je zejména používán ve spojení s mainframy nebo podnikovými počítači, často jako součást dohody o úrovni služeb .

Podobně procenta končící na 5 mají konvenční názvy, tradičně počet devítek, pak „pět“, takže 99,95% je „tři devět pět“, zkráceně 3N5. Tomu se náhodně říká „tři a půl devítky“, ale toto je nesprávné: a 5 je pouze faktor 2, zatímco 9 je faktor 10, takže 5 je 0,3 devítky (podle vzorce níže ): Dostupnost 99,95% je 3,3 devítky, ne 3,5 devítky. Jednodušeji, přechod z 99,9% dostupnosti na 99,95% dostupnost je faktor 2 (0,1% až 0,05% nedostupnost), ale přechod z 99,95% na 99,99% dostupnost je faktor 5 (0,05% až 0,01% nedostupnost), přes dvakrát tolik.

Formulace třídy 9 na základě nedostupnosti systému by byla

(viz Funkce podlahy a stropu ).

Podobná měření je někdy používán k popisu čistoty látek.

Obecně platí, že počet devítek síťový inženýr při modelování a měření dostupnosti často nepoužívá, protože je těžké ho použít ve vzorci. Častěji se uvádí nedostupnost vyjádřená jako pravděpodobnost (například 0,00001) nebo prostoje za rok. Dostupnost specifikovaná jako počet devíti je často vidět v marketingových dokumentech. Použití „devítek“ bylo zpochybněno, protože dostatečně neodráží, že dopad nedostupnosti se mění v závislosti na době jejího výskytu. Pro velké množství 9 s je index „nedostupnosti“ (míra prostojů spíše než doba provozuschopnosti) snáze zpracovatelný. To je například důvod, proč se v chybových sazbách bitů na pevném disku nebo v datovém spojení používá spíše metrika „nedostupnost“ než metrika dostupnosti .

Někdy je k kontrastu s „pěti devítkami“ (99,999%) použit vtipný výraz „devět pět“ (55,5555555%), ačkoli to není skutečný cíl, ale spíše sarkastický odkaz na úplné nesplnění jakéhokoli rozumného cíle.

Měření a interpretace

Měření dostupnosti podléhá určitému stupni interpretace. Systém, který byl v přestupném roce 365 dní, mohl být zastíněn selháním sítě, které trvalo 9 hodin během období špičkového využití; komunita uživatelů uvidí systém jako nedostupný, zatímco správce systému bude požadovat 100% dostupnost . Vzhledem ke skutečné definici dostupnosti však bude systém k dispozici přibližně z 99,9%, neboli tři devítky (8751 hodin dostupného času z 8760 hodin za nepřestupný rok). Také systémy, které mají problémy s výkonem, jsou často považovány za částečně nebo zcela nedostupné uživateli, i když systémy nadále fungují. Podobně může být nedostupnost vybraných funkcí aplikace bez povšimnutí administrátorů, ale pro uživatele může být zničující - skutečná míra dostupnosti je holistická.

Aby bylo možné určit dostupnost, je nutné ji změřit, ideálně pomocí komplexních monitorovacích nástrojů („přístrojů“), které jsou samy o sobě vysoce dostupné. Pokud chybí přístrojové vybavení, systémy podporující zpracování velkých objemů transakcí ve dne i v noci, jako jsou systémy pro zpracování kreditních karet nebo telefonní přepínače, jsou často ze své podstaty lépe monitorovány, přinejmenším samotnými uživateli, než systémy, u nichž dochází k pravidelným výpadkům poptávka.

Alternativní metrikou je střední doba mezi poruchami (MTBF).

Úzce související pojmy

Doba zotavení (nebo odhadovaná doba opravy (ETR), známá také jako cíl doby zotavení (RTO), úzce souvisí s dostupností, tj. S celkovým časem potřebným pro plánovaný výpadek nebo časem potřebným k úplnému zotavení z neplánovaného výpadku. metrika je střední doba obnovy (MTTR). Doba obnovy může být u určitých návrhů systému a selhání neomezená, tj. úplné obnovení není možné. Jedním z takových příkladů je požár nebo povodeň, která zničí datové centrum a jeho systémy, když nedojde k sekundární katastrofě datové centrum pro obnovu .

Dalším souvisejícím konceptem je dostupnost dat , tedy míra, do jaké databáze a další systémy pro ukládání informací věrně zaznamenávají a hlásí systémové transakce. Správa informací se často zaměřuje samostatně na dostupnost dat nebo Cíl bodu obnovy , aby určila přijatelnou (nebo skutečnou) ztrátu dat s různými událostmi selhání. Někteří uživatelé mohou tolerovat přerušení aplikačních služeb, ale nemohou tolerovat ztrátu dat.

Dohoda o úrovni služeb ( „SLA“) formalizuje dostupnost cílů a požadavků organizace.

Vojenské řídicí systémy

Vysoká dostupnost je jedním z hlavních požadavků na řídicí systémy v bezpilotních prostředcích a autonomních námořních plavidlech . Pokud bude řídicí systém nedostupný, ztratí se pozemní bojové vozidlo (GCV) nebo bezpilotní plavidlo ASW Continuous Trail Unmanned Vessel (ACTUV).

Návrh systému

Přidání dalších komponent do celkového návrhu systému může podkopat úsilí o dosažení vysoké dostupnosti, protože složité systémy mají ve své podstatě více potenciálních bodů selhání a je obtížnější je správně implementovat. Zatímco někteří analytici uvádějí teorii, že nejdostupnější systémy dodržují jednoduchou architekturu (jeden vysoce kvalitní víceúčelový fyzický systém s komplexní interní hardwarovou redundancí), tato architektura trpí požadavkem, že celý systém musí být svržen pro opravy a upgrady operačního systému. Pokročilejší návrhy systémů umožňují opravovat a upgradovat systémy, aniž by byla ohrožena dostupnost služeb (viz Vyrovnávání zatížení a převzetí služeb při selhání ).

Vysoká dostupnost vyžaduje méně lidských zásahů k obnovení provozu ve složitých systémech; důvodem je, že nejčastější příčinou výpadků je lidská chyba.

Redundance se používá k vytváření systémů s vysokou úrovní dostupnosti (např. Letové počítače letadel). V tomto případě je vyžadována vysoká úroveň detekovatelnosti selhání a zamezení selhání společné příčiny. Dva druhy redundance jsou pasivní redundance a aktivní redundance.

Pasivní redundance se používá k dosažení vysoké dostupnosti zahrnutím dostatečné přebytečné kapacity do návrhu, aby se přizpůsobil poklesu výkonu. Nejjednodušším příkladem je loď se dvěma samostatnými motory pohánějící dvě samostatné vrtule. Loď pokračuje ke svému cíli navzdory selhání jediného motoru nebo vrtule. Složitějším příkladem je několik nadbytečných zařízení na výrobu energie v rámci velkého systému zahrnujícího přenos elektrické energie . Porucha jednotlivých komponent není považována za poruchu, pokud výsledný pokles výkonu nepřekročí limity specifikací pro celý systém.

Aktivní redundance se používá ve složitých systémech k dosažení vysoké dostupnosti bez poklesu výkonu. Několik položek stejného druhu je začleněno do návrhu, který zahrnuje způsob detekce selhání a automatické překonfigurování systému tak, aby obcházel neúspěšné položky pomocí schématu hlasování. To se používá u komplexních počítačových systémů, které jsou propojeny. Směrování internetu je odvozeno z raných prací Birmana a Josepha v této oblasti. Aktivní redundance může do systému zavést složitější režimy selhání, například nepřetržitou rekonfiguraci systému kvůli chybné logice hlasování.

Návrh systému nulových prostojů znamená, že modelování a simulace indikují, že střední doba mezi poruchami výrazně překračuje dobu mezi plánovanou údržbou , událostmi upgradu nebo životností systému. Nulové prostoje zahrnují masivní redundanci, která je nutná u některých typů letadel a u většiny druhů komunikačních satelitů . Globální polohovací systém je příkladem systému s nulovým prostojem.

Chybnou instrumentaci lze použít v systémech s omezenou redundancí k dosažení vysoké dostupnosti. Činnosti údržby se provádějí během krátkých odstávek až po aktivaci indikátoru poruchy. Selhání je významné pouze tehdy, pokud k němu dojde během kritického období mise .

K vyhodnocení teoretické spolehlivosti velkých systémů se používá modelování a simulace . Výsledek tohoto druhu modelu se používá k vyhodnocení různých možností návrhu. Je vytvořen model celého systému a model je namáhán odstraněním komponent. Simulace redundance zahrnuje kritéria Nx. N představuje celkový počet komponent v systému. x je počet komponent použitých k namáhání systému. N-1 znamená, že model je namáhán hodnocením výkonu se všemi možnými kombinacemi, kde je vadná jedna součást. N-2 znamená, že model je namáhán vyhodnocením výkonu se všemi možnými kombinacemi, kde dochází k poruše dvou komponent současně.

Důvody nedostupnosti

Průzkum mezi odborníky na akademickou dostupnost v roce 2010 vyhodnotil důvody nedostupnosti podnikových IT systémů. Všechny důvody se týkají nedodržování osvědčených postupů v každé z následujících oblastí (v pořadí podle důležitosti):

  1. Monitorování příslušných komponent
  2. Požadavky a zadávání zakázek
  3. Operace
  4. Vyhnutí se selhání sítě
  5. Vyhnutí se interním chybám aplikace
  6. Vyhnutí se selhání externích služeb
  7. Fyzické prostředí
  8. Redundance sítě
  9. Technické řešení zálohování
  10. Procesní řešení zálohování
  11. Fyzická poloha
  12. Redundance infrastruktury
  13. Redundance architektury úložiště

V roce 2003 vyšla kniha o samotných faktorech.

Náklady na nedostupnost

Ve zprávě z roku 1998 od IBM Global Services byly odhadovány náklady na nedostupné systémy, které v roce 1996 stály americké podniky 4,54 miliardy USD, kvůli ztrátě produktivity a výnosů.

Viz také

Poznámky

Reference

externí odkazy