Standardní odchylka - Standard deviation

Graf normálního rozdělení (nebo zvonovité křivky), kde každé pásmo má šířku 1 standardní odchylky-Viz také: pravidlo 68–95–99,7 .
Kumulativní pravděpodobnost normálního rozdělení s očekávanou hodnotou 0 a standardní odchylkou 1

Ve statistikách je směrodatná odchylka měřítkem množství variací nebo rozptylu sady hodnot. Nízká standardní odchylka naznačuje, že hodnoty se obvykle blíží průměru (také nazývané očekávaná hodnota ) sady, zatímco vysoká standardní odchylka naznačuje, že hodnoty jsou rozloženy v širším rozsahu.

Standardní odchylka může být zkrácena SD a je nejčastěji reprezentována v matematických textech a rovnicích malým řeckým písmenem sigma σ , pro standardní směrodatnou odchylku populace nebo latinským písmenem s , pro standardní směrodatnou odchylku.

Standardní odchylka náhodné veličiny , vzorku , statistické populace , sady dat nebo rozdělení pravděpodobnosti je druhou odmocninou její rozptylu . Je algebraicky jednodušší, i když v praxi méně robustní než průměrná absolutní odchylka . Užitečnou vlastností standardní odchylky je, že na rozdíl od rozptylu je vyjádřena ve stejné jednotce jako data.

Standardní odchylka základního souboru nebo vzorku a standardní chyba statistiky (např. Průměrné hodnoty vzorku) jsou zcela odlišné, ale související. Standardní chyba průměrné hodnoty vzorku je standardní odchylka sady prostředků, která by byla nalezena nakreslením nekonečného počtu opakovaných vzorků z populace a vypočítáním průměru pro každý vzorek. Ukázalo se, že standardní chyba průměru se rovná standardní odchylce základního souboru vydělené druhou odmocninou velikosti vzorku a je odhadována pomocí standardní odchylky vzorku dělené druhou odmocninou velikosti vzorku. Například standardní chyba hlasování (to, co se uvádí jako chyba chyby hlasování), je očekávaná směrodatná odchylka odhadované střední hodnoty, pokud by bylo stejné hlasování provedeno vícekrát. Standardní chyba tedy odhaduje standardní odchylku odhadu, který sám měří, jak moc odhad závisí na konkrétním vzorku, který byl odebrán z populace.

Ve vědě je běžné hlásit jak standardní odchylku dat (jako souhrnnou statistiku), tak standardní chybu odhadu (jako měřítko potenciální chyby v nálezech). Podle konvence jsou za „statisticky významné“ považovány pouze efekty vzdálené více než dvěma standardním chybám od nulového očekávání , což je ochrana před falešným závěrem, který je skutečně způsoben náhodnou chybou vzorkování.

Pokud je k dispozici pouze vzorek dat z populace, termín standardní odchylka vzorku nebo standardní odchylka vzorku se může vztahovat buď na výše uvedené množství aplikované na tyto údaje, nebo na upravené množství, které je nezaujatým odhadem směrodatná odchylka populace (směrodatná odchylka celé populace).

Základní příklady

Směrodatná odchylka populace u ročníků osmi studentů

Předpokládejme, že celá populace zájmu je osm studentů v konkrétní třídě. Pro konečné množiny čísel, standardní odchylka populace je zjištěno, že se vezme druhá odmocnina z průměru druhých mocnin odchylek hodnot odečtených z jejich průměrné hodnoty. Známky třídy s osmi studenty (tj. Statistickou populací ) jsou následujících osm hodnot:

Těchto osm datových bodů má průměr (průměr) 5:

Za prvé, výpočet odchylky každého datového bodu ze střední a náměstí výsledek každého:

Rozptyl je průměr těchto hodnot:

a standardní odchylka populace se rovná druhé odmocnině rozptylu:

Tento vzorec platí pouze v případě, že osm hodnot, se kterými jsme začali, tvoří kompletní populaci. Pokud místo toho byly hodnoty náhodným vzorkem odebraným z nějaké velké rodičovské populace (například to bylo 8 studentů náhodně a nezávisle vybraných ze třídy 2 milionů), pak jeden vydělí 7 (což je n - 1) místo 8 ( který je n ) ve jmenovateli posledního vzorce, a výsledkem je, v tomto případě je výsledkem původního vzorce by být nazýván vzorek standardní odchylku a označuje se s místo vydělí n  - 1, a nikoli n připisovat nezaujatý odhad rozptylu větší rodičovské populace. Toto je známé jako Besselova korekce . Důvodem je zhruba to, že vzorec pro rozptyl vzorku závisí na výpočtu rozdílů pozorování od výběrového průměru a samotný výběrový průměr byl konstruován tak, aby byl co nejblíže pozorování, takže pouhé dělení n by podcenilo variabilita.

Standardní odchylka průměrné výšky u dospělých mužů

Pokud je sledovaná populace přibližně normálně rozložena, standardní odchylka poskytuje informace o podílu pozorování nad nebo pod určitými hodnotami. Například průměrná výška dospělých mužů ve Spojených státech je přibližně 177,8 cm (70 palců) se standardní odchylkou přibližně 7 palců (3 palce). To znamená, že většina mužů (asi 68%, za předpokladu normální distribuce ) má výšku do 3 palců (7,62 cm) od průměru (67–73 palců (170,18–185,42 cm)) - jednu standardní odchylku - a téměř všichni muži ( asi 95%) mají výšku do 6 palců (15,24 cm) od průměru (64–76 palců (162,56–193,04 cm)) - dvě standardní odchylky. Pokud by standardní odchylka byla nulová, pak by všichni muži byli přesně 70 palců (177,8 cm) vysokí. Pokud by standardní odchylka byla 20 palců (50,8 cm), pak by muži měli mnohem variabilnější výšky s typickým rozsahem asi 50–90 palců (127–228,6 cm). Tři standardní odchylky představují 99,7% studované populace vzorku za předpokladu, že rozdělení je normální nebo ve tvaru zvonu ( více informací viz pravidlo 68-95-99,7 nebo empirické pravidlo ).

Definice populačních hodnot

Nechť μ je očekávaná hodnota (průměr) náhodné veličiny X s hustotou f ( x ):

Standardní odchylka σ z X, je definován jako

které lze ukázat jako rovnocenné

Používání slova, směrodatná odchylka je druhá odmocnina z rozptylu z X .

Standardní odchylka rozdělení pravděpodobnosti je stejná jako u odchylky náhodné veličiny s tímto rozdělením.

Ne všechny náhodné veličiny mají standardní odchylku. Pokud má rozdělení tlusté ocasy směřující do nekonečna, standardní odchylka nemusí existovat, protože integrál nemusí konvergovat. Normální distribuce má ocasy chodit do nekonečna, ale jeho průměr a směrodatná odchylka existují, protože ocasy snížit dostatečně rychle. Distribuce Paretův s parametrem má střední, ale není standardní odchylka (volně řečeno, standardní odchylka je nekonečná). Distribuce Cauchy nemá ani průměr, ani standardní odchylku.

Diskrétní náhodná proměnná

V případě, že X bere náhodné hodnoty z konečné datové sady x 1 , x 2 ,…, x N , přičemž každá hodnota má stejnou pravděpodobnost, standardní odchylka je

nebo pomocí součtového zápisu

V případě, místo toho, aby stejné pravděpodobnosti, hodnoty mají různé pravděpodobnosti, ať x 1 mají pravděpodobnost p 1 , x 2 mají pravděpodobnost p 2 , ..., x N mají pravděpodobnost p N . V tomto případě bude standardní odchylka

Spojitá náhodná proměnná

Standardní odchylka spojité náhodné veličiny X s reálnou hodnotou s funkcí hustoty pravděpodobnosti p ( x ) je

a kde integrály jsou určité integrály přijatá pro x v rozmezí nad souborem možných hodnot náhodné proměnné  X. .

V případě parametrické rodiny distribucí lze směrodatnou odchylku vyjádřit pomocí parametrů. Například v případě log-normálního rozdělení s parametry μ a σ 2 je standardní odchylka

Odhad

Standardní odchylku celé populace lze nalézt v případech (jako je standardizované testování ), kde je odebrán vzorek každého člena populace. V případech, kdy to nelze provést, se standardní odchylka σ odhadne prozkoumáním náhodného vzorku odebraného z populace a výpočtem statistiky vzorku, která se použije jako odhad standardní odchylky základního souboru. Taková statistika se nazývá odhadce a odhad (nebo hodnota odhadu, konkrétně odhad) se nazývá standardní směrodatná odchylka a je označena s (případně s modifikátory).

Na rozdíl od odhadu populačního průměru, pro který je průměr vzorku jednoduchým odhadem s mnoha žádoucími vlastnostmi ( nezaujatý , účinný , maximální pravděpodobnost), neexistuje jediný odhad standardní odchylky se všemi těmito vlastnostmi a nezaujatý odhad standardní odchylka je velmi technicky zapojený problém. Standardní odchylka se nejčastěji odhaduje pomocí opravené standardní odchylky vzorku (pomocí N  - 1), definované níže, a toto se často označuje jako „standardní odchylka vzorku“ bez kvalifikátorů. Jiné odhady jsou však v jiných ohledech lepší: nekorigovaný odhad (pomocí N ) přináší nižší střední kvadratickou chybu, zatímco při použití N  - 1,5 (pro normální rozdělení) téměř úplně eliminuje zkreslení.

Neopravená standardní odchylka vzorku

Vzorec pro standardní odchylku populace (konečné populace) lze použít na vzorek s použitím velikosti vzorku jako velikosti populace (ačkoli skutečná velikost populace, ze které je vzorek odebrán, může být mnohem větší). Tento odhad, označený s N , je znám jako nekorigovaná standardní odchylka vzorku nebo někdy standardní odchylka vzorku (považována za celou populaci) a je definována následovně:

kde jsou pozorované hodnoty položek vzorku a je střední hodnota těchto pozorování, zatímco jmenovatel  N značí velikost vzorku: toto je druhá odmocnina rozptylu vzorku, což je průměr čtvercových odchylek kolem průměr vzorku.

Jedná se o konzistentní odhad (konverguje v pravděpodobnosti k hodnotě populace, protože počet vzorků jde do nekonečna) a je odhadem maximální pravděpodobnosti, když je populace normálně distribuována. Jedná se však o zkreslený odhad , protože odhady jsou obecně příliš nízké. Předpětí klesá s rostoucí velikostí vzorku, klesá jako 1/ N , a je tedy nejvýznamnější pro malé nebo střední velikosti vzorků; pro zkreslení je nižší než 1%. Pro velmi velké velikosti vzorků je tedy nekorigovaná standardní odchylka vzorku obecně přijatelná. Tento odhad má také jednotně menší průměrnou druhou mocninu chyby než korigovaná standardní odchylka vzorku.

Opravená standardní odchylka vzorku

Pokud se k výpočtu odhadu směrodatné odchylky populace použije předpojatý rozptyl vzorku (druhý centrální moment vzorku, což je odhad rozptylu obyvatelstva směřující dolů), výsledkem je

Odmocnění zde přináší další zkreslení směrem dolů, a to Jensenovou nerovností , protože odmocnina je konkávní funkce . Předpětí v rozptylu lze snadno opravit, ale zkreslení z odmocniny je obtížnější opravit a závisí na příslušném rozdělení.

Nestranný odhad pro rozptyl je dán aplikací Besselovy korekce , použitím N  - 1 místo N k získání nezkresleného rozptylu vzorku, označeného s 2 :

Tento odhad je nezaujatý, pokud existuje odchylka a hodnoty vzorku jsou kresleny nezávisle s náhradou. N  - 1 odpovídá počtu stupňů volnosti ve vektoru odchylek od průměru,

Užívání odmocniny znovu zavádí předpojatost (protože druhá odmocnina je nelineární funkcí, která není dojíždět s očekáváním), čímž se získá korigovaná vzorek standardní odchylka, označený S:

Jak bylo vysvětleno výše, zatímco s 2 je nezaujatý odhad pro populační rozptyl, s je stále předpojatý odhad pro standardní odchylku populace, i když výrazně méně předpojatý než nekorigovaná standardní odchylka vzorku. Tento odhad je běžně používaný a obecně známý jednoduše jako „standardní odchylka vzorku“. Předpětí může být u malých vzorků stále velké ( N méně než 10). Jak se velikost vzorku zvyšuje, množství předpětí klesá. Získáme více informací a rozdíl mezi a zmenšuje.

Nestranná standardní odchylka vzorku

Pro nezaujatý odhad standardní odchylky neexistuje žádný vzorec, který by fungoval napříč všemi distribucemi, na rozdíl od průměru a rozptylu. Místo toho, s se používá jako základ, a je upravena korekční faktor pro vytvoření nezkreslený odhad. Pro normální rozdělení je nezaujatý odhad dán s / c 4 , kde je korekční faktor (který závisí na N ) dán gama funkcí a je roven:

K tomu dochází, protože distribuce vzorkování standardní odchylky vzorku následuje po (škálovaném) rozdělení chi a korekční faktor je průměrem rozdělení chi.

Aproximaci lze poskytnout nahrazením N  - 1 N  - 1,5, čímž se získá:

Chyba v této aproximaci se rozpadá kvadraticky (jako 1/ N 2 ) a je vhodná pro všechny kromě nejmenších vzorků nebo nejvyšší přesnosti: pro N = 3 je zkreslení rovné 1,3%a pro N = 9 je zkreslení již méně než 0,1%.

Přesnější aproximaci je nahradit výše za .

U ostatních distribucí správný vzorec závisí na rozdělení, ale zásadou je použít další upřesnění aproximace:

kde γ 2 označuje přebytečnou špičatost populace . Přebytek kurtózy může být buď předem znám pro určitá rozdělení, nebo odhadnut z dat.

Interval spolehlivosti vzorkované standardní odchylky

Standardní odchylka, kterou získáme vzorkováním distribuce, není sama o sobě absolutně přesná, a to jak z matematických důvodů (zde vysvětleno intervalem spolehlivosti), tak z praktických důvodů měření (chyba měření). Matematický efekt lze popsat pomocí intervalu spolehlivosti nebo CI.

Abychom ukázali, jak větší vzorek zúží interval spolehlivosti, zvažte následující příklady: Malá populace N = 2 má pouze 1 stupeň volnosti pro odhad směrodatné odchylky. Výsledkem je, že 95% CI SD běží od 0,45 × SD do 31,9 × SD; zde jsou následující faktory :

kde je p -tý kvantil rozdělení chí -kvadrát s k stupni volnosti a je úroveň spolehlivosti. To je ekvivalentní následujícímu:

S k = 1, a . Převrácené hodnoty odmocnin těchto dvou čísel nám dávají faktory 0,45 a 31,9 uvedené výše.

Větší populace N = 10 má 9 stupňů volnosti pro odhad směrodatné odchylky. Stejné výpočty jako výše nám v tomto případě dávají 95% CI běžící od 0,69 × SD do 1,83 × SD. Takže i při vzorkové populaci 10 může být skutečná SD téměř o faktor 2 vyšší než vzorkovaná SD. Pro populaci vzorku N = 100 je to až 0,88 × SD až 1,16 × SD. Abychom si byli jistější, že vzorkovaný SD se blíží skutečnému SD, musíme odebrat vzorky velkého počtu bodů.

Stejné vzorce lze použít k získání intervalů spolehlivosti na rozptylu reziduí z nejmenších čtverců odpovídajících standardní normální teorii, kde k je nyní počet stupňů volnosti pro chybu.

Hranice standardní odchylky

Pro sadu N > 4 dat pokrývajících rozsah hodnot R je horní hranice standardní odchylky s dána s = 0,6R . Odhad směrodatné odchylky pro data N > 100 považovaný za přibližně normální vyplývá z heuristiky, že 95% plochy pod normální křivkou leží zhruba dvě směrodatné odchylky na obě strany průměru, takže s 95% pravděpodobností celkový rozsah hodnot R představuje čtyři standardní odchylky, takže s ≈ R/4 . Toto takzvané pravidlo rozsahu je užitečné při odhadu velikosti vzorku , protože rozsah možných hodnot je snadnější odhadnout než standardní odchylka. Ostatní dělitelé K (N) rozsahu takového, že s ≈ R/K (N) jsou k dispozici pro jiné hodnoty N a pro normální rozdělení.

Identity a matematické vlastnosti

Směrodatná odchylka je při změnách umístění neměnná a mění se přímo podle měřítka náhodné proměnné. Pro konstantu c a náhodné proměnné X a Y tedy platí :

Standardní odchylka součtu dvou náhodných proměnných může souviset s jejich jednotlivými standardními odchylkami a kovariancí mezi nimi:

kde a znamenat odchylku a kovarianci .

Výpočet součtu čtvercových odchylek může souviset s momenty vypočítanými přímo z dat. V následujícím vzorci je písmeno E interpretováno jako střední očekávaná hodnota, tj. Průměr.

Standardní směrodatnou odchylku vzorku lze vypočítat jako:

Pro konečnou populaci se stejnou pravděpodobností ve všech bodech máme

což znamená, že směrodatná odchylka se rovná druhé odmocnině rozdílu mezi průměrem čtverců hodnot a druhou mocninou průměrné hodnoty.

Viz výpočetní vzorec pro odchylku pro důkaz a pro analogický výsledek pro standardní odchylku vzorku.

Interpretace a aplikace

Příklad vzorků ze dvou populací se stejným průměrem, ale různými standardními odchylkami. Červená populace má průměr 100 a SD 10; modrá populace má průměr 100 a SD 50.

Velká standardní odchylka naznačuje, že se datové body mohou šířit daleko od průměru, a malá standardní odchylka naznačuje, že jsou seskupeny blízko průměru.

Například každá ze tří populací {0, 0, 14, 14}, {0, 6, 8, 14} a {6, 6, 8, 8} má průměr 7. Jejich standardní odchylky jsou 7, 5 , respektive 1. Třetí populace má mnohem menší standardní odchylku než ostatní dvě, protože všechny její hodnoty se blíží 7. Tyto standardní odchylky mají stejné jednotky jako samotné datové body. Pokud například soubor dat {0, 6, 8, 14} představuje věk populace čtyř sourozenců v letech, je standardní odchylka 5 let. Jako další příklad může populace {1000, 1006, 1008, 1014} představovat vzdálenosti ujeté čtyřmi sportovci, měřeno v metrech. Má průměr 1007 metrů a standardní odchylku 5 metrů.

Standardní odchylka může sloužit jako měřítko nejistoty. Například ve fyzikální vědě udávaná standardní odchylka skupiny opakovaných měření dává přesnost těchto měření. Při rozhodování, zda měření souhlasí s teoretickou predikcí, má zásadní význam standardní odchylka těchto měření: pokud je průměr měření příliš daleko od predikce (se vzdáleností měřenou ve standardních odchylkách), pak je teorie, která je testována, pravděpodobně je třeba zrevidovat. To dává smysl, protože spadají mimo rozsah hodnot, u nichž lze důvodně očekávat, že nastanou, pokud byla predikce správná a směrodatná odchylka vhodně kvantifikována. Viz interval predikce .

Zatímco standardní odchylka měří, jak daleko jsou typické hodnoty od průměru, jsou k dispozici jiná opatření. Příkladem je střední absolutní odchylka , kterou lze považovat za přímější měřítko průměrné vzdálenosti ve srovnání se střední střední kvadratickou vzdáleností vlastní standardní odchylce.

Příklady použití

Praktická hodnota porozumění směrodatné odchylce souboru hodnot spočívá v tom, že zjistíte, jak velká je odchylka od průměru (průměr).

Experimentální, průmyslové a hypotetické testování

Ke srovnání dat z reálného světa s modelem k testování modelu se často používá standardní odchylka. Například v průmyslových aplikacích může být hmotnost produktů pocházejících z výrobní linky v souladu se zákonem požadovanou hodnotou. Vážením určité části produktů lze zjistit průměrnou hmotnost, která se bude vždy mírně lišit od dlouhodobého průměru. Použitím standardních odchylek lze vypočítat minimální a maximální hodnotu, že průměrná hmotnost bude v nějakém velmi vysokém procentu času (99,9% nebo více). Pokud spadá mimo rozsah, může být nutné opravit výrobní proces. Statistické testy, jako jsou tyto, jsou zvláště důležité, když je testování relativně drahé. Například pokud je třeba produkt otevřít a vypustit a zvážit, nebo pokud byl výrobek testem jinak spotřebován.

V experimentální vědě se používá teoretický model reality. Fyzika částic běžně používá pro prohlášení o objevu standard „ 5 sigma “. Úroveň pět sigma znamená jednu šanci na 3,5 milionu, že výsledek způsobí náhodná fluktuace. Tato úroveň jistoty byla nutná k tvrzení, že částice konzistentní s Higgsovým bosonem byla objevena ve dvou nezávislých experimentech v CERN , což také vedlo k vyhlášení prvního pozorování gravitačních vln a potvrzení globálního oteplování .

Počasí

Jako jednoduchý příklad zvažte průměrné denní maximální teploty pro dvě města, jedno ve vnitrozemí a jedno na pobřeží. Je užitečné pochopit, že rozsah denních maximálních teplot ve městech poblíž pobřeží je menší než ve městech ve vnitrozemí. I když tedy tato dvě města mohou mít každá stejnou průměrnou maximální teplotu, standardní odchylka denní maximální teploty u pobřežního města bude menší než u vnitrozemského města, protože v kterýkoli konkrétní den je skutečná maximální teplota pravděpodobnější být dále od průměrné maximální teploty pro vnitrozemské město než pro pobřežní.

Finance

Ve financích se standardní odchylka často používá jako měřítko rizika spojeného s cenovými výkyvy daného aktiva (akcie, dluhopisy, majetek atd.) Nebo rizika portfolia aktiv (aktivně spravované podílové fondy, indexový vzájemný fond) fondy nebo ETF). Riziko je důležitým faktorem při určování toho, jak efektivně spravovat portfolio investic, protože určuje variabilitu výnosů aktiva a/nebo portfolia a dává investorům matematický základ pro investiční rozhodování (známé jako optimalizace průměrných rozptylů ). Základní koncept rizika spočívá v tom, že jak se zvyšuje, měla by se zvyšovat i očekávaná návratnost investice, což je nárůst známý jako riziková prémie. Jinými slovy, investoři by měli očekávat vyšší návratnost investice, pokud tato investice nese vyšší úroveň rizika nebo nejistoty. Při hodnocení investic by investoři měli odhadnout jak očekávaný výnos, tak nejistotu budoucích výnosů. Standardní odchylka poskytuje kvantifikovaný odhad nejistoty budoucích výnosů.

Předpokládejme například, že si investor musel vybrat mezi dvěma akciemi. Akcie A za posledních 20 let měly průměrný výnos 10 procent se standardní odchylkou 20 procentních bodů (pb) a akcie B za stejné období měly průměrné výnosy 12 procent, ale vyšší standardní odchylku 30 procent. Na základě rizika a výnosu se investor může rozhodnout, že Stock A je bezpečnější volba, protože dodatečné dva procentní body výnosu Stock B nestojí za dodatečnou standardní odchylku 10 pb (větší riziko nebo nejistota očekávaného výnosu). Akcie B za stejných okolností pravděpodobně nedosáhnou počáteční investice (ale také překročí počáteční investici) častěji než akcie A a odhaduje se, že vrátí v průměru jen o dvě procenta více. V tomto případě se očekává, že akcie A vydělá asi 10 procent, plus nebo mínus 20 pb (rozsah 30 procent až -10 procent), což jsou zhruba dvě třetiny výnosů budoucího roku. Při zvažování extrémnějších možných výnosů nebo výsledků v budoucnosti by měl investor očekávat výsledky až o 10 procent plus mínus 60 procentních bodů nebo v rozmezí od 70 procent do −50 procent, což zahrnuje výsledky pro tři standardní odchylky od průměrné návratnosti (asi 99,7 procenta pravděpodobných výnosů).

Výpočet průměru (nebo aritmetického průměru) návratnosti cenného papíru za dané období vygeneruje očekávaný výnos aktiva. Rozdíl od průměru za každé období odečtením očekávané návratnosti od skutečné návratnosti. Sečtením rozdílu v každém období a průměrem získáte celkový rozptyl návratnosti aktiva. Čím větší je rozptyl, tím větší riziko zabezpečení nese. Nalezení odmocniny této rozptylu poskytne standardní odchylku daného investičního nástroje.

Směrodatná odchylka populace se používá k nastavení šířky Bollingerových pásem , široce přijímaného nástroje technické analýzy . Například horní Bollingerův pás je uveden jako Nejčastěji používaná hodnota pro n je 2; za předpokladu normálního rozdělení výnosů je asi pětiprocentní šance jít ven.

Finanční časové řady jsou známy jako nestacionární řady, zatímco výše uvedené statistické výpočty, jako je standardní odchylka, platí pouze pro stacionární řady. Chcete-li použít výše uvedené statistické nástroje na nestacionární řady, je třeba nejprve transformovat sérii na stacionární řady, což umožní použití statistických nástrojů, které nyní mají platný základ, ze kterého lze pracovat.

Geometrická interpretace

Abychom získali nějaké geometrické pohledy a vyjasnění, začneme s populací tří hodnot, x 1 , x 2 , x 3 . To definuje bod P = ( x 1 , x 2 , x 3 ) v R 3 . Uvažujme přímku L = {( r , r , r ): rR }. Toto je „hlavní úhlopříčka“ procházející původem. Pokud naše tři Uvedené hodnoty byly všechny stejné, pak standardní odchylka je nulová a P by ležet na L . Takže to není nerozumné předpokládat, že standardní odchylka se vztahuje k vzdálenosti z P do L . Je tomu skutečně tak. Chcete -li se ortogonálně přesunout z L do bodu P , začíná jedna v bodě:

jejichž souřadnice jsou průměrem hodnot, se kterými jsme začínali.

Odvození

je tedy u některých zapnutý .

Čára má být kolmá na vektor od do . Proto:

Malá algebra ukazuje, že vzdálenost mezi P a M (která je stejná jako ortogonální vzdálenost mezi P a přímkou L ) se rovná standardní odchylce vektoru ( x 1 , x 2 , x 3 ), vynásobená druhá odmocnina z počtu rozměrů vektoru (v tomto případě 3).

Chebyshevova nerovnost

Pozorování je zřídka vzdáleno více než několik standardních odchylek od průměru. Chebyshevova nerovnost zajišťuje, že u všech distribucí, pro které je definována standardní odchylka, je množství dat v rámci řady standardních odchylek průměru přinejmenším stejně velké, jako je uvedeno v následující tabulce.

Vzdálenost od průměru Minimální počet obyvatel
50%
2 σ 75%
3 σ 89%
4 σ 94%
5 σ 96%
6 σ 97%

Pravidla pro normálně distribuovaná data

Tmavě modrá je jedna standardní odchylka na obou stranách průměru. U normální distribuce to představuje 68,27 procenta sady; zatímco dvě standardní odchylky od průměru (střední a tmavě modrá) tvoří 95,45 procent; tři standardní odchylky (světlá, střední a tmavě modrá) představují 99,73 procenta; a čtyři standardní odchylky představují 99,994 procenta. Dva body křivky, které jsou jednou standardní odchylkou od průměru, jsou také inflexními body .

Centrální limitní věta se uvádí, že distribuce průměru mnoha nezávislých, stejně rozdělené náhodné proměnné inklinuje k známého tvaru zvonu normální rozdělení se funkce hustoty pravděpodobnosti z

kde μ je očekávaná hodnota náhodných proměnných, σ se rovná standardní odchylce jejich rozdělení dělené n 1/2 a n je počet náhodných proměnných. Standardní odchylka je tedy jednoduše proměnnou měřítka, která upravuje, jak široká křivka bude, ačkoli se také objevuje v normalizační konstantě .

Pokud je rozdělení dat přibližně normální, pak je podíl datových hodnot v rámci z standardních odchylek průměru definován:

kde je chybová funkce . Podíl, který je menší nebo roven číslu, x , je dán funkcí kumulativní distribuce :

.

Pokud je distribuce dat přibližně normální, pak je přibližně 68 procent datových hodnot v rámci jedné standardní odchylky průměru (matematicky, μ  ±  σ , kde μ je aritmetický průměr), přibližně 95 procent je ve dvou standardních odchylkách ( μ  ± 2 σ ) a asi 99,7 procent leží ve třech standardních odchylkách ( μ  ± 3 σ ). Toto je známé jako pravidlo 68-95-99.7 nebo empirické pravidlo .

Pro různé hodnoty z je procento hodnot, u nichž se očekává, že budou ležet v symetrickém intervalu i mimo něj, CI = ( - ), následující:

Procento do ( z )
z (Procento uvnitř)

Confidence
interval
Proporce uvnitř Podíl bez
Procento Procento Zlomek
0,318 639 σ 25% 75% 3/4
0,674 490 σ 50 % 50 % 1 / 2
0,977 925 σ 66,66667% 33,3333% 1/3
0,994 458 σ 68% 32% 1 / 3,125
1 σ 68,268 9492 % 31,731 0508 % 1 / 3,151 4872
1,281 552 σ 80% 20% 1/5
1,644 854 σ 90% 10% 1/10
1,959 964 σ 95% 5% 1/20
2 σ 95,449 9736 % 4,550 0264 % 1 / 21,977 895
2,575 829 σ 99% 1% 1/100
3 σ 99,730 0204 % 0,269 9796 % 1 / 370,398
3,290 527 σ 99,9% 0,1% 1 / 1000
3,890 592 σ 99,99% 0,01% 1 / 10 000
4 σ 99,993 666 % 0,006 334 % 1 / 15 787
4,417 173 σ 99,999% 0,001% 1 / 100 000
4,5 σ 99,999 320 465 3751% 0,000 679 534 6249% 1 / 147 159 .5358
6,8 / 1 000 000
4,891 638 σ 99,9999 % 0,0001 % 1 / 1 000 000
5 σ 99,999 942 6697 % 0,000 057 3303 % 1 / 1 744 278
5,326 724 σ 99,999 99 % 0,000 01 % 1 / 10 000 000
5,730 729 σ 99,999 999 % 0,000 001 % 1 / 100 000 000
6 σ 99,999 999 8027 % 0,000 000 1973 % 1 / 506 797 346
6,109 410 σ 99,999 9999 % 0,000 0001 % 1 / 1 000 000 000
6,466 951 σ 99,999 999 99 % 0,000 000 01 % 1 / 10 000 000 000
6,806 502 σ 99,999 999 999 % 0,000 000 001 % 1 / 100 000 000 000
7 σ 99,999 999 999 7440% 0,000 000 000 256 % 1 / 390 682 215 445

Vztah mezi standardní odchylkou a průměrem

Průměr a standardní odchylka souboru dat jsou popisné statistiky obvykle hlášené společně. V určitém smyslu je standardní odchylka „přirozenou“ mírou statistického rozptylu, pokud je střed dat měřen kolem průměru. Důvodem je, že standardní odchylka od průměru je menší než z jakéhokoli jiného bodu. Přesné tvrzení je následující: předpokládejme, že x 1 , ..., x n jsou reálná čísla a definují funkci:

Pomocí kalkulu nebo doplněním čtverce je možné ukázat, že σ ( r ) má v průměru jedinečné minimum:

Variabilitu lze také měřit variačním koeficientem , což je poměr směrodatné odchylky k průměru. Je to bezrozměrné číslo .

Standardní odchylka průměru

Často chceme nějaké informace o přesnosti průměru, který jsme získali. Toho můžeme dosáhnout stanovením standardní odchylky vzorkovaného průměru. Za předpokladu statistické nezávislosti hodnot ve vzorku se standardní odchylka průměru vztahuje ke standardní odchylce rozdělení podle:

kde N je počet pozorování ve vzorku použitém k odhadu průměru. To lze snadno dokázat pomocí (viz základní vlastnosti rozptylu ):

(Předpokládá se statistická nezávislost.)

proto

Což má za následek:

Aby bylo možné odhadnout směrodatnou odchylku průměru , je nutné předem znát směrodatnou odchylku celé populace . Ve většině aplikací je však tento parametr neznámý. Pokud je například v laboratoři provedena série 10 měření dříve neznámé veličiny, je možné vypočítat výsledný průměr vzorku a standardní odchylku vzorku, ale nelze vypočítat směrodatnou odchylku průměru.

Rychlé výpočetní metody

Následující dva vzorce mohou představovat běžící (opakovaně aktualizovanou) standardní odchylku. Sada dvou mocninových součtů s 1 a s 2 se vypočítá ze sady N hodnot x , označených jako x 1 , ..., x N :

Vzhledem k výsledkům těchto průběžných součtů lze hodnoty N , s 1 , s 2 kdykoli použít k výpočtu aktuální hodnoty běžné směrodatné odchylky:

Kde N, jak je uvedeno výše, je velikost souboru hodnot (nebo jej lze také považovat za s 0 ).

Podobně pro standardní směrodatnou odchylku vzorku

V počítačové implementace, protože tyto dva s j částky stávají velkými, musíme vzít v úvahu kulatý-off chybu , přetečení a aritmetickou podtečení . Níže uvedená metoda vypočítá metodu průběžných součtů se sníženými chybami zaokrouhlení. Jedná se o „jednoprůchodový“ algoritmus pro výpočet rozptylu n vzorků bez nutnosti ukládat předchozí data během výpočtu. Aplikace této metody na časovou řadu bude mít za následek postupné hodnoty směrodatné odchylky odpovídající n datovým bodům, protože n bude s každým novým vzorkem větší, než výpočet posuvného okna s konstantní šířkou.

Pro k = 1, ..., n :

kde A je střední hodnota.

Poznámka: od nebo

Rozptyl vzorku:

Rozptyl populace:

Vážený výpočet

Když jsou hodnoty x i váženy nestejnými váhami w i , součty výkonu s 0 , s 1 , s 2 se vypočítají jako:

A rovnice standardní odchylky zůstávají nezměněny. to 0 je nyní součet hmotností a nikoli počet vzorků N .

Inkrementální metodu se sníženými chybami zaokrouhlení lze také použít s určitou složitostí.

Pro každé k od 1 do n je třeba vypočítat průběžný součet hmotností :

a místa, kde je použita výše 1 / n, musí být nahrazena w i / W n :

Ve finální divizi,

a

nebo

kde n je celkový počet prvků a n ' je počet prvků s nenulovými váhami.

Výše uvedené vzorce se rovnají výše uvedeným jednodušším vzorcům, pokud jsou váhy brány jako jedna.

Dějiny

Termín standardní odchylka byl poprvé použit písemně Karlem Pearsonem v roce 1894, po jeho použití na přednáškách. To bylo náhradou za dřívější alternativní názvy pro stejný nápad: například Gauss použil průměrnou chybu .

Vyšší rozměry

Ve dvou rozměrech lze směrodatnou odchylku znázornit pomocí elipsy se standardní odchylkou, viz vícerozměrné normální rozdělení § Geometrická interpretace .

Elipsa standardní odchylky (zelená) dvojrozměrného normálního rozdělení.

Viz také

Reference

externí odkazy