Besselova korekce - Bessel's correction

Ve statistikách je Besselova korekce použitím n  - 1 namísto n ve vzorci pro rozptyl vzorku a standardní odchylku vzorku , kde n je počet pozorování ve vzorku . Tato metoda opravuje zkreslení v odhadu rozptylu populace. Částečně také koriguje zkreslení v odhadu standardní odchylky populace. Korekce však v těchto odhadech často zvyšuje průměrnou čtvercovou chybu . Tato technika je pojmenována po Friedrichovi Besselovi .

Při odhadu rozptylu populace ze vzorku, když je průměr populace neznámý, je nekorigovaná odchylka vzorku průměrem čtverců odchylek hodnot vzorku od průměru vzorku (tj. Pomocí multiplikativního faktoru 1/ n ). V tomto případě je rozptyl vzorku zkresleným odhadem rozptylu populace.

Násobení nekorigované odchylky vzorku faktorem

poskytuje nestranný odhad rozptylu populace. V některé literatuře se výše uvedený faktor nazývá Besselova korekce .

Dá se pochopit, Bessel v korekci jako stupňů volnosti v zbytků vektoru (rezidua, ne chyby, protože průměrná populace není znám):

kde je průměr vzorku. I když je ve vzorku n nezávislých pozorování, existuje pouze n  - 1 nezávislých reziduí, jejichž součet je 0. Pro intuitivnější vysvětlení potřeby Besselovy korekce viz § Zdroj předpojatosti .

Obecně je Besselova korekce přístupem ke snížení předpětí v důsledku konečné velikosti vzorku. Je také potřeba, jako konečný vzorek korekce zkreslení pro další odhady, jako zkosení a špičatosti , ale v těchto nepřesnosti jsou často výrazně větší. K úplnému odstranění takové předpojatosti je nutné provést komplexnější odhad více parametrů. Například správná korekce pro standardní odchylku závisí na zakřivení (normalizovaný centrální 4. moment), ale toto má opět předpojatost konečného vzorku a závisí na směrodatné odchylce, tj. Oba odhady musí být sloučeny.

Upozornění

K Besselově korekci je třeba vzít v úvahu tři námitky :

  1. Neposkytuje objektivní odhad standardní odchylky .
  2. Opravený odhad má často vyšší střední kvadratickou chybu (MSE) než nekorigovaný odhad. Kromě toho neexistuje žádné rozdělení populace, pro které má minimální MSE, protože pro minimalizaci MSE lze vždy zvolit jiný faktor měřítka.
  3. Je to nutné pouze tehdy, když průměr populace není znám (a je odhadován jako průměr vzorku). V praxi se to obecně stává.

Za prvé, zatímco rozptyl vzorku (pomocí Besselovy korekce) je nezaujatý odhad rozptylu populace, jeho druhá odmocnina , standardní odchylka vzorku, je zkreslený odhad standardní odchylky souboru; protože odmocnina je konkávní funkce , zkreslení je směrem dolů, podle Jensenovy nerovnosti . Neexistuje žádný obecný vzorec pro nezaujatý odhad standardní směrodatné odchylky populace, i když existují korekční faktory pro konkrétní rozdělení, jako je normální; podrobnosti viz nezaujatý odhad standardní odchylky . Aproximace přesného korekčního faktoru pro normální rozdělení je dána pomocí n  - 1,5 ve vzorci: zkreslení se rozpadá kvadraticky (spíše než lineárně, jako v nekorigované formě a Besselově opravené formě).

Za druhé, nezaujatý odhad minimalizuje průměrnou čtvercovou chybu (MSE) a obecně má horší MSE než nekorigovaný odhad (to se mění s přebytkem zakřivení ). MSE lze minimalizovat použitím jiného faktoru. Optimální hodnota závisí na nadměrné špičatosti, jak je uvedeno v průměrné čtvercové chybě: rozptyl ; pro normální rozdělení je toto optimalizováno dělením n  + 1 (místo n  - 1 nebo n ).

Zatřetí, Bessel je oprava je nutná pouze tehdy, když průměrná populace je neznámá, a jeden je odhad jak populační průměr a populační rozptyl z daného vzorku, za použití vzorku průměr odhadnout průměr populace. V tom případě je ve vzorku n bodů n stupňů volnosti a souběžný odhad průměru a rozptylu znamená, že jeden stupeň volnosti jde do průměru vzorku a zbývajících n  - 1 stupňů volnosti ( zbytky ) jde do vzorku rozptyl. Pokud je však znám průměr populace, pak odchylky pozorování od průměru populace mají n stupňů volnosti (protože průměr není odhadován - odchylky nejsou zbytky, ale chyby ) a Besselova korekce není použitelná.

Zdroj zaujatosti

Nejjednodušeji, abyste porozuměli předpojatosti, kterou je třeba opravit, myslete na extrémní případ. Předpokládejme, že populace je (0,0,0,1,2,9), která má průměr populace 2 a rozptyl populace 10 1/3. Je nakreslen vzorek n = 1 a ukazuje se, že nejlepší odhad střední hodnoty populace je Ale co když použijeme vzorec pro odhad rozptylu? Odhad rozptylu by byl nulový --- a odhad by byl nulový pro jakoukoli populaci a jakýkoli vzorek n = 1. Problém je v tom, že při odhadu výběrového průměru proces již učinil náš odhad průměru blízký hodnota, kterou jsme vybrali-identická, pro n = 1. V případě n = 1 nelze rozptyl odhadnout, protože ve vzorku není žádná variabilita.

Uvažujme však n = 2. Předpokládejme, že vzorek byl (0, 2). Potom a , ale s Besselovou korekcí, což je nezaujatý odhad (pokud jsou odebrány všechny možné vzorky n = 2 a je použita tato metoda, průměrný odhad bude 12,4, stejný jako rozptyl vzorku s Besselovou korekcí.)

Chcete -li to vidět podrobněji, zvažte následující příklad. Předpokládejme, že průměr celé populace je 2050, ale statistik to neví a musí to odhadnout na základě tohoto malého vzorku náhodně vybraného z populace:

Lze vypočítat průměr vzorku:

To může sloužit jako pozorovatelný odhad nepozorovatelného průměru populace, který je 2050. Nyní stojíme před problémem odhadu populačního rozptylu. To je průměr čtverců odchylek od roku 2050. Pokud bychom věděli, že průměr populace je 2050, mohli bychom postupovat následovně:

Náš odhad průměru populace je však průměr vzorku 2052. Skutečný průměr 2050 není znám. Je tedy nutné použít průměr vzorku 2052:

Rozptyl je nyní mnohem menší. Jak je ukázáno níže, rozptyl bude téměř vždy menší při výpočtu pomocí součtu čtvercových vzdáleností k průměru vzorku, ve srovnání s použitím součtu čtvercových vzdáleností k průměru populace. Jedinou výjimkou je, když se průměr vzorku shoduje s průměrem populace, přičemž v tomto případě je rozptyl také stejný.

Abychom zjistili, proč k tomu dochází, používáme v algebře jednoduchou identitu :

S reprezentací odchylky individuálního vzorku od průměru vzorku a reprezentující odchylku průměru vzorku od průměru populace. Všimněte si toho, že jsme skutečnou odchylku jednotlivého vzorku od (neznámého) průměru populace jednoduše rozložili na dvě složky: odchylku jednoho vzorku od průměru vzorku, kterou můžeme vypočítat, a dodatečnou odchylku průměru vzorku od průměr populace, což nemůžeme. Nyní tuto identitu aplikujeme na čtverce odchylek od průměrné populace:

Nyní to aplikujte na všech pět pozorování a dodržujte určité vzorce:

Součet položek ve středním sloupci musí být nula, protože výraz a bude přidán do všech 5 řádků, což se musí rovnat nule. Důvodem je, že a obsahuje 5 jednotlivých vzorků (vlevo v závorkách), které - když jsou přidány - mají přirozeně stejný součet jako přičtení 5násobku průměru vzorku z těchto 5 čísel (2052). To znamená, že odečtení těchto dvou součtů se musí rovnat nule. Faktor 2 a výraz b ve středním sloupci jsou pro všechny řádky stejné, což znamená, že relativní rozdíl mezi všemi řádky ve středním sloupci zůstává stejný, a proto jej nelze ignorovat. Následující prohlášení vysvětlují význam zbývajících sloupců:

  • Součet položek v prvním sloupci ( a 2 ) je součtem druhých mocnin vzdálenosti od vzorku k průměru vzorku;
  • Součet položek v posledním sloupci ( b 2 ) je součtem čtvercových vzdáleností mezi průměrem naměřeného vzorku a správným průměrem populace
  • Každý jednotlivý řádek se nyní skládá z dvojic a 2 (zkreslený, protože je použit průměr vzorku) a b 2 (korekce zkreslení, protože bere v úvahu rozdíl mezi „skutečným“ průměrem populace a nepřesným průměrem vzorku). Proto součet všech položek prvního a posledního sloupce nyní představuje správnou odchylku, což znamená, že nyní se používá součet čtvercových vzdáleností mezi vzorky a průměrem populace
  • Součet za 2 -column a b 2 -column musí být větší než součet v zápisech o o 2 -column, protože všechny položky v rámci b 2 -column jsou pozitivní (kromě případů, kdy průměrná populace je stejný jako průměr vzorku, v takovém případě budou všechna čísla v posledním sloupci 0).

Proto:

  • Součet čtverců vzdálenosti od vzorků k průměru populace bude vždy větší než součet čtverců vzdálenosti k průměru vzorku , s výjimkou případů, kdy je průměr vzorku shodný s průměrem populace, v takovém případě dva jsou si rovni.

Proto je součet čtverců odchylek od průměru vzorku příliš malý na to, aby poskytl nezaujatý odhad rozptylu populace, když je nalezen průměr těchto čtverců. Čím menší je velikost vzorku, tím větší je rozdíl mezi rozptylem vzorku a rozptylem populace.

Terminologie

Tato korekce je tak běžná, že výrazy „rozptyl vzorku“ a „standardní směrodatná odchylka vzorku“ se často používají k označení opravených odhadů (nestranná variabilita vzorku, méně předpojatá standardní odchylka výběru) pomocí n  - 1. Je však třeba opatrnosti: některé kalkulačky a softwarové balíčky mohou poskytovat obojí nebo jen neobvyklejší formulaci. Tento článek používá následující symboly a definice:

  • μ je průměr populace
  • je průměr vzorku
  • σ 2 je populační rozptyl
  • s n 2 je předpojatý rozptyl vzorku (tj. bez Besselovy korekce)
  • s 2 je nezaujatý rozptyl vzorku (tj. s Besselovou korekcí)

Standardní odchylky pak budou odmocniny příslušných odchylek. Protože odmocnina zavádí zkreslení, je pro odhad standardní odchylky upřednostňována terminologie „nekorigovaná“ a „opravená“:

  • s n je neopravená standardní odchylka vzorku (tj. bez Besselovy korekce)
  • s je opravená standardní odchylka vzorku (tj. s Besselovou korekcí), která je méně zkreslená, ale přesto zkreslená

Vzorec

Průměr vzorku je dán vztahem

Odchylka předpojatého vzorku se poté zapíše:

a nestranný rozptyl vzorku je zapsán:

Doklad o správnosti

Alternativa 1

Jako podkladový fakt používáme identitu, která vyplývá z definice směrodatné odchylky a linearity očekávání .

Velmi užitečné pozorování je, že pro jakoukoli distribuci se rozptyl rovná polovině očekávané hodnoty, kdy jsou nezávislým vzorkem z této distribuce. K prokázání tohoto pozorování použijeme to (které vyplývá ze skutečnosti, že jsou nezávislé) a také linearitu očekávání:

Nyní, když je pozorování prokázáno, stačí ukázat, že očekávaný čtvercový rozdíl dvou pozorování ze vzorkové populace se rovná násobku očekávaného čtvercového rozdílu dvou pozorování z původní distribuce. Chcete -li to vidět, všimněte si, že když vybereme a přes u , v jsou celá čísla vybraná nezávisle a jednotně od 1 do n , zlomek času, který budeme mít u  =  v, a proto je vzorkovaný čtvercový rozdíl nula nezávislý na původním rozdělení. Zbývající čas, hodnota je očekávaný čtvercový rozdíl mezi dvěma nezávislými pozorováními z původní distribuce. Rozdělení očekávaného čtvercového rozdílu na vzorek o nebo ekvivalentní vynásobení tedy poskytne nezaujatý odhad původního očekávaného čtvercového rozdílu.

Alternativa 2

Recyklace identity pro odchylky ,

tak

a podle definice

Všimněte si, že jelikož x 1x 2 ,…,  x n jsou náhodný vzorek z distribuce s rozptylem σ 2 , vyplývá, že pro každé i  = 1, 2,…,  n :

a také

Toto je vlastnost rozptylu nekorelovaných proměnných vyplývajících z Bienayméova vzorce . Požadovaný výsledek se pak získá nahrazením těchto dvou vzorců:

Alternativa 3

Očekávaný rozpor mezi zkresleným odhadem a skutečným rozptylem je

Očekávaná hodnota zkresleného odhadu tedy bude

Nezkreslený odhad by tedy měl být dán

Intuice

V předpojatém odhadu pomocí průměru vzorku místo skutečného průměru podceňujete každé x i  -  µ podle x  -  µ . Víme, že rozptyl součtu je součtem rozptylů (pro nekorelované proměnné). Abychom tedy našli rozpor mezi předpojatým odhadem a skutečným rozptylem, stačí najít očekávanou hodnotu ( x  -  µ ) 2 .

To je jen rozptyl průměrné hodnoty vzorku , který je σ 2 / n . Očekáváme tedy, že zkreslený odhad podhodnocuje σ 2 o σ 2 / n , a tak zkreslený odhad = (1 - 1/ n ) × nestranný odhad = ( n  - 1)/ n × nezaujatý odhad.

Viz také

Poznámky

externí odkazy