Předpětí odhadu - Bias of an estimator

Ve statistikách je zkreslení (nebo funkce zkreslení ) odhadce rozdíl mezi očekávanou hodnotou tohoto odhadce a skutečnou hodnotou odhadovaného parametru. Odhadce nebo rozhodovací pravidlo s nulovým zkreslením se nazývá nestranný . Ve statistikách je „zkreslení“ objektivní vlastností odhadce. Předpětí lze také měřit s ohledem na medián , nikoli na průměr (očekávanou hodnotu), přičemž v tomto případě se rozlišuje medián - nestranný od obvyklé vlastnosti průměr - nestrannost. Bias je odlišný koncept od konzistence . Konzistentní odhady konvergují v pravděpodobnosti ke skutečné hodnotě parametru, ale mohou být zkreslené nebo nezaujaté; viz zkreslení versus konzistence pro více.

Pokud je vše ostatní stejné, je upřednostňován nezaujatý odhadce před zkresleným odhadcem, i když v praxi se často používají zkreslené odhady (s obecně malým zkreslením). Když se použije zkreslený odhad, vypočítají se hranice zkreslení. Předpjatý odhad lze použít z různých důvodů: protože objektivní odhad neexistuje bez dalších předpokladů o populaci; protože odhad je obtížné vypočítat (jako při nezaujatém odhadu směrodatné odchylky ); protože odhad je medián-nezaujatý, ale ne střední-nezaujatý (nebo naopak); protože zkreslený odhad poskytuje nižší hodnotu určité ztrátové funkce (zejména střední kvadratická chyba ) ve srovnání s nezaujatými odhady (zejména u odhadců smrštění ); nebo proto, že v některých případech je nestranný stav příliš silná podmínka a jediné nezaujaté odhady nejsou užitečné.

Při nelineárních transformacích se dále nezachovává střední nestrannost, ačkoli střední nestrannost je (viz § Účinek transformací ); například rozptyl vzorku je zkresleným odhadcem pro rozptyl populace. To vše je ilustrováno níže.

Definice

Předpokládejme, že máme statistický model , parametrické o reálné číslo t Vstup , což vede k rozdělení pravděpodobnosti pro pozorovaných dat, a statistikou , která slouží jako odhadce o t Vstup na základě jakýchkoli pozorovaných dat . To znamená, předpokládáme, že naše data sledují nějakou neznámou distribuci (kde θ je pevná, neznámá konstanta, která je součástí této distribuce), a potom zkonstruujeme nějaký odhad, který mapuje pozorovaná data na hodnoty, které, jak doufáme, jsou blízké θ . Předpětí na ve vztahu k je definován jako

kde označuje očekávanou hodnotu nad distribucí (tj. průměrování všech možných pozorování ). Následuje druhá rovnice, protože θ je měřitelné s ohledem na podmíněné rozdělení .

Odhaduje se, že je nezaujatý, pokud je jeho předpětí pro všechny hodnoty parametru θ rovné nule , nebo ekvivalentně, pokud očekávaná hodnota odhadce odpovídá hodnotě parametru.

V simulačním experimentu týkajícím se vlastností odhadce lze předpětí odhadce vyhodnotit pomocí průměrného znaménkového rozdílu .

Příklady

Rozptyl vzorku

Výběrový rozptyl náhodné proměnné ukazuje dva aspekty odhadové zkreslení: za prvé, naivní odhad je předepnut, které mohou být opraveny faktorem měřítka; zadruhé, objektivní odhad není optimální z hlediska střední kvadratické chyby (MSE), kterou lze minimalizovat použitím jiného měřítka, což má za následek zkreslený odhad s nižší hodnotou MSE než s objektivním odhadcem. Konkrétně naivní odhadce sečte čtverce odchylek a vydělí n, což je zkreslené. Dělením místo toho n  - 1 se získá nestranný odhad. Naopak, MSE lze minimalizovat vydělením jiným počtem (v závislosti na distribuci), ale výsledkem je zkreslený odhad. Toto číslo je vždy větší než n  - 1, takže je známé jako odhad smršťování , protože „zmenšuje“ objektivní odhad směrem k nule; pro normální rozdělení je optimální hodnota n  + 1.

Předpokládejme, že X 1 , ..., X n jsou nezávislé a identicky rozložené (iid) náhodné proměnné s očekáváním μ a rozptylem σ 2 . Pokud je střední hodnota vzorku a nekorigovaná odchylka vzorku definována jako

pak S 2 je předpjatý odhadce σ 2 , protože

Pro pokračování si všimneme, že odečtením z obou stran dostaneme

Význam (křížovým násobením) . Potom se předchozí stane:

Toto může být ukázáno zjištěním, následující vzorec, který vyplývá ze vzorce Bienaymé , pro termín v nerovnosti pro očekávání nekorigované vzorku rozptylu výše: .

Jinými slovy, očekávaná hodnota nekorigovaného rozptylu vzorku se nerovná populační rozptylu σ 2 , pokud není vynásobena normalizačním faktorem. Průměr vzorku je na druhé straně objektivním odhadem populačního průměru  μ .

Všimněte si, že obvyklá definice rozptylu vzorku je , a toto je objektivní odhad rozptylu populace.

Algebraicky řečeno, je nestranný, protože:

kde přechod na druhý řádek používá výše odvozený výsledek pro zkreslený odhad. Tudíž , a proto je nezaujatý odhad variance populace, σ 2 . Poměr mezi zkreslenými (nekorigovanými) a nezaujatými odhady rozptylu je znám jako Besselova korekce .

Důvod, proč je nekorigovaná rozptyl vzorku, S 2 , předpjatý, pramení ze skutečnosti, že průměr vzorku je obyčejný odhadce nejmenších čtverců (OLS) pro μ : je číslo, které činí součet co nejmenší. To znamená, že když je do tohoto součtu zapojeno jakékoli jiné číslo, součet se může pouze zvýšit. Volba dává zejména:

a pak

Výše uvedenou diskusi lze chápat v geometrických pojmech: vektor lze rozložit na „střední část“ a „část rozptylu“ promítnutím do směru a do nadměrné roviny ortogonálního komplementu tohoto směru. Jeden dostane za část spolu a za doplňkovou část. Jelikož se jedná o ortogonální rozklad, říká Pythagorova věta a při očekávání dostaneme , jak je uvedeno výše (ale časy ). Pokud je rozdělení rotačně symetrické, jako v případě, kdy jsou vzorkovány z Gaussian, pak v průměru přispívá kóta stejně jako směry kolmé na , takže a . To je ve skutečnosti pravda obecně, jak je vysvětleno výše.

Odhad Poissonovy pravděpodobnosti

Daleko extrémnější případ zkresleného odhadu, který je lepší než jakýkoli nezaujatý odhad, vyplývá z Poissonova rozdělení . Předpokládejme, že X má Poissonovo rozdělení s očekáváním  λ . Předpokládejme, že je žádoucí odhadnout

se vzorkem o velikosti 1. (Například když jsou příchozí hovory na telefonní ústředně modelovány jako Poissonův proces a λ je průměrný počet hovorů za minutu, pak e −2 λ je pravděpodobnost, že do další dvě minuty.)

Protože očekávání nezaujatého odhadce δ ( X ) se rovná odhadovanému, tj

jedinou funkcí dat tvořících nezaujatý odhad je

Chcete-li to vidět, všimněte si, že při rozkladu e - λ z výše uvedeného výrazu pro očekávání je zbývající část také Taylorovou řadou expanze e - λ , čímž se získá e - λ e - λ  = e −2 λ (viz Charakterizace exponenciální funkce ).

Pokud je pozorovaná hodnota X 100, pak je odhad 1, ačkoli skutečná hodnota odhadované veličiny je velmi pravděpodobně blízká 0, což je opačný extrém. A pokud je X pozorováno jako 101, pak je odhad ještě absurdnější: Je to -1, ačkoli odhadovaná veličina musí být kladná.

(Předpjatý) odhad maximální pravděpodobnosti

je mnohem lepší než tento nezaujatý odhad. Nejen, že je jeho hodnota vždy kladná, ale je také přesnější v tom smyslu, že jeho střední kvadratická chyba

je menší; porovnejte MSE objektivního odhadce

MSE jsou funkce skutečné hodnoty  λ . Předpětí odhadu maximální pravděpodobnosti je:

Maximum diskrétního rovnoměrného rozdělení

Předpětí odhadů maximální pravděpodobnosti může být značné. Uvažujme případ, kdy n lístky čísly od 1 až n jsou umístěny v krabici a jeden je vybrán náhodně, dává hodnotu X . Pokud n není známo, pak je maximální odhad pravděpodobnosti n je X , i když očekávání X dané n je pouze ( n  + 1) / 2; můžeme si být jisti pouze tím, že n je alespoň X a je pravděpodobně více. V tomto případě je přirozený nezaujatý odhad 2 X  - 1.

Mediánové nezaujaté odhady

Teorii mediánu nezaujatých odhadů oživil George W. Brown v roce 1947:

Odhad jednorozměrného parametru θ bude považován za medián-nezaujatý, pokud pro pevné θ je medián distribuce odhadu na hodnotě θ; tj. odhad podhodnocuje stejně často, jako nadhodnocuje. Tento požadavek se zdá pro většinu účelů splnit stejně jako požadavek střední hodnoty a má další vlastnost, že je neměnný při transformaci jedna ku jedné.

Další vlastnosti mediánu nezaujatých odhadů zaznamenali Lehmann, Birnbaum, van der Vaart a Pfanzagl. Zejména medián-objektivní odhady existují v případech, kdy průměrná-objektivní a maximálního pravděpodobnosti neexistují odhady. Jsou neměnné v rámci transformací jedna ku jedné .

Existují metody konstrukce mediánu-nezaujatých odhadů pro rozdělení pravděpodobnosti, které mají monotónní funkce pravděpodobnosti , jako jsou například jednoparametrické exponenciální rodiny, aby bylo zajištěno, že jsou optimální (v jistém smyslu analogickém k vlastnosti minimální variance uvažované pro střední-nezaujaté odhady) . Jeden takový postup je analogií Rao – Blackwellovy procedury pro průměrně nezaujaté odhady: Tento postup platí pro menší třídu distribucí pravděpodobnosti než postup Rao – Blackwella pro průměrně nestranný odhad, ale pro větší třídu ztrátových funkcí.

Předpětí ve vztahu k jiným ztrátovým funkcím

Jakýkoli průměr minimální odchylky - nestranný odhad minimalizuje riziko ( očekávanou ztrátu ) s ohledem na funkci ztráty druhé mocniny (mezi průměrně nezaujatými odhady), jak pozoroval Gauss . Medián minimální průměrné absolutní odchylky - nestranný odhad minimalizuje riziko s ohledem na funkci absolutní ztráty (mezi mediánově nezaujatými odhady), jak to pozoroval Laplace . Ve statistikách se používají další funkce ztráty, zejména v robustních statistikách .

Účinek transformací

Jak již bylo uvedeno výše, u univariantních parametrů zůstávají mediánově nezaujaté odhady mediánově nezaujaté pod transformacemi, které zachovávají pořadí (nebo obrácené pořadí).

Všimněte si, že když je transformace aplikována na průměrný objektivní odhad, nemusí být výsledkem průměrný objektivní odhad příslušné statistiky populace. Tím, Jensen nerovnosti , je konvexní funkce bude jako transformace zavedení pozitivní vychýlení, zatímco funkce konkávní představí záporné předpětí, a funkce smíšeného vyklenutí mohou zavést zkreslení v obou směrech, v závislosti na funkci a distribuci specifické. To znamená, že pro nelineární funkci f a průměrně nestranný odhad U parametru p nemusí být složený odhadce f ( U ) střední nestranný odhadce f ( p ). Například, druhá odmocnina z nezkreslené odhadu populace rozptylu je ne střední-nezaujatý odhadce obyvatel standardní odchylky : druhá odmocnina nezaujatého vzorku rozptylu , opravené standardní odchylce vzorku , je předepnut. Předpětí závisí jak na distribuci vzorkování odhadce, tak na transformaci a lze jej do výpočtu docela zapojit - viz diskuse v tomto případě nestranný odhad směrodatné odchylky .

Předpětí, rozptyl a střední kvadratická chyba

Rozdělení vzorků dvou alternativních odhadů pro parametr β 0 . Ačkoli β 1 ^ je nezaujatý, je zjevně horší než předpjatý β 2 ^ .

Hřebenová regrese je jedním z příkladů techniky, kde umožnění malého zkreslení může vést ke značnému snížení rozptylu a celkově spolehlivějším odhadům.

Zatímco zkreslení kvantifikuje průměrný rozdíl, který lze očekávat mezi odhadcem a podkladovým parametrem, lze u odhadu založeného na konečném vzorku navíc očekávat, že se bude od parametru lišit kvůli náhodnosti ve vzorku.

Jedno opatření, které se používá k pokusu odrážet oba typy rozdílu, je střední kvadratická chyba ,

Může být ukázáno, že se rovná druhé mocnině zkreslení plus rozptyl:

Pokud je parametrem vektor, použije se analogický rozklad:

kde

je stopa kovarianční matice odhadce.

Odhad, který minimalizuje zkreslení, nemusí nutně minimalizovat střední kvadratickou chybu.

Příklad: Odhad rozptylu populace

Předpokládejme například odhad formuláře

je hledána varianta populace, jak je uvedeno výše, ale tentokrát k minimalizaci MSE:

Pokud proměnné X 1 ... X n sledují normální rozdělení, pak nS 2 / σ 2 rozdělení chí-kvadrát s n  - 1 stupňů volnosti, což dává:

a tak

S trochou algebry lze potvrdit, že je to c = 1 / ( n  + 1), které minimalizuje tuto kombinovanou ztrátu, spíše než c = 1 / ( n  - 1), které minimalizuje pouze zkreslený člen.

Obecněji řečeno, pouze v omezených třídách problémů bude existovat odhad, který minimalizuje MSE nezávisle na hodnotách parametrů.

Je však velmi běžné, že může existovat kompromis zkreslení-odchylky , takže malé zvýšení zkreslení lze vyměnit za větší zmenšení rozptylu, což má za následek celkově žádanější odhad.

Bayesovský pohled

Většina bayesiánů se nestará o nezaujatost svých odhadů (alespoň ve smyslu formální teorie vzorkování výše). Například Gelman a spoluautoři (1995) píší: „Z Bayesovského pohledu je princip nestrannosti rozumný v limitu velkých vzorků, ale jinak je potenciálně zavádějící.“

Rozdíl mezi bayesovským přístupem a výše uvedeným přístupem teorie vzorkování je v zásadě ten, že v přístupu založeném na teorii vzorkování je parametr brán jako pevný a poté je uvažováno rozdělení pravděpodobnosti statistik na základě předpokládaného rozdělení vzorků dat. Pro Bayesiana jsou to však data, která jsou známá a pevná, a je to neznámý parametr, pro který je proveden pokus o sestavení rozdělení pravděpodobnosti pomocí Bayesovy věty :

Zde druhý člen, pravděpodobnost dat s neznámou hodnotou parametru θ, závisí pouze na získaných datech a modelování procesu generování dat. Bayesiánský výpočet však zahrnuje také první člen, předchozí pravděpodobnost pro θ, který bere v úvahu vše, co analytik může o θ vědět nebo mít podezření, než do něj přijdou data. Tato informace nehraje žádnou roli v přístupu teorie vzorkování; skutečně jakýkoli pokus o jeho zahrnutí by byl považován za „zkreslení“ od toho, na co poukazovaly čistě data. Do té míry, do jaké Bayesiánské výpočty obsahují předchozí informace, je tedy v zásadě nevyhnutelné, že jejich výsledky nebudou z hlediska teorie vzorkování „nestranné“.

Výsledky Bayesianova přístupu se však mohou lišit od přístupu teorie vzorkování, i když se Bayesian pokusí přijmout „neinformativní“ předchozí.

Zvažte například znovu odhad neznámé populační odchylky σ 2 normálního rozdělení s neznámým průměrem, kde je žádoucí optimalizovat c ve funkci očekávané ztráty

Standardní volba neinformativní před tohoto problému je Jeffreys před , , který je ekvivalentní k přijetí rescaling invariantní byt před pro ln (å 2 ) .

Jedním z důsledků přijetí tohoto předchozího je, že S 2 / σ 2 zůstává klíčovou veličinou , tj. Rozdělení pravděpodobnosti S 2 / σ 2 závisí pouze na S 2 / σ 2 , nezávisle na hodnotě S 2 nebo σ 2 :

Nicméně, zatímco

v porovnání

- když je převzato očekávání přes rozdělení pravděpodobnosti σ 2 vzhledem k S 2 , jako je tomu v Bayesovském případě, namísto S 2 vzhledem k σ 2 již nelze vzít σ 4 jako konstantu a vyčíslit ji. Důsledkem toho je, že ve srovnání s výpočtem teorie vzorkování klade Bayesianův výpočet větší váhu na větší hodnoty σ 2 , přičemž se náležitě zohlední (protože výpočet teorie vzorkování nemůže), že podle této funkce druhé mocniny důsledek podhodnocování velkých hodnot σ 2 je nákladnější z hlediska druhé mocniny než nadhodnocování malých hodnot σ 2 .

Vypracovaný Bayesiánský výpočet poskytuje škálované inverzní rozdělení chí-kvadrát s n  - 1 stupni volnosti pro zadní rozdělení pravděpodobnosti σ 2 . Očekávaná ztráta je minimalizována, když cnS 2  = <σ 2 >; k tomu dochází, když c  = 1 / ( n  - 3).

I s neinformativním předchůdcem tedy Bayesiánský výpočet nemusí poskytnout stejný výsledek minimalizující očekávané ztráty jako odpovídající výpočet teorie vzorkování.

Viz také

Poznámky

Reference

  • Brown, George W. „O odhadu malého vzorku.“ The Annals of Mathematical Statistics , sv. 18, č. 4 (prosinec 1947), str. 582–585. JSTOR   2236236 .
  • Lehmann, EL „Obecný koncept nestrannosti“ Annals of Mathematical Statistics , sv. 22, č. 4 (prosinec 1951), s. 587–592. JSTOR   2236928 .
  • Allan Birnbaum , 1961. „Unified Theory of Estimation, I“, The Annals of Mathematical Statistics , sv. 32, č. 1 (Mar., 1961), str. 112–135.
  • Van der Vaart, HR, 1961. „ Some Extensions of the Idea of ​​Bias The Annals of Mathematical Statistics , sv. 32, č. 2 (červen 1961), s. 436–447.
  • Pfanzagl, Johann. 1994. Parametrická statistická teorie . Walter de Gruyter.
  • Stuart, Alan; Ord, Keith; Arnold, Steven [F.] (2010). Klasická inference a lineární model . Kendall's Advanced Theory of Statistics. 2A . Wiley. ISBN   0-4706-8924-2 . .
  • Voinov, Vassily [G.]; Nikulin, Michail [S.] (1993). Nestranné odhady a jejich aplikace . 1: Jednorozměrný případ. Zadavatel: Kluwer Academic Publishers. ISBN   0-7923-2382-3 .
  • Voinov, Vassily [G.]; Nikulin, Mikhail [S.] (1996). Nestranné odhady a jejich aplikace . 2: Vícerozměrný případ. Zadavatel: Kluwer Academic Publishers. ISBN   0-7923-3939-8 .
  • Klebanov, Lev [B.]; Rachev, Svetlozar [T.]; Fabozzi, Frank [J.] (2009). Robustní a nerovné modely ve statistice . New York: Nova Scientific Publishers. ISBN   978-1-60741-768-2 .

externí odkazy