Behrens – Fisherův problém - Behrens–Fisher problem

Nevyřešený problém ve statistice :

Je pro vyřešení problému Behrens-Fisher nezbytná aproximace analogická Fisherově argumentu?

(více nevyřešených problémů ve statistikách)

Ve statistikách je problém Behrens-Fisher , pojmenovaný po Walterovi Behrensovi a Ronaldovi Fisherovi , problémem odhadu intervalu a testování hypotéz týkajících se rozdílu mezi průměrem dvou normálně distribuovaných populací, když se nepředpokládá, že rozptyly těchto dvou populací jsou stejné na základě dvou nezávislých vzorků.

Specifikace

Jedním z problémů při diskusi o problému Behrens-Fisher a navrhovaných řešeních je, že existuje mnoho různých interpretací toho, co se rozumí „problémem Behrens-Fisher“. Tyto rozdíly zahrnují nejen to, co se považuje za relevantní řešení, ale dokonce i základní tvrzení o uvažovaném kontextu.

Kontext

Nechť X ₁ , ..., X _n a Y ₁ , ..., Y _m jsou iid vzorky ze dvou populací, které oba pocházejí ze stejné distribuční rodiny v lokálním měřítku . Předpokládá se, že parametry měřítka jsou neznámé a nemusí se nutně rovnat, a problémem je posoudit, zda lze s parametry umístění rozumně zacházet jako se stejnými. Lehmann uvádí, že „problém Behrens – Fisher“ se používá jak pro tuto obecnou formu modelu, když je rodina distribucí libovolná, tak pro omezení normálního rozdělení . Zatímco Lehmann pojednává o řadě přístupů k obecnějšímu problému, založenému hlavně na neparametrii, zdá se, že většina ostatních zdrojů používá „Behrens-Fisherův problém“ pouze pro případ, kdy se předpokládá normální rozdělení: většina tohoto článku dělá tento předpoklad.

Požadavky řešení

Byly představeny řešení Behrens-Fisherova problému, které využívají buď klasického, nebo bayesovského odvozovacího hlediska a každé řešení by bylo z jiného hlediska teoreticky neplatné. Pokud je úvaha omezena pouze na klasickou statistickou inference, je možné hledat řešení problému inference, která se v praktickém smyslu snadno použijí, přičemž tato jednoduchost bude upřednostňována před jakoukoli nepřesností v příslušných prohlášeních o pravděpodobnosti. Je-li požadována přesnost úrovní významnosti statistických testů, může existovat další požadavek, aby postup v maximální míře využíval statistické informace v datovém souboru. Je dobře známo, že přesný test lze získat náhodným vyřazením dat z větší datové sady, dokud se velikost vzorku nevyrovná, sestavením dat ve dvojicích a převzetím rozdílů a následným použitím běžného t-testu k testování průměrného rozdílu nula: zjevně by to v žádném smyslu nebylo „optimální“.

Úkolem specifikovat odhady intervalů pro tento problém je úkol, kdy frekventovaný přístup neposkytne přesné řešení, i když jsou k dispozici některá aproximace. Standardní Bayesovské přístupy také neposkytují odpověď, kterou lze vyjádřit jako jednoduché jednoduché vzorce, ale moderní výpočetní metody Bayesovské analýzy umožňují nalézt v podstatě přesná řešení. Studii problému lze tedy použít k objasnění rozdílů mezi častým a bayesovským přístupem k odhadu intervalů.

Nástin různých přístupů

Přístup Behrens a Fisher

Ronald Fisher v roce 1935 zavedl fiduciální závěr , aby jej mohl aplikovat na tento problém. On se odkazoval na dřívější stati Walter Ulrich Behrens od roku 1929. Behrens a Fisher navrhuje najít rozdělení pravděpodobnosti na

{\ displaystyle T \ equiv {{\ bar {x}} _ {1} - {\ bar {x}} _ {2} \ over {\ sqrt {s_ {1} ^ {2} / n_ {1} + s_ {2} ^ {2} / n_ {2}}}}}

kde a jsou dva výběrové prostředky a s ₁ a s ₂ jsou jejich standardní odchylky . Viz Behrens – Fisherova distribuce . Fisher aproximoval distribuci tohoto ignorováním náhodné variace relativních velikostí směrodatných odchylek, ${\ displaystyle {\ bar {x}} _ {1}}$ ${\ displaystyle {\ bar {x}} _ {2}}$

{\ displaystyle {s_ {1} / {\ sqrt {n_ {1}}} \ přes {\ sqrt {s_ {1} ^ {2} / n_ {1} + s_ {2} ^ {2} / n_ { 2}}}}.}

Fisherovo řešení vyvolalo polemiku, protože nemělo vlastnost, že by hypotéza rovných prostředků byla s pravděpodobností α odmítnuta, pokud by byly prostředky ve skutečnosti stejné. Od té doby bylo navrženo mnoho dalších metod léčby problému a byl zkoumán účinek na výsledné intervaly spolehlivosti.

Welchovo přibližné t řešení

Široce používanou metodou je metoda BL Welcha , který byl stejně jako Fisher na University College London . Rozptyl středního rozdílu

{\ displaystyle {\ bar {d}} = {\ bar {x}} _ {1} - {\ bar {x}} _ {2}}

výsledky v

{\ displaystyle s _ {\ bar {d}} ^ {2} = {\ frac {s_ {1} ^ {2}} {n_ {1}}} + {\ frac {s_ {2} ^ {2}} {n_ {2}}}.}

Welch (1938) aproximoval distribuci distribucí typu III Pearson (škálovaná distribuce chí-kvadrát ), jejíž první dva momenty souhlasí s distribucí z . To platí pro následující počet stupňů volnosti (df), který obecně není celočíselný: ${\ displaystyle s _ {\ bar {d}} ^ {2}}$ ${\ displaystyle s _ {\ bar {d}} ^ {2}}$

{\ displaystyle \ nu \ cca {(\ gamma _ {1} + \ gamma _ {2}) ^ {2} \ nad \ gamma _ {1} ^ {2} / (n_ {1} -1) + \ gamma _ {2} ^ {2} / (n_ {2} -1)} \ quad {\ text {where}} \ gamma _ {i} = \ sigma _ {i} ^ {2} / n_ {i} .}

Při nulové hypotéze stejných očekávání μ ₁ = μ ₂ lze nyní distribuci Behrens-Fisherovy statistiky T , která také závisí na rozptylovém poměru σ ₁² / σ ₂² , nyní aproximovat Studentovým t rozdělením s těmito ν stupně svobody. Ale toto ν obsahuje populační odchylky σ _i² , a ty nejsou známy. Následující odhad nahradí odchylky populace pouze odchylkami vzorku:

{\ displaystyle {\ hat {\ nu}} \ přibližně {\ frac {(g_ {1} + g_ {2}) ^ {2}} {g_ {1} ^ {2} / (n_ {1} -1 ) + g_ {2} ^ {2} / (n_ {2} -1)}} \ quad {\ text {where}} g_ {i} = s_ {i} ^ {2} / n_ {i}.}

Toto je náhodná proměnná. Distribuce t s náhodným počtem stupňů volnosti neexistuje. Nicméně, Behrens-Fisher T lze srovnávat s odpovídajícím kvantilem Studentova t rozdělení s těmito odhadovanými počty stupňů volnosti , což je obecně ne celé číslo. Tímto způsobem se hranice mezi oblastí přijetí a odmítnutí testovací statistiky T vypočítá na základě empirických odchylek s _i² , a to jejich hladkou funkcí. ${\ displaystyle {\ hat {\ nu}}}$ ${\ displaystyle {\ hat {\ nu}}}$

Tato metoda také neposkytuje přesně nominální sazbu, ale obecně není příliš daleko. Pokud jsou však rozptyly populace stejné, nebo pokud jsou vzorky poměrně malé a lze předpokládat, že rozptyly populace jsou přibližně stejné, je přesnější použít Studentův t-test .

Další přístupy

Byla navržena řada různých přístupů k obecnému problému, z nichž některé tvrdí, že „řeší“ nějakou verzi problému. Mezi ně patří

to Chapman v roce 1950,
to Prokof'yev a Shishkin v roce 1974,
to Dudewicze a Ahmeda v roce 1998.

Při Dudewiczově srovnání vybraných metod bylo zjištěno, že pro praktické použití je doporučen Dudewicz – Ahmedův postup.

Přesné řešení běžných a obecných problémů Behrens-Fisher

Po několik desetiletí se obecně věří, že nebylo nalezeno žádné přesné řešení společného problému Behrens-Fisher. V roce 1966 se však prokázalo, že má přesné řešení. V roce 2018 byla prokázána funkce hustoty pravděpodobnosti zobecněného Behrens-Fisherova rozdělení m průměrů a m odlišných standardních chyb z m vzorků odlišných velikostí z nezávislých normálních distribucí s odlišnými průměry a odchylkami a příspěvek také zkoumal jeho asymptotické aproximace. Následný článek ukázal, že klasický párový t- test je ústředním problémem Behrens-Fisher s korelačním koeficientem nenulové populace a odvozil jeho odpovídající funkci hustoty pravděpodobnosti řešením souvisejícího necentrálního problému Behrens-Fisher s nenulovou populací korelační koeficient. Rovněž vyřešilo obecnější necentrální Behrens-Fisherův problém s nenulovým populačním korelačním koeficientem v příloze.

Varianty

Byla studována menší varianta problému Behrens-Fisher. V tomto případě je problém za předpokladu, že dva populační prostředky jsou ve skutečnosti stejné, vyvozovat závěry o společném průměru: například by bylo možné vyžadovat interval spolehlivosti pro běžný průměr.

Zobecnění

Jedno zobecnění problému zahrnuje vícerozměrné normální rozdělení s neznámými kovariančními maticemi a je známé jako vícerozměrný Behrens-Fisherův problém .

Nonparametric Behrens-Fisher problému nepředpokládá, že rozdělení jsou normální. Testy zahrnují zkoušky Cucconi 1968 a zkoušku Lepage v roce 1971.

Poznámky

^ Lehmann (1975) str.95
^ Lehmann (1975), oddíl 7
^ Fisher, RA (1935). Msgstr "Výchozí argument ve statistickém závěru". Annals of Eugenics . 8 (4): 391–398. doi : 10.1111 / j.1469-1809.1935.tb02120.x . hdl : 2440/15222 .
^ RA Fisherův Fiducial Argument a Bayesova věta od Teddyho Seidenfelda
^ Sezer, A. a kol. Porovnání intervalů spolehlivosti pro Behrens – Fisher Problem Comm. Statistiky. 2015
^ Welch (1938, 1947)
^ ^a ^b Dudewicz, Ma, Mai a Su (2007)
^ Chapman, DG (1950). "Některé dva ukázkové testy" . Annals of Mathematical Statistics . 21 (4): 601–606. doi : 10,1214 / aoms / 1177729755 .
^ Prokof'yev, VN; Shishkin, AD (1974). "Postupná klasifikace normálních množin s neznámými odchylkami". Radio Engng. Elektron. Phys . 19 (2): 141–143.
^ Dudewicz & Ahmed (1998, 1999)
^ Kabe, DG (prosinec 1966). „O přesném rozdělení statistiky Fisher-Behren'-Welch.“ Metrika . 10 (1): 13–15. doi : 10,1007 / BF02613414 . S2CID 120965543 .
^ Xiao, Yongshun (22. března 2018). „K řešení obecného problému Behrens-Fishera“ . Far East Journal of Theoretical Statistics . 54 (1): 21–140. doi : 10.17654 / TS054010021 . Vyvolány 21 May 2020 .
^ ^a ^b Xiao, Yongshun (12. prosince 2018). „K řešení problému necentrálního Behrens-Fishera s koeficientem korelace nenulové populace“ . Far East Journal of Theoretical Statistics . 54 (6): 527–600. doi : 10,17654 / TS054060527 . Vyvolány 21 May 2020 .
^ Young, GA, Smith, RL (2005) Essentials of Statistical Inference , CUP. ISBN 0-521-83971-8 (strana 204)
^ Belloni a Didier (2008)
^ Brunner, E. (2000). „Neparametrický Behrens – Fisherův problém: Asymptotická teorie a malá aproximace vzorku“. Biometrický deník . 42 : 17–25. doi : 10,1002 / (SICI) 1521-4036 (200001) 42: 1 <17 :: AID-BIMJ17> 3.0.CO; 2-U .
^ Konietschke, Frank (2015). "nparcomp: Softwarový balíček R pro neparametrické vícenásobné srovnání a simultánní intervaly spolehlivosti" . Žurnál statistického softwaru . 64 (9). doi : 10,18637 / jss.v064.i09 . Vyvolány 26 September je 2016 .

Reference

Behrens, WU (1929). „Ein Beitrag zur Fehlerberechnung bei wenigen Beobachtungen“ [Příspěvek k odhadu chyb s několika pozorováními]. Landwirtschaftliche Jahrbücher . Berlín: Wiegandt a Hempel. 68 : 807–37.
Bellon, A .; Didier, G. (2008). „K problému Behrens – Fisher: Globálně konvergentní algoritmus a studie konečných vzorků Waldových, LR a LM testů“. Annals of Statistics . 36 (5): 2377–2408. arXiv : 0811.0672 . doi : 10.1214 / 07-AOS528 . S2CID 15968707 .
Chang, CH; Pal, N (2008). „Revize k problému Behrens-Fisher: Porovnání pěti zkušebních metod“. Komunikace v simulaci a výpočtu statistik . 37 (6): 1064–1085. doi : 10.1080 / 03610910802049599 . S2CID 32811488 .
Dudewicz, EJ; Ahmed, SU (1998). „Nové přesné a asymptoticky optimální řešení problému Behrens – Fisher s tabulkami“. American Journal of Mathematical and Management Sciences . 18 (3–4): 359–426. doi : 10.1080 / 01966324.1998.10737471 .
Dudewicz, EJ; Ahmed, SU (1999). "Nové přesné a asymptoticky optimální heteroscedastické statistické postupy a tabulky, II". American Journal of Mathematical and Management Sciences . 19 (1–2): 157–180. doi : 10.1080 / 01966324.1999.10737478 .
Dudewicz, EJ; Smět.; Mai, SE; Su, H. (2007). „Přesné řešení problému Behrens – Fisher: Asymptoticky optimální a konečný efektivní výběr vzorku mezi“. Journal of Statistical Planning and Inference . 137 (5): 1584–1605. doi : 10.1016 / j.jspi.2006.09.007 .
Fisher, RA (1935). Msgstr "Výchozí argument ve statistickém závěru". Annals of Eugenics . 8 (4): 391–398. doi : 10.1111 / j.1469-1809.1935.tb02120.x . hdl : 2440/15222 .
Fisher, RA (1941). „Asymptotický přístup k Behrensově integraci s dalšími tabulkami pro d Test významu“. Annals of Eugenics . 11 : 141–172. doi : 10.1111 / j.1469-1809.1941.tb02281.x .
Fraser, DAS; Rousseau, J. (2008). "Studentizace a odvození přesných hodnot p" . Biometrika . 95 (1): 1–16. doi : 10,1093 / biomet / asm093 .
Lehmann, EL (1975) Nonparametrics: Statistical Methods Based on Ranks , Holden-Day ISBN 0-8162-4996-6 , McGraw-Hill ISBN 0-07-037073-7
Ruben, H. (2002) „Jednoduché konzervativní a robustní řešení problému Behrens – Fishera“ , Sankhyā: The Indian Journal of Statistics , Series A, 64 (1), 139–155.
Pardo, JA; Pardo, MD (2007). „Simulační studie nové rodiny statistik testů pro problém Behrens – Fisher“. Kybernetes . 36 (5–6): 806–816. doi : 10.1108 / 03684920710749866 .
Sawilowsky, Shlomo S (2002). „Fermat, Schubert, Einstein a Behrens – Fisher: Pravděpodobný rozdíl mezi dvěma způsoby, když σ ₁ ≠ σ ₂ “ (PDF) . Journal of Modern Applied Statistical Methods . 1 (2). doi : 10,22237 / jmasm / 1036109940 . Archivovány z původního (PDF) dne 25.04.2012 . Citováno 2012-03-08 .
Welch, BL (1938). "Význam rozdílu mezi dvěma prostředky, když jsou rozdíly v populaci nerovné". Biometrika . 29 (3/4): 350–62. doi : 10,2307 / 2332010 . JSTOR 2332010 .
Welch, BL (1947), „Zevšeobecnění„ Studentova “problému, když se jedná o několik různých populačních odchylek“, Biometrika , 34 (1–2): 28–35, doi : 10,1093 / biomet / 34,1-2,28 , MR 0019277 , PMID 20287819
Voinov, V .; Nikulin, M. (1995). "K problému prostředků vážené normální populace". Questiio . 19 (2): 7–20.
Zheng, SR; Shi, NZ; Ma, WQ (2010). "Statistická inference o rozdílu nebo poměru průměrů z heteroscedastických normálních populací". Journal of Statistical Planning and Inference . 140 (5): 1236–1242. doi : 10.1016 / j.jspi.2009.11.010 .

externí odkazy

Dong, BL (2004) The Behrens – Fisher Problem: An Empirical Likelihood Approach Ekonometrický pracovní dokument EWP0404, University of Victoria

[1] Lehmann (1975) str.95

[2] Lehmann (1975), oddíl 7

[3] Fisher, RA (1935). Msgstr "Výchozí argument ve statistickém závěru". Annals of Eugenics . 8 (4): 391–398. doi : 10.1111 / j.1469-1809.1935.tb02120.x . hdl : 2440/15222 .

[4] RA Fisherův Fiducial Argument a Bayesova věta od Teddyho Seidenfelda

[5] Sezer, A. a kol. Porovnání intervalů spolehlivosti pro Behrens – Fisher Problem Comm. Statistiky. 2015

[6] Welch (1938, 1947)

[DMMS-7] Dudewicz, Ma, Mai a Su (2007)

[8] Chapman, DG (1950). "Některé dva ukázkové testy" . Annals of Mathematical Statistics . 21 (4): 601–606. doi : 10,1214 / aoms / 1177729755 .

[9] Prokof'yev, VN; Shishkin, AD (1974). "Postupná klasifikace normálních množin s neznámými odchylkami". Radio Engng. Elektron. Phys . 19 (2): 141–143.

[10] Dudewicz & Ahmed (1998, 1999)

[11] Kabe, DG (prosinec 1966). „O přesném rozdělení statistiky Fisher-Behren'-Welch.“ Metrika . 10 (1): 13–15. doi : 10,1007 / BF02613414 . S2CID 120965543 .

[12] Xiao, Yongshun (22. března 2018). „K řešení obecného problému Behrens-Fishera“ . Far East Journal of Theoretical Statistics . 54 (1): 21–140. doi : 10.17654 / TS054010021 . Vyvolány 21 May 2020 .

[Xiao2018b-13] Xiao, Yongshun (12. prosince 2018). „K řešení problému necentrálního Behrens-Fishera s koeficientem korelace nenulové populace“ . Far East Journal of Theoretical Statistics . 54 (6): 527–600. doi : 10,17654 / TS054060527 . Vyvolány 21 May 2020 .

[14] Young, GA, Smith, RL (2005) Essentials of Statistical Inference , CUP. ISBN 0-521-83971-8 (strana 204)

[15] Belloni a Didier (2008)

[Brunner2000-16] Brunner, E. (2000). „Neparametrický Behrens – Fisherův problém: Asymptotická teorie a malá aproximace vzorku“. Biometrický deník . 42 : 17–25. doi : 10,1002 / (SICI) 1521-4036 (200001) 42: 1 <17 :: AID-BIMJ17> 3.0.CO; 2-U .

[nparcomp-17] Konietschke, Frank (2015). "nparcomp: Softwarový balíček R pro neparametrické vícenásobné srovnání a simultánní intervaly spolehlivosti" . Žurnál statistického softwaru . 64 (9). doi : 10,18637 / jss.v064.i09 . Vyvolány 26 September je 2016 .

Languages

In other projects