Behrens – Fisherův problém - Behrens–Fisher problem
Je pro vyřešení problému Behrens-Fisher nezbytná aproximace analogická Fisherově argumentu?
Ve statistikách je problém Behrens-Fisher , pojmenovaný po Walterovi Behrensovi a Ronaldovi Fisherovi , problémem odhadu intervalu a testování hypotéz týkajících se rozdílu mezi průměrem dvou normálně distribuovaných populací, když se nepředpokládá, že rozptyly těchto dvou populací jsou stejné na základě dvou nezávislých vzorků.
Specifikace
Jedním z problémů při diskusi o problému Behrens-Fisher a navrhovaných řešeních je, že existuje mnoho různých interpretací toho, co se rozumí „problémem Behrens-Fisher“. Tyto rozdíly zahrnují nejen to, co se považuje za relevantní řešení, ale dokonce i základní tvrzení o uvažovaném kontextu.
Kontext
Nechť X 1 , ..., X n a Y 1 , ..., Y m jsou iid vzorky ze dvou populací, které oba pocházejí ze stejné distribuční rodiny v lokálním měřítku . Předpokládá se, že parametry měřítka jsou neznámé a nemusí se nutně rovnat, a problémem je posoudit, zda lze s parametry umístění rozumně zacházet jako se stejnými. Lehmann uvádí, že „problém Behrens – Fisher“ se používá jak pro tuto obecnou formu modelu, když je rodina distribucí libovolná, tak pro omezení normálního rozdělení . Zatímco Lehmann pojednává o řadě přístupů k obecnějšímu problému, založenému hlavně na neparametrii, zdá se, že většina ostatních zdrojů používá „Behrens-Fisherův problém“ pouze pro případ, kdy se předpokládá normální rozdělení: většina tohoto článku dělá tento předpoklad.
Požadavky řešení
Byly představeny řešení Behrens-Fisherova problému, které využívají buď klasického, nebo bayesovského odvozovacího hlediska a každé řešení by bylo z jiného hlediska teoreticky neplatné. Pokud je úvaha omezena pouze na klasickou statistickou inference, je možné hledat řešení problému inference, která se v praktickém smyslu snadno použijí, přičemž tato jednoduchost bude upřednostňována před jakoukoli nepřesností v příslušných prohlášeních o pravděpodobnosti. Je-li požadována přesnost úrovní významnosti statistických testů, může existovat další požadavek, aby postup v maximální míře využíval statistické informace v datovém souboru. Je dobře známo, že přesný test lze získat náhodným vyřazením dat z větší datové sady, dokud se velikost vzorku nevyrovná, sestavením dat ve dvojicích a převzetím rozdílů a následným použitím běžného t-testu k testování průměrného rozdílu nula: zjevně by to v žádném smyslu nebylo „optimální“.
Úkolem specifikovat odhady intervalů pro tento problém je úkol, kdy frekventovaný přístup neposkytne přesné řešení, i když jsou k dispozici některá aproximace. Standardní Bayesovské přístupy také neposkytují odpověď, kterou lze vyjádřit jako jednoduché jednoduché vzorce, ale moderní výpočetní metody Bayesovské analýzy umožňují nalézt v podstatě přesná řešení. Studii problému lze tedy použít k objasnění rozdílů mezi častým a bayesovským přístupem k odhadu intervalů.
Nástin různých přístupů
Přístup Behrens a Fisher
Ronald Fisher v roce 1935 zavedl fiduciální závěr , aby jej mohl aplikovat na tento problém. On se odkazoval na dřívější stati Walter Ulrich Behrens od roku 1929. Behrens a Fisher navrhuje najít rozdělení pravděpodobnosti na
kde a jsou dva výběrové prostředky a s 1 a s 2 jsou jejich standardní odchylky . Viz Behrens – Fisherova distribuce . Fisher aproximoval distribuci tohoto ignorováním náhodné variace relativních velikostí směrodatných odchylek,
Fisherovo řešení vyvolalo polemiku, protože nemělo vlastnost, že by hypotéza rovných prostředků byla s pravděpodobností α odmítnuta, pokud by byly prostředky ve skutečnosti stejné. Od té doby bylo navrženo mnoho dalších metod léčby problému a byl zkoumán účinek na výsledné intervaly spolehlivosti.
Welchovo přibližné t řešení
Široce používanou metodou je metoda BL Welcha , který byl stejně jako Fisher na University College London . Rozptyl středního rozdílu
výsledky v
Welch (1938) aproximoval distribuci distribucí typu III Pearson (škálovaná distribuce chí-kvadrát ), jejíž první dva momenty souhlasí s distribucí z . To platí pro následující počet stupňů volnosti (df), který obecně není celočíselný:
Při nulové hypotéze stejných očekávání μ 1 = μ 2 lze nyní distribuci Behrens-Fisherovy statistiky T , která také závisí na rozptylovém poměru σ 1 2 / σ 2 2 , nyní aproximovat Studentovým t rozdělením s těmito ν stupně svobody. Ale toto ν obsahuje populační odchylky σ i 2 , a ty nejsou známy. Následující odhad nahradí odchylky populace pouze odchylkami vzorku:
Toto je náhodná proměnná. Distribuce t s náhodným počtem stupňů volnosti neexistuje. Nicméně, Behrens-Fisher T lze srovnávat s odpovídajícím kvantilem Studentova t rozdělení s těmito odhadovanými počty stupňů volnosti , což je obecně ne celé číslo. Tímto způsobem se hranice mezi oblastí přijetí a odmítnutí testovací statistiky T vypočítá na základě empirických odchylek s i 2 , a to jejich hladkou funkcí.
Tato metoda také neposkytuje přesně nominální sazbu, ale obecně není příliš daleko. Pokud jsou však rozptyly populace stejné, nebo pokud jsou vzorky poměrně malé a lze předpokládat, že rozptyly populace jsou přibližně stejné, je přesnější použít Studentův t-test .
Další přístupy
Byla navržena řada různých přístupů k obecnému problému, z nichž některé tvrdí, že „řeší“ nějakou verzi problému. Mezi ně patří
- to Chapman v roce 1950,
- to Prokof'yev a Shishkin v roce 1974,
- to Dudewicze a Ahmeda v roce 1998.
Při Dudewiczově srovnání vybraných metod bylo zjištěno, že pro praktické použití je doporučen Dudewicz – Ahmedův postup.
Přesné řešení běžných a obecných problémů Behrens-Fisher
Po několik desetiletí se obecně věří, že nebylo nalezeno žádné přesné řešení společného problému Behrens-Fisher. V roce 1966 se však prokázalo, že má přesné řešení. V roce 2018 byla prokázána funkce hustoty pravděpodobnosti zobecněného Behrens-Fisherova rozdělení m průměrů a m odlišných standardních chyb z m vzorků odlišných velikostí z nezávislých normálních distribucí s odlišnými průměry a odchylkami a příspěvek také zkoumal jeho asymptotické aproximace. Následný článek ukázal, že klasický párový t- test je ústředním problémem Behrens-Fisher s korelačním koeficientem nenulové populace a odvozil jeho odpovídající funkci hustoty pravděpodobnosti řešením souvisejícího necentrálního problému Behrens-Fisher s nenulovou populací korelační koeficient. Rovněž vyřešilo obecnější necentrální Behrens-Fisherův problém s nenulovým populačním korelačním koeficientem v příloze.
Varianty
Byla studována menší varianta problému Behrens-Fisher. V tomto případě je problém za předpokladu, že dva populační prostředky jsou ve skutečnosti stejné, vyvozovat závěry o společném průměru: například by bylo možné vyžadovat interval spolehlivosti pro běžný průměr.
Zobecnění
Jedno zobecnění problému zahrnuje vícerozměrné normální rozdělení s neznámými kovariančními maticemi a je známé jako vícerozměrný Behrens-Fisherův problém .
Nonparametric Behrens-Fisher problému nepředpokládá, že rozdělení jsou normální. Testy zahrnují zkoušky Cucconi 1968 a zkoušku Lepage v roce 1971.
Poznámky
- ^ Lehmann (1975) str.95
- ^ Lehmann (1975), oddíl 7
- ^ Fisher, RA (1935). Msgstr "Výchozí argument ve statistickém závěru". Annals of Eugenics . 8 (4): 391–398. doi : 10.1111 / j.1469-1809.1935.tb02120.x . hdl : 2440/15222 .
- ^ RA Fisherův Fiducial Argument a Bayesova věta od Teddyho Seidenfelda
- ^ Sezer, A. a kol. Porovnání intervalů spolehlivosti pro Behrens – Fisher Problem Comm. Statistiky. 2015
- ^ Welch (1938, 1947)
- ^ a b Dudewicz, Ma, Mai a Su (2007)
- ^ Chapman, DG (1950). "Některé dva ukázkové testy" . Annals of Mathematical Statistics . 21 (4): 601–606. doi : 10,1214 / aoms / 1177729755 .
- ^ Prokof'yev, VN; Shishkin, AD (1974). "Postupná klasifikace normálních množin s neznámými odchylkami". Radio Engng. Elektron. Phys . 19 (2): 141–143.
- ^ Dudewicz & Ahmed (1998, 1999)
- ^ Kabe, DG (prosinec 1966). „O přesném rozdělení statistiky Fisher-Behren'-Welch.“ Metrika . 10 (1): 13–15. doi : 10,1007 / BF02613414 . S2CID 120965543 .
- ^ Xiao, Yongshun (22. března 2018). „K řešení obecného problému Behrens-Fishera“ . Far East Journal of Theoretical Statistics . 54 (1): 21–140. doi : 10.17654 / TS054010021 . Vyvolány 21 May 2020 .
- ^ a b Xiao, Yongshun (12. prosince 2018). „K řešení problému necentrálního Behrens-Fishera s koeficientem korelace nenulové populace“ . Far East Journal of Theoretical Statistics . 54 (6): 527–600. doi : 10,17654 / TS054060527 . Vyvolány 21 May 2020 .
- ^ Young, GA, Smith, RL (2005) Essentials of Statistical Inference , CUP. ISBN 0-521-83971-8 (strana 204)
- ^ Belloni a Didier (2008)
- ^ Brunner, E. (2000). „Neparametrický Behrens – Fisherův problém: Asymptotická teorie a malá aproximace vzorku“. Biometrický deník . 42 : 17–25. doi : 10,1002 / (SICI) 1521-4036 (200001) 42: 1 <17 :: AID-BIMJ17> 3.0.CO; 2-U .
- ^ Konietschke, Frank (2015). "nparcomp: Softwarový balíček R pro neparametrické vícenásobné srovnání a simultánní intervaly spolehlivosti" . Žurnál statistického softwaru . 64 (9). doi : 10,18637 / jss.v064.i09 . Vyvolány 26 September je 2016 .
Reference
- Behrens, WU (1929). „Ein Beitrag zur Fehlerberechnung bei wenigen Beobachtungen“ [Příspěvek k odhadu chyb s několika pozorováními]. Landwirtschaftliche Jahrbücher . Berlín: Wiegandt a Hempel. 68 : 807–37.
- Bellon, A .; Didier, G. (2008). „K problému Behrens – Fisher: Globálně konvergentní algoritmus a studie konečných vzorků Waldových, LR a LM testů“. Annals of Statistics . 36 (5): 2377–2408. arXiv : 0811.0672 . doi : 10.1214 / 07-AOS528 . S2CID 15968707 .
- Chang, CH; Pal, N (2008). „Revize k problému Behrens-Fisher: Porovnání pěti zkušebních metod“. Komunikace v simulaci a výpočtu statistik . 37 (6): 1064–1085. doi : 10.1080 / 03610910802049599 . S2CID 32811488 .
- Dudewicz, EJ; Ahmed, SU (1998). „Nové přesné a asymptoticky optimální řešení problému Behrens – Fisher s tabulkami“. American Journal of Mathematical and Management Sciences . 18 (3–4): 359–426. doi : 10.1080 / 01966324.1998.10737471 .
- Dudewicz, EJ; Ahmed, SU (1999). "Nové přesné a asymptoticky optimální heteroscedastické statistické postupy a tabulky, II". American Journal of Mathematical and Management Sciences . 19 (1–2): 157–180. doi : 10.1080 / 01966324.1999.10737478 .
- Dudewicz, EJ; Smět.; Mai, SE; Su, H. (2007). „Přesné řešení problému Behrens – Fisher: Asymptoticky optimální a konečný efektivní výběr vzorku mezi“. Journal of Statistical Planning and Inference . 137 (5): 1584–1605. doi : 10.1016 / j.jspi.2006.09.007 .
- Fisher, RA (1935). Msgstr "Výchozí argument ve statistickém závěru". Annals of Eugenics . 8 (4): 391–398. doi : 10.1111 / j.1469-1809.1935.tb02120.x . hdl : 2440/15222 .
- Fisher, RA (1941). „Asymptotický přístup k Behrensově integraci s dalšími tabulkami pro d Test významu“. Annals of Eugenics . 11 : 141–172. doi : 10.1111 / j.1469-1809.1941.tb02281.x .
- Fraser, DAS; Rousseau, J. (2008). "Studentizace a odvození přesných hodnot p" . Biometrika . 95 (1): 1–16. doi : 10,1093 / biomet / asm093 .
- Lehmann, EL (1975) Nonparametrics: Statistical Methods Based on Ranks , Holden-Day ISBN 0-8162-4996-6 , McGraw-Hill ISBN 0-07-037073-7
- Ruben, H. (2002) „Jednoduché konzervativní a robustní řešení problému Behrens – Fishera“ , Sankhyā: The Indian Journal of Statistics , Series A, 64 (1), 139–155.
- Pardo, JA; Pardo, MD (2007). „Simulační studie nové rodiny statistik testů pro problém Behrens – Fisher“. Kybernetes . 36 (5–6): 806–816. doi : 10.1108 / 03684920710749866 .
- Sawilowsky, Shlomo S (2002). „Fermat, Schubert, Einstein a Behrens – Fisher: Pravděpodobný rozdíl mezi dvěma způsoby, když σ 1 ≠ σ 2 “ (PDF) . Journal of Modern Applied Statistical Methods . 1 (2). doi : 10,22237 / jmasm / 1036109940 . Archivovány z původního (PDF) dne 25.04.2012 . Citováno 2012-03-08 .
- Welch, BL (1938). "Význam rozdílu mezi dvěma prostředky, když jsou rozdíly v populaci nerovné". Biometrika . 29 (3/4): 350–62. doi : 10,2307 / 2332010 . JSTOR 2332010 .
- Welch, BL (1947), „Zevšeobecnění„ Studentova “problému, když se jedná o několik různých populačních odchylek“, Biometrika , 34 (1–2): 28–35, doi : 10,1093 / biomet / 34,1-2,28 , MR 0019277 , PMID 20287819
- Voinov, V .; Nikulin, M. (1995). "K problému prostředků vážené normální populace". Questiio . 19 (2): 7–20.
- Zheng, SR; Shi, NZ; Ma, WQ (2010). "Statistická inference o rozdílu nebo poměru průměrů z heteroscedastických normálních populací". Journal of Statistical Planning and Inference . 140 (5): 1236–1242. doi : 10.1016 / j.jspi.2009.11.010 .
externí odkazy
- Dong, BL (2004) The Behrens – Fisher Problem: An Empirical Likelihood Approach Ekonometrický pracovní dokument EWP0404, University of Victoria