Behrens – Fisherův problém - Behrens–Fisher problem

Nevyřešený problém ve statistice :

Je pro vyřešení problému Behrens-Fisher nezbytná aproximace analogická Fisherově argumentu?

Ve statistikách je problém Behrens-Fisher , pojmenovaný po Walterovi Behrensovi a Ronaldovi Fisherovi , problémem odhadu intervalu a testování hypotéz týkajících se rozdílu mezi průměrem dvou normálně distribuovaných populací, když se nepředpokládá, že rozptyly těchto dvou populací jsou stejné na základě dvou nezávislých vzorků.

Specifikace

Jedním z problémů při diskusi o problému Behrens-Fisher a navrhovaných řešeních je, že existuje mnoho různých interpretací toho, co se rozumí „problémem Behrens-Fisher“. Tyto rozdíly zahrnují nejen to, co se považuje za relevantní řešení, ale dokonce i základní tvrzení o uvažovaném kontextu.

Kontext

Nechť X 1 , ...,  X n a Y 1 , ...,  Y m jsou iid vzorky ze dvou populací, které oba pocházejí ze stejné distribuční rodiny v lokálním měřítku . Předpokládá se, že parametry měřítka jsou neznámé a nemusí se nutně rovnat, a problémem je posoudit, zda lze s parametry umístění rozumně zacházet jako se stejnými. Lehmann uvádí, že „problém Behrens – Fisher“ se používá jak pro tuto obecnou formu modelu, když je rodina distribucí libovolná, tak pro omezení normálního rozdělení . Zatímco Lehmann pojednává o řadě přístupů k obecnějšímu problému, založenému hlavně na neparametrii, zdá se, že většina ostatních zdrojů používá „Behrens-Fisherův problém“ pouze pro případ, kdy se předpokládá normální rozdělení: většina tohoto článku dělá tento předpoklad.

Požadavky řešení

Byly představeny řešení Behrens-Fisherova problému, které využívají buď klasického, nebo bayesovského odvozovacího hlediska a každé řešení by bylo z jiného hlediska teoreticky neplatné. Pokud je úvaha omezena pouze na klasickou statistickou inference, je možné hledat řešení problému inference, která se v praktickém smyslu snadno použijí, přičemž tato jednoduchost bude upřednostňována před jakoukoli nepřesností v příslušných prohlášeních o pravděpodobnosti. Je-li požadována přesnost úrovní významnosti statistických testů, může existovat další požadavek, aby postup v maximální míře využíval statistické informace v datovém souboru. Je dobře známo, že přesný test lze získat náhodným vyřazením dat z větší datové sady, dokud se velikost vzorku nevyrovná, sestavením dat ve dvojicích a převzetím rozdílů a následným použitím běžného t-testu k testování průměrného rozdílu nula: zjevně by to v žádném smyslu nebylo „optimální“.

Úkolem specifikovat odhady intervalů pro tento problém je úkol, kdy frekventovaný přístup neposkytne přesné řešení, i když jsou k dispozici některá aproximace. Standardní Bayesovské přístupy také neposkytují odpověď, kterou lze vyjádřit jako jednoduché jednoduché vzorce, ale moderní výpočetní metody Bayesovské analýzy umožňují nalézt v podstatě přesná řešení. Studii problému lze tedy použít k objasnění rozdílů mezi častým a bayesovským přístupem k odhadu intervalů.

Nástin různých přístupů

Přístup Behrens a Fisher

Ronald Fisher v roce 1935 zavedl fiduciální závěr , aby jej mohl aplikovat na tento problém. On se odkazoval na dřívější stati Walter Ulrich Behrens od roku 1929. Behrens a Fisher navrhuje najít rozdělení pravděpodobnosti na

kde a jsou dva výběrové prostředky a s 1 a s 2 jsou jejich standardní odchylky . Viz Behrens – Fisherova distribuce . Fisher aproximoval distribuci tohoto ignorováním náhodné variace relativních velikostí směrodatných odchylek,

Fisherovo řešení vyvolalo polemiku, protože nemělo vlastnost, že by hypotéza rovných prostředků byla s pravděpodobností α odmítnuta, pokud by byly prostředky ve skutečnosti stejné. Od té doby bylo navrženo mnoho dalších metod léčby problému a byl zkoumán účinek na výsledné intervaly spolehlivosti.

Welchovo přibližné t řešení

Široce používanou metodou je metoda BL Welcha , který byl stejně jako Fisher na University College London . Rozptyl středního rozdílu

výsledky v

Welch (1938) aproximoval distribuci distribucí typu III Pearson (škálovaná distribuce chí-kvadrát ), jejíž první dva momenty souhlasí s distribucí z . To platí pro následující počet stupňů volnosti (df), který obecně není celočíselný:

Při nulové hypotéze stejných očekávání μ 1 = μ 2 lze nyní distribuci Behrens-Fisherovy statistiky T , která také závisí na rozptylovém poměru σ 1 2 / σ 2 2 , nyní aproximovat Studentovým t rozdělením s těmito ν stupně svobody. Ale toto ν obsahuje populační odchylky σ i 2 , a ty nejsou známy. Následující odhad nahradí odchylky populace pouze odchylkami vzorku:

Toto je náhodná proměnná. Distribuce t s náhodným počtem stupňů volnosti neexistuje. Nicméně, Behrens-Fisher T lze srovnávat s odpovídajícím kvantilem Studentova t rozdělení s těmito odhadovanými počty stupňů volnosti , což je obecně ne celé číslo. Tímto způsobem se hranice mezi oblastí přijetí a odmítnutí testovací statistiky T vypočítá na základě empirických odchylek s i 2 , a to jejich hladkou funkcí.

Tato metoda také neposkytuje přesně nominální sazbu, ale obecně není příliš daleko. Pokud jsou však rozptyly populace stejné, nebo pokud jsou vzorky poměrně malé a lze předpokládat, že rozptyly populace jsou přibližně stejné, je přesnější použít Studentův t-test .

Další přístupy

Byla navržena řada různých přístupů k obecnému problému, z nichž některé tvrdí, že „řeší“ nějakou verzi problému. Mezi ně patří

  • to Chapman v roce 1950,
  • to Prokof'yev a Shishkin v roce 1974,
  • to Dudewicze a Ahmeda v roce 1998.

Při Dudewiczově srovnání vybraných metod bylo zjištěno, že pro praktické použití je doporučen Dudewicz – Ahmedův postup.

Přesné řešení běžných a obecných problémů Behrens-Fisher

Po několik desetiletí se obecně věří, že nebylo nalezeno žádné přesné řešení společného problému Behrens-Fisher. V roce 1966 se však prokázalo, že má přesné řešení. V roce 2018 byla prokázána funkce hustoty pravděpodobnosti zobecněného Behrens-Fisherova rozdělení m průměrů a m odlišných standardních chyb z m vzorků odlišných velikostí z nezávislých normálních distribucí s odlišnými průměry a odchylkami a příspěvek také zkoumal jeho asymptotické aproximace. Následný článek ukázal, že klasický párový t- test je ústředním problémem Behrens-Fisher s korelačním koeficientem nenulové populace a odvozil jeho odpovídající funkci hustoty pravděpodobnosti řešením souvisejícího necentrálního problému Behrens-Fisher s nenulovou populací korelační koeficient. Rovněž vyřešilo obecnější necentrální Behrens-Fisherův problém s nenulovým populačním korelačním koeficientem v příloze.

Varianty

Byla studována menší varianta problému Behrens-Fisher. V tomto případě je problém za předpokladu, že dva populační prostředky jsou ve skutečnosti stejné, vyvozovat závěry o společném průměru: například by bylo možné vyžadovat interval spolehlivosti pro běžný průměr.

Zobecnění

Jedno zobecnění problému zahrnuje vícerozměrné normální rozdělení s neznámými kovariančními maticemi a je známé jako vícerozměrný Behrens-Fisherův problém .

Nonparametric Behrens-Fisher problému nepředpokládá, že rozdělení jsou normální. Testy zahrnují zkoušky Cucconi 1968 a zkoušku Lepage v roce 1971.

Poznámky

  1. ^ Lehmann (1975) str.95
  2. ^ Lehmann (1975), oddíl 7
  3. ^ Fisher, RA (1935). Msgstr "Výchozí argument ve statistickém závěru". Annals of Eugenics . 8 (4): 391–398. doi : 10.1111 / j.1469-1809.1935.tb02120.x . hdl : 2440/15222 .
  4. ^ RA Fisherův Fiducial Argument a Bayesova věta od Teddyho Seidenfelda
  5. ^ Sezer, A. a kol. Porovnání intervalů spolehlivosti pro Behrens – Fisher Problem Comm. Statistiky. 2015
  6. ^ Welch (1938, 1947)
  7. ^ a b Dudewicz, Ma, Mai a Su (2007)
  8. ^ Chapman, DG (1950). "Některé dva ukázkové testy" . Annals of Mathematical Statistics . 21 (4): 601–606. doi : 10,1214 / aoms / 1177729755 .
  9. ^ Prokof'yev, VN; Shishkin, AD (1974). "Postupná klasifikace normálních množin s neznámými odchylkami". Radio Engng. Elektron. Phys . 19 (2): 141–143.
  10. ^ Dudewicz & Ahmed (1998, 1999)
  11. ^ Kabe, DG (prosinec 1966). „O přesném rozdělení statistiky Fisher-Behren'-Welch.“ Metrika . 10 (1): 13–15. doi : 10,1007 / BF02613414 . S2CID   120965543 .
  12. ^ Xiao, Yongshun (22. března 2018). „K řešení obecného problému Behrens-Fishera“ . Far East Journal of Theoretical Statistics . 54 (1): 21–140. doi : 10.17654 / TS054010021 . Vyvolány 21 May 2020 .
  13. ^ a b Xiao, Yongshun (12. prosince 2018). „K řešení problému necentrálního Behrens-Fishera s koeficientem korelace nenulové populace“ . Far East Journal of Theoretical Statistics . 54 (6): 527–600. doi : 10,17654 / TS054060527 . Vyvolány 21 May 2020 .
  14. ^ Young, GA, Smith, RL (2005) Essentials of Statistical Inference , CUP. ISBN   0-521-83971-8 (strana 204)
  15. ^ Belloni a Didier (2008)
  16. ^ Brunner, E. (2000). „Neparametrický Behrens – Fisherův problém: Asymptotická teorie a malá aproximace vzorku“. Biometrický deník . 42 : 17–25. doi : 10,1002 / (SICI) 1521-4036 (200001) 42: 1 <17 :: AID-BIMJ17> 3.0.CO; 2-U .
  17. ^ Konietschke, Frank (2015). "nparcomp: Softwarový balíček R pro neparametrické vícenásobné srovnání a simultánní intervaly spolehlivosti" . Žurnál statistického softwaru . 64 (9). doi : 10,18637 / jss.v064.i09 . Vyvolány 26 September je 2016 .

Reference

externí odkazy