Permutační test - Permutation test

Test permutace (také nazývaný re-randomizační test) je přesný test , což je typ statistického testu významnosti , ve kterém distribuce testovaného statistiky na základě nulové hypotézy se získá výpočtem všech možných hodnot statistického výsledku zkoušek za všech možných přestaveb pozorované datové body. Permutační test je tedy formou převzorkování . Jinými slovy, metoda, kterou jsou procedury přidělovány subjektům v experimentálním designu, se zrcadlí v analýze tohoto designu. Pokud jsou štítky vyměnitelné za nulové hypotézy, pak výsledné testy poskytují přesné hladiny významnosti; viz také směnitelnost . Intervaly spolehlivosti lze poté odvodit z testů. Teorie se vyvinula z děl Ronalda Fishera a EJG Pitmana ve 30. letech 20. století.

Permutační testy by neměly být zaměňovány s randomizovanými testy .

Pro ilustraci základní myšlenky permutačního testu předpokládejme, že sbíráme náhodné proměnné a pro každého jednotlivce ze dvou skupin a jejichž vzorové prostředky jsou a a že chceme vědět, zda a pocházejí ze stejné distribuce. Nechť a je velikost vzorku shromážděná z každé skupiny. Permutační test je navržen tak, aby určil, zda je pozorovaný rozdíl mezi průměrem vzorku dostatečně velký, aby na určité hladině významnosti odmítl nulovou hypotézu H , ze které jsou data čerpána ze stejné distribuce jako data čerpaná z .

Test probíhá následovně. Za prvé, rozdíl v prostředku mezi dvěma vzorky se vypočítá: to je pozorovaná hodnota zkušebního statistiky, .

Dále se shromáždí pozorování skupin a spojí se a vypočte se rozdíl průměrných hodnot vzorků a zaznamená se pro každý možný způsob rozdělení sdružených hodnot do dvou skupin velikosti a (tj. Pro každou permutaci skupinových značek A a B). Soubor těchto vypočtených rozdílů je přesnou distribucí možných rozdílů (pro tento vzorek) podle nulové hypotézy, že skupinové značky jsou zaměnitelné (tj. Jsou náhodně přiřazeny).

Jednostranná p-hodnota testu se vypočítá jako podíl vzorkovaných permutací, kde rozdíl průměrů byl větší než . Oboustranná p-hodnota testu se vypočítá jako podíl vzorkovaných permutací, kde byl absolutní rozdíl větší než .

Alternativně, pokud je jediným účelem testu odmítnout nebo neodmítnout nulovou hypotézu, je možné zaznamenané rozdíly setřídit a poté sledovat, zda je obsažena ve středních % z nich, na určité hladině významnosti . Pokud tomu tak není, hypotézu shodných křivek pravděpodobnosti na hladině významnosti odmítáme .

Vztah k parametrickým testům

Permutační testy jsou podmnožinou neparametrických statistik . Za předpokladu, že naše experimentální data pocházejí z údajů naměřených ze dvou ošetřených skupin, metoda jednoduše generuje rozdělení průměrných rozdílů za předpokladu, že tyto dvě skupiny nejsou z hlediska měřené proměnné odlišné. Z toho pak člověk použije pozorovanou statistiku ( výše), aby zjistil, do jaké míry je tato statistika zvláštní, tj. Pravděpodobnost pozorování velikosti takové hodnoty (nebo větší), pokud by ošetřovací značky byly po ošetření jednoduše randomizovány.

Na rozdíl od permutačních testů jsou distribuce, které jsou základem mnoha populárních „klasických“ statistických testů, jako je t -test , F -test , z -test a χ 2 test , získány z teoretických rozdělení pravděpodobnosti. Fisherův exaktní test je příkladem běžně používaného permutačního testu k vyhodnocení asociace mezi dvěma dichotomickými proměnnými. Když jsou velikosti vzorků velmi velké, poskytne Pearsonův chi-square test přesné výsledky. U malých vzorků nelze předpokládat, že chí-kvadrátové referenční rozdělení poskytuje správný popis rozdělení pravděpodobnosti statistiky testu, a v této situaci se stává vhodnějším použití Fisherova exaktního testu.

Permutační testy existují v mnoha situacích, kde parametrické testy neexistují (např. Při odvozování optimálního testu, kdy jsou ztráty úměrné velikosti chyby spíše než jejímu čtverci). Všechny jednoduché a mnoho relativně složitých parametrických testů má odpovídající verzi testu permutace, která je definována pomocí stejné statistiky testu jako parametrický test, ale hodnotu p získává z distribuce permutací specifické pro danou statistiku, nikoli z teoretických distribuce odvozená z parametrického předpokladu. Tímto způsobem je například možné sestrojit t -test permutace, test asociace permutace χ 2 , permutační verzi Alyina testu pro porovnávání variant a tak dále.

Hlavní nevýhody permutačních testů jsou, že oni

  • Může být výpočetně náročný a může vyžadovat „vlastní“ kód pro obtížně vypočítatelné statistiky. Toto musí být přepsáno pro každý případ.
  • Používají se primárně k poskytnutí hodnoty p. Inverze testu k získání oblastí/intervalů spolehlivosti vyžaduje ještě více výpočtu.

Výhody

Permutační testy existují pro jakoukoli statistiku testu bez ohledu na to, zda je či není známa její distribuce. Člověk si tedy může kdykoli vybrat statistiku, která nejlépe rozlišuje mezi hypotézou a alternativou a která minimalizuje ztráty.

Permutační testy lze použít k analýze nevyvážených návrhů a ke kombinaci závislých testů na směsích kategorických, pořadových a metrických dat (Pesarin, 2001). Mohou být také použity k analýze kvalitativních dat, která byla kvantifikována (tj. Přeměněna na čísla). Permutační testy mohou být ideální pro analýzu kvantitativních dat, která nesplňují statistické předpoklady, které jsou základem tradičních parametrických testů (např. T-testy, ANOVA).

Před osmdesátými léty bylo břemeno vytváření referenční distribuce zdrcující kromě datových sad s malými velikostmi vzorků.

Od 80. let 20. století umožňoval soutok relativně levných rychlých počítačů a vývoj nových propracovaných algoritmů cest použitelných ve zvláštních situacích aplikaci metod permutačních testů pro širokou škálu problémů. Rovněž iniciovalo přidání možností přesných testů do hlavních balíčků statistického softwaru a vznik specializovaného softwaru pro provádění široké škály jedno- a více proměnných přesných testů a výpočetních „přesných“ intervalů spolehlivosti založených na testech.

Omezení

Důležitým předpokladem testu permutace je, že pozorování jsou zaměnitelná za nulové hypotézy. Důležitým důsledkem tohoto předpokladu je, že testy rozdílu v poloze (jako t-test s permutací) vyžadují za předpokladu normality stejnou variabilitu. V tomto ohledu sdílí permutační t-test stejnou slabinu jako klasický Studentův t-test ( Behrens-Fisherův problém ). Třetí alternativou v této situaci je použít test založený na bootstrapu. Good (2005) vysvětluje rozdíl mezi testy permutace a testy bootstrap následujícím způsobem: "Permutace testují hypotézy týkající se distribucí; bootstraps testují hypotézy týkající se parametrů. V důsledku toho bootstrap zahrnuje méně přísné předpoklady." Testy bootstrapu nejsou přesné. V některých případech může být permutační test založený na řádně studentizované statistice asymptoticky přesný, i když je porušen předpoklad zaměnitelnosti.

Monte Carlo testování

Pokud existuje příliš mnoho možných uspořádání dat, je možné vytvořit asymptoticky ekvivalentní test permutace, aby bylo možné pohodlným způsobem umožnit kompletní výčet. To se provádí generováním referenční distribuce vzorkováním Monte Carlo , které odebere malý (vzhledem k celkovému počtu permutací) náhodný vzorek možných replikátů. Uvědomění, že to lze použít na jakýkoli test permutace na jakékoli datové sadě, bylo důležitým průlomem v oblasti aplikované statistiky. Nejstarší zmínky o tomto přístupu jsou Eden a Yates (1933) a Dwass (1957). Tento typ permutace testu je znám pod různými jmény: přibližná permutace zkoušek , permutační testy Monte Carlo nebo náhodné permutační testy .

Po náhodných permutacích je možné získat interval spolehlivosti pro hodnotu p na základě binomického rozdělení. Pokud je například po náhodných permutacích odhadována hodnota p , pak je 99% interval spolehlivosti pro true (ten, který by byl výsledkem vyzkoušení všech možných permutací) .

Na druhé straně, účelem odhadu hodnoty p je nejčastěji rozhodnout, zda , kde je práh, při kterém bude nulová hypotéza odmítnuta (typicky ). Ve výše uvedeném příkladu nám interval spolehlivosti pouze říká, že existuje zhruba 50% šance, že hodnota p je menší než 0,05, tj. Není zcela jasné, zda by nulová hypotéza měla být na úrovni odmítnuta .

Pokud je důležité pouze vědět, zda pro daný případ , je logické pokračovat v simulaci, dokud nelze konstatovat, že tvrzení je pravdivé nebo nepravdivé s velmi nízkou pravděpodobností chyby. Vzhledem k omezené přípustné pravděpodobnosti chyby (pravděpodobnost zjištění, že ve skutečnosti nebo naopak) lze otázku, kolik permutací generovat, považovat za otázku, kdy přestat generovat permutace, na základě výsledků simulací, aby bylo zaručeno, že závěr (který je buď nebo ) je správný s pravděpodobností alespoň tak velkou jako . ( bude obvykle vybrán jako extrémně malý, např. 1/1000.) Byla vyvinuta pravidla pro zastavení, která mohou být začleněna s minimálními dodatečnými výpočetními náklady. Ve skutečnosti se v závislosti na skutečné podkladové hodnotě p často zjistí, že počet požadovaných simulací je pozoruhodně malý (např. Tak nízký jako 5 a často ne větší než 100), než lze dosáhnout rozhodnutí s virtuální jistotou.

Viz také

Literatura

Původní reference:

  • Fisher, RA (1935) The Design of Experiments , New York: Hafner
  • Pitman, EJG (1937) „Testy významnosti, které lze aplikovat na vzorky z jakékoli populace“, dodatek Královské statistické společnosti , 4: 119–130 a 225–32 (části I a II). JSTOR  2984124 JSTOR  2983647
  • Pitman, EJG (1938). "Testy významnosti, které lze použít na vzorky z jakékoli populace. Část III. Analýza testu rozptylu". Biometrika . 29 (3–4): 322–335. doi : 10,1093/biomet/29,3-4,322 .

Moderní reference:

Výpočetní metody:

Aktuální výzkum permutačních testů

Reference

  1. ^ Onghena, Patrick (2017-10-30), Berger, Vance W. (ed.), „Randomization Tests or Permutation Tests? A Historical and Terminological Clarification“ , Randomization, Masking, and Allocation Concealment (1 ed.), Boca Raton: Taylor & Francis, titul CRC, součást otisku Taylor & Francis, člen skupiny Taylor & Francis Group, akademická divize společnosti T&F Informa plc, 2018 .: Chapman and Hall/CRC, s. 209–228, doi : 10.1201/9781315305110-14 , ISBN 978-1-315-30511-0, vyvolány 2021-10-08CS1 maint: location ( link )
  2. ^ „Pozvané články“ (PDF) . Journal of Modern Applied Statistical Methods . 1 (2): 202–522. Podzim 2011. Archivováno z originálu (PDF) 5. května 2003.
  3. ^ Collingridge, Dave S. (11. září 2012). „Základní informace o analýze kvantitativních dat a testování permutací“. Journal of Mixed Methods Research . 7 (1): 81–97. doi : 10,1177/1558689812454457 . S2CID  124618343 .
  4. ^ Chung, EY; Romano, JP (2013). „Přesné a asymptoticky robustní testy permutace“ . The Annals of Statistics . 41 (2): 487–507. arXiv : 1304,5939 . doi : 10,1214/13-AOS1090 .
  5. ^ Eden, T; Yates, F (1933). „O platnosti Fisherova testu z při aplikaci na skutečný příklad neobvyklých dat. (S pěti textovými obrázky.)“ . The Journal of Agricultural Science . 23 (1): 6–17. doi : 10,1017/S0021859600052862 . Citováno 3. června 2021 .
  6. ^ Dwass, Meyer (1957). „Upravené testy randomizace pro neparametrické hypotézy“ . Annals of Mathematical Statistics . 28 (1): 181–187. doi : 10,1214/aoms/1177707045 . JSTOR  2237031 .
  7. ^ Thomas E. Nichols , Andrew P. Holmes (2001). „Neparametrické testy permutace pro funkční neuroimaging: Primer s příklady“ (PDF) . Mapování lidského mozku . 15 (1): 1–25. doi : 10,1002/hbm.1058 . hdl : 2027,42/35194 . PMC  6871862 . PMID  11747097 .
  8. ^ Gandy, Axel (2009). „Sekvenční implementace testů Monte Carlo s rovnoměrně ohraničeným rizikem převzorkování“. Journal of the American Statistical Association . 104 (488): 1504–1511. arXiv : matematika/0612488 . doi : 10,1198/jasa.2009.tm08368 . S2CID  15935787 .