Problém vícenásobného srovnání - Multiple comparisons problem

Příklad shody okolností způsobené hloubením dat (ukazující korelaci mezi počtem písmen ve vítězném slově hláskující včely a počtem lidí ve Spojených státech zabitých jedovatými pavouky). Vzhledem k dostatečně velkému fondu proměnných za stejné časové období je možné najít dvojici grafů, které ukazují korelaci bez příčinných souvislostí .

V statistik je více srovnání , multiplicita nebo vícenásobné testy problému dochází, když se vezme v úvahu soubor statistických závěrů současně nebo vyvozuje podmnožina parametrů vybraných na základě zjištěných hodnot. V určitých oblastech je znám jako efekt hledat jinde .

Čím více se usuzuje, tím větší je pravděpodobnost, že dojde k mylným závěrům. K řešení tohoto problému bylo vyvinuto několik statistických technik, obvykle vyžadujících přísnější práh významnosti pro jednotlivá srovnání, aby se kompenzoval počet vyvozovaných závěrů.

Dějiny

Problematice vícenásobného srovnání se v padesátých letech věnuje zvýšená pozornost díky práci statistiků, jako jsou Tukey a Scheffé . Během následujících desetiletí bylo vyvinuto mnoho postupů k řešení tohoto problému. V roce 1996 se v Izraeli konala první mezinárodní konference o postupech vícenásobného porovnávání ; obvykle se koná přibližně každé dva roky v různých hostitelských zemích.

Definice

Vícenásobné srovnání vzniká, když statistická analýza zahrnuje více simultánních statistických testů, z nichž každý má potenciál produkovat „objev“. Uvedená úroveň spolehlivosti obecně platí pouze pro každý test posuzovaný jednotlivě, ale často je žádoucí mít úroveň spolehlivosti pro celou rodinu simultánních testů. Neschopnost kompenzovat vícenásobná srovnání může mít důležité důsledky v reálném světě, jak ilustrují následující příklady:

  • Předpokládejme, že léčba je nový způsob výuky psaní studentů a kontrola je standardní způsob výuky psaní. Studenti v těchto dvou skupinách mohou být porovnáváni z hlediska gramatiky, pravopisu, organizace, obsahu atd. Vzhledem k tomu, že se porovnává více atributů, je stále pravděpodobnější, že se léčebné a kontrolní skupiny budou lišit alespoň v jednom atributu pouze z důvodu chyby náhodného výběru .
  • Předpokládejme, že uvažujeme o účinnosti léčiva ve smyslu snížení kteréhokoli z řady symptomů onemocnění. Vzhledem k tomu, že se zvažuje více symptomů, je stále pravděpodobnější, že se lék bude zdát jako zlepšení oproti stávajícím lékům, pokud jde o alespoň jeden symptom.

V obou příkladech, jak se počet srovnání zvyšuje, je pravděpodobnější, že se porovnávané skupiny budou lišit alespoň v jednom atributu. Naše jistota, že se výsledek zobecní na nezávislá data, by měla být obecně slabší, pokud je pozorována jako součást analýzy, která zahrnuje vícenásobné srovnání, spíše než analýza, která zahrnuje pouze jedno srovnání.

Pokud je například proveden jeden test na úrovni 5% a odpovídající nulová hypotéza je pravdivá, existuje pouze 5% šance na nesprávné odmítnutí nulové hypotézy. Pokud je však každý proveden 100 testů na úrovni 5% a všechny odpovídající nulové hypotézy jsou pravdivé, očekávaný počet nesprávných odmítnutí (známých také jako falešně pozitivní výsledky nebo chyby typu I ) je 5. Pokud jsou testy na sobě statisticky nezávislé , pravděpodobnost alespoň jednoho nesprávného odmítnutí je přibližně 99,4%.

Problém vícenásobného srovnání platí také pro intervaly spolehlivosti . Jeden interval spolehlivosti s úrovní pravděpodobnosti pokrytí 95% bude obsahovat skutečnou hodnotu parametru v 95% vzorků. Pokud však vezmeme v úvahu 100 intervalů spolehlivosti současně, každý s 95% pravděpodobností pokrytí, očekávaný počet intervalů bez pokrytí je 5. Pokud jsou intervaly na sobě statisticky nezávislé, pravděpodobnost, že alespoň jeden interval neobsahuje populaci parametr je 99,4%.

Byly vyvinuty techniky, které mají zabránit inflaci falešně pozitivních sazeb a nekrytých sazeb, ke kterým dochází při více statistických testech.

Klasifikace testů více hypotéz

Následující tabulka definuje možné výsledky při testování více nulových hypotéz. Předpokládejme, že máme počet m nulových hypotéz, označených: H 1H 2 , ...,  H m . Pokud je test prohlášen za významný, pomocí statistického testu odmítneme nulovou hypotézu. Pokud je test nevýznamný, neodmítáme nulovou hypotézu. Sečtením každého typu výsledku do všech H i se   získají následující náhodné proměnné:

Nulová hypotéza je pravdivá (H 0 ) Alternativní hypotéza je pravdivá (H A ) Celkový
Test je prohlášen za významný PROTI S R.
Test je prohlášen za nevýznamný U T
Celkový m

V m testech hypotéz, které jsou pravdivými nulovými hypotézami, R je pozorovatelná náhodná proměnná a S , T , U a V jsou nepozorovatelné náhodné proměnné .

Kontrolní postupy

Pokud se provádí nezávislé porovnávání m , je rodinná míra chyb (FWER) dána vztahem

Pokud tedy testy nejsou dokonale pozitivně závislé (tj. Identické), zvyšuje se s rostoucím počtem srovnání. Pokud nepředpokládáme, že jsou srovnání nezávislá, můžeme přesto říci:

což vyplývá z Booleovy nerovnosti . Příklad:

Existují různé způsoby, jak zajistit, aby míra chyb v rámci rodiny byla nejvýše . Nejkonzervativnější metodou, která je bez závislosti a distribučních předpokladů, je Bonferroniho korekce . Okrajově méně konzervativní korekci lze získat řešením rovnice pro rodinnou chybovost nezávislých srovnání pro . Tím se získá , což je známé jako Šidákova korekce . Dalším postupem je metoda Holm – Bonferroni , která rovnoměrně poskytuje větší výkon než jednoduchá Bonferroniho korekce, a to testováním pouze nejnižší hodnoty p ( ) podle nejpřísnějšího kritéria a vyšších hodnot p ( ) proti postupně méně přísným kritériím. .

U souvislých problémů lze použít Bayesovskou logiku pro výpočet z poměru objemu k předchozímu a pozdějšímu objemu. Souvislé zobecnění Bonferroniho a Šidákovy korekce jsou uvedeny v.

Korekce vícenásobného testování

Oprava vícenásobného testování znamená zpřísnění statistických testů, aby se předešlo problému vícenásobného testování. Nejznámější takovou úpravou je Bonferroniho korekce , ale byly vyvinuty jiné metody. Takové metody jsou obvykle navrženy tak, aby řídily rodinnou chybovost nebo míru falešných objevů .

Rozsáhlé vícenásobné testování

Tradiční metody pro úpravy vícenásobných srovnání se zaměřují na opravu u skromných počtů srovnání, často v analýze rozptylu . Pro „rozsáhlé vícenásobné testování“ byla vyvinuta jiná sada technik, při nichž se provádějí tisíce nebo dokonce větší počet testů. Například v genomice lze při použití technologií, jako jsou mikročipy , měřit úrovně exprese desítek tisíc genů a lze měřit genotypy pro miliony genetických markerů. Zejména v oblasti studií genetické asociace nastal vážný problém s nereplikací-výsledek je v jedné studii silně statisticky významný, ale v následné studii není možné jej replikovat. Taková nereplikace může mít mnoho příčin, ale všeobecně se má za to, že jednou z příčin je neúspěšné úplné vysvětlení důsledků vícenásobného srovnání. Argumentovalo se, že pokroky v měření a informačních technologiích výrazně usnadnily generování velkých souborů dat pro průzkumnou analýzu , což často vedlo k testování velkého počtu hypotéz bez předchozího základu pro očekávání, že mnohé z hypotéz budou pravdivé. V této situaci se očekávají velmi vysoké falešně kladné sazby, pokud nebudou provedeny úpravy vícenásobného srovnání.

U problémů s rozsáhlým testováním, kde je cílem poskytnout definitivní výsledky, zůstává rodinná chybovost nejpřijatelnějším parametrem pro přiřazování hladin významnosti statistickým testům. Alternativně, pokud je studie považována za průzkumnou nebo pokud lze významné výsledky snadno znovu otestovat v nezávislé studii, často se upřednostňuje kontrola míry falešných objevů (FDR). FDR, volně definovaný jako očekávaný podíl falešných pozitiv mezi všemi významnými testy, umožňuje výzkumným pracovníkům identifikovat soubor „kandidátských pozitiv“, které lze přísněji vyhodnotit v navazující studii.

Praxe zkoušení mnoha neupravených srovnání v naději, že najdeme významné, je známým problémem, ať už je aplikována neúmyslně nebo záměrně, někdy se nazývá „p-hacking“.

Posouzení, zda jsou nějaké alternativní hypotézy pravdivé

Normální kvantil pozemek pro simulované sady zkušebních statistiky, které byly normalizovány jako Z-skóre pod nulové hypotézy. Odchod horního konce distribuce od očekávaného trendu podél diagonály je způsoben přítomností podstatně větších hodnot testovacích statistik, než by se očekávalo, kdyby byly všechny nulové hypotézy pravdivé. Červený bod odpovídá čtvrté největší pozorované statistice testu, která je 3,13, oproti očekávané hodnotě 2,06. Modrý bod odpovídá páté nejmenší statistice testu, která je -1,75 oproti očekávané hodnotě -1,96. Graf naznačuje, že je nepravděpodobné, že by všechny nulové hypotézy byly pravdivé, a že většina nebo všechny případy skutečné alternativní hypotézy vyplývají z odchylek v pozitivním směru.

Základní otázkou, s níž se potýkáme na začátku analýzy velkého souboru výsledků testování, je, zda existují důkazy, že některá z alternativních hypotéz je pravdivá. Jeden jednoduchý meta-test, který lze použít, když se předpokládá, že jsou testy na sobě nezávislé, je použít Poissonovu distribuci jako model pro počet významných výsledků na dané úrovni α, který by byl nalezen, když jsou všechny nulové hypotézy skutečný. Pokud je pozorovaný počet pozitivních podstatně vyšší, než by se dalo očekávat, naznačuje to, že mezi významnými výsledky pravděpodobně budou nějaká skutečná pozitiva. Pokud je například provedeno 1000 nezávislých testů, každý na úrovni α = 0,05, očekáváme, že 0,05 × 1000 = 50 významných testů proběhne, když jsou všechny nulové hypotézy pravdivé. Na základě Poissonova rozdělení s průměrem 50 je pravděpodobnost pozorování více než 61 významných testů menší než 0,05, takže pokud je pozorováno více než 61 významných výsledků, je velmi pravděpodobné, že některé z nich odpovídají situacím, kde platí alternativní hypotéza. Nevýhodou tohoto přístupu je, že nadhodnocuje důkazy o tom, že některé z alternativních hypotéz jsou pravdivé, když jsou statistiky testů pozitivně korelovány, což se v praxi běžně vyskytuje. Na druhé straně tento přístup zůstává platný i za přítomnosti korelace mezi statistiky testů, pokud lze prokázat Poissonovu distribuci, která poskytuje dobrou aproximaci počtu významných výsledků. Tento scénář nastává například při těžbě významných častých sad položek z transakčních datových sad. Kromě toho může pečlivá dvoustupňová analýza svázat FDR na předem určené úrovni.

Další běžný přístup, který lze použít v situacích, kdy lze testovací statistiky standardizovat na Z-skóre, je vytvořit normální kvantilní graf testovacích statistik. Pokud jsou pozorované kvantily výrazně rozptýlenější než normální kvantily, naznačuje to, že některé významné výsledky mohou být skutečně pozitivními.

Viz také

Klíčové koncepty
Obecné metody úpravy alfa pro vícenásobná srovnání
Související pojmy

Reference

Další čtení

  • F. Betz, T. Hothorn, P. Westfall (2010), Vícenásobné srovnání pomocí R , CRC Press
  • S. Dudoit a MJ van der Laan (2008), Multiple Testing Procedures with Application to Genomics , Springer
  • Farcomeni, A. (2008). „Přehled moderního testování více hypotéz, se zvláštním zřetelem na podíl falešných objevů“. Statistické metody v lékařském výzkumu . 17 (4): 347–388. doi : 10,1177/0962280206079046 . PMID  17698936 . S2CID  12777404 .
  • Phipson, B .; Smyth, GK (2010). „P-hodnoty Permutace by nikdy neměly být nulové: Výpočet přesných P-hodnot při náhodném čerpání permutací“. Statistické aplikace v genetice a molekulární biologii . 9 : Článek 39. arXiv : 1603.05766 . doi : 10,2202/1544-6115.1585 . PMID  21044043 . S2CID  10735784 .
  • PH Westfall a SS Young (1993), vícenásobné testování založené na převzorkování: Příklady a metody pro úpravu hodnoty p , Wiley
  • P. Westfall, R. Tobias, R. Wolfinger (2011) Vícenásobné srovnání a vícenásobné testování pomocí SAS , 2. vydání, SAS Institute
  • Galerie příkladů nepravděpodobných korelací pocházejících z hloubení dat