Problém vícenásobného srovnání - Multiple comparisons problem
V statistik je více srovnání , multiplicita nebo vícenásobné testy problému dochází, když se vezme v úvahu soubor statistických závěrů současně nebo vyvozuje podmnožina parametrů vybraných na základě zjištěných hodnot. V určitých oblastech je znám jako efekt hledat jinde .
Čím více se usuzuje, tím větší je pravděpodobnost, že dojde k mylným závěrům. K řešení tohoto problému bylo vyvinuto několik statistických technik, obvykle vyžadujících přísnější práh významnosti pro jednotlivá srovnání, aby se kompenzoval počet vyvozovaných závěrů.
Dějiny
Problematice vícenásobného srovnání se v padesátých letech věnuje zvýšená pozornost díky práci statistiků, jako jsou Tukey a Scheffé . Během následujících desetiletí bylo vyvinuto mnoho postupů k řešení tohoto problému. V roce 1996 se v Izraeli konala první mezinárodní konference o postupech vícenásobného porovnávání ; obvykle se koná přibližně každé dva roky v různých hostitelských zemích.
Definice
Vícenásobné srovnání vzniká, když statistická analýza zahrnuje více simultánních statistických testů, z nichž každý má potenciál produkovat „objev“. Uvedená úroveň spolehlivosti obecně platí pouze pro každý test posuzovaný jednotlivě, ale často je žádoucí mít úroveň spolehlivosti pro celou rodinu simultánních testů. Neschopnost kompenzovat vícenásobná srovnání může mít důležité důsledky v reálném světě, jak ilustrují následující příklady:
- Předpokládejme, že léčba je nový způsob výuky psaní studentů a kontrola je standardní způsob výuky psaní. Studenti v těchto dvou skupinách mohou být porovnáváni z hlediska gramatiky, pravopisu, organizace, obsahu atd. Vzhledem k tomu, že se porovnává více atributů, je stále pravděpodobnější, že se léčebné a kontrolní skupiny budou lišit alespoň v jednom atributu pouze z důvodu chyby náhodného výběru .
- Předpokládejme, že uvažujeme o účinnosti léčiva ve smyslu snížení kteréhokoli z řady symptomů onemocnění. Vzhledem k tomu, že se zvažuje více symptomů, je stále pravděpodobnější, že se lék bude zdát jako zlepšení oproti stávajícím lékům, pokud jde o alespoň jeden symptom.
V obou příkladech, jak se počet srovnání zvyšuje, je pravděpodobnější, že se porovnávané skupiny budou lišit alespoň v jednom atributu. Naše jistota, že se výsledek zobecní na nezávislá data, by měla být obecně slabší, pokud je pozorována jako součást analýzy, která zahrnuje vícenásobné srovnání, spíše než analýza, která zahrnuje pouze jedno srovnání.
Pokud je například proveden jeden test na úrovni 5% a odpovídající nulová hypotéza je pravdivá, existuje pouze 5% šance na nesprávné odmítnutí nulové hypotézy. Pokud je však každý proveden 100 testů na úrovni 5% a všechny odpovídající nulové hypotézy jsou pravdivé, očekávaný počet nesprávných odmítnutí (známých také jako falešně pozitivní výsledky nebo chyby typu I ) je 5. Pokud jsou testy na sobě statisticky nezávislé , pravděpodobnost alespoň jednoho nesprávného odmítnutí je přibližně 99,4%.
Problém vícenásobného srovnání platí také pro intervaly spolehlivosti . Jeden interval spolehlivosti s úrovní pravděpodobnosti pokrytí 95% bude obsahovat skutečnou hodnotu parametru v 95% vzorků. Pokud však vezmeme v úvahu 100 intervalů spolehlivosti současně, každý s 95% pravděpodobností pokrytí, očekávaný počet intervalů bez pokrytí je 5. Pokud jsou intervaly na sobě statisticky nezávislé, pravděpodobnost, že alespoň jeden interval neobsahuje populaci parametr je 99,4%.
Byly vyvinuty techniky, které mají zabránit inflaci falešně pozitivních sazeb a nekrytých sazeb, ke kterým dochází při více statistických testech.
Klasifikace testů více hypotéz
Následující tabulka definuje možné výsledky při testování více nulových hypotéz. Předpokládejme, že máme počet m nulových hypotéz, označených: H 1 , H 2 , ..., H m . Pokud je test prohlášen za významný, pomocí statistického testu odmítneme nulovou hypotézu. Pokud je test nevýznamný, neodmítáme nulovou hypotézu. Sečtením každého typu výsledku do všech H i se získají následující náhodné proměnné:
Nulová hypotéza je pravdivá (H 0 ) | Alternativní hypotéza je pravdivá (H A ) | Celkový | |
---|---|---|---|
Test je prohlášen za významný | PROTI | S | R. |
Test je prohlášen za nevýznamný | U | T | |
Celkový | m |
- m je celkový počet testovaných hypotéz
- je počet pravdivých nulových hypotéz , neznámý parametr
- je počet pravdivých alternativních hypotéz
- V je počet falešně pozitivních výsledků (chyba typu I) (také nazývaných „falešné objevy“)
- S je počet skutečných pozitiv (nazývaných také „skutečné objevy“)
- T je počet falešných negativů (chyba typu II)
- U je počet skutečných negativů
- je počet odmítnutých nulových hypotéz (nazývaných také „objevy“, pravdivé nebo nepravdivé)
V m testech hypotéz, které jsou pravdivými nulovými hypotézami, R je pozorovatelná náhodná proměnná a S , T , U a V jsou nepozorovatelné náhodné proměnné .
Kontrolní postupy
Pokud se provádí nezávislé porovnávání m , je rodinná míra chyb (FWER) dána vztahem
Pokud tedy testy nejsou dokonale pozitivně závislé (tj. Identické), zvyšuje se s rostoucím počtem srovnání. Pokud nepředpokládáme, že jsou srovnání nezávislá, můžeme přesto říci:
což vyplývá z Booleovy nerovnosti . Příklad:
Existují různé způsoby, jak zajistit, aby míra chyb v rámci rodiny byla nejvýše . Nejkonzervativnější metodou, která je bez závislosti a distribučních předpokladů, je Bonferroniho korekce . Okrajově méně konzervativní korekci lze získat řešením rovnice pro rodinnou chybovost nezávislých srovnání pro . Tím se získá , což je známé jako Šidákova korekce . Dalším postupem je metoda Holm – Bonferroni , která rovnoměrně poskytuje větší výkon než jednoduchá Bonferroniho korekce, a to testováním pouze nejnižší hodnoty p ( ) podle nejpřísnějšího kritéria a vyšších hodnot p ( ) proti postupně méně přísným kritériím. .
U souvislých problémů lze použít Bayesovskou logiku pro výpočet z poměru objemu k předchozímu a pozdějšímu objemu. Souvislé zobecnění Bonferroniho a Šidákovy korekce jsou uvedeny v.
Korekce vícenásobného testování
Oprava vícenásobného testování znamená zpřísnění statistických testů, aby se předešlo problému vícenásobného testování. Nejznámější takovou úpravou je Bonferroniho korekce , ale byly vyvinuty jiné metody. Takové metody jsou obvykle navrženy tak, aby řídily rodinnou chybovost nebo míru falešných objevů .
Rozsáhlé vícenásobné testování
Tradiční metody pro úpravy vícenásobných srovnání se zaměřují na opravu u skromných počtů srovnání, často v analýze rozptylu . Pro „rozsáhlé vícenásobné testování“ byla vyvinuta jiná sada technik, při nichž se provádějí tisíce nebo dokonce větší počet testů. Například v genomice lze při použití technologií, jako jsou mikročipy , měřit úrovně exprese desítek tisíc genů a lze měřit genotypy pro miliony genetických markerů. Zejména v oblasti studií genetické asociace nastal vážný problém s nereplikací-výsledek je v jedné studii silně statisticky významný, ale v následné studii není možné jej replikovat. Taková nereplikace může mít mnoho příčin, ale všeobecně se má za to, že jednou z příčin je neúspěšné úplné vysvětlení důsledků vícenásobného srovnání. Argumentovalo se, že pokroky v měření a informačních technologiích výrazně usnadnily generování velkých souborů dat pro průzkumnou analýzu , což často vedlo k testování velkého počtu hypotéz bez předchozího základu pro očekávání, že mnohé z hypotéz budou pravdivé. V této situaci se očekávají velmi vysoké falešně kladné sazby, pokud nebudou provedeny úpravy vícenásobného srovnání.
U problémů s rozsáhlým testováním, kde je cílem poskytnout definitivní výsledky, zůstává rodinná chybovost nejpřijatelnějším parametrem pro přiřazování hladin významnosti statistickým testům. Alternativně, pokud je studie považována za průzkumnou nebo pokud lze významné výsledky snadno znovu otestovat v nezávislé studii, často se upřednostňuje kontrola míry falešných objevů (FDR). FDR, volně definovaný jako očekávaný podíl falešných pozitiv mezi všemi významnými testy, umožňuje výzkumným pracovníkům identifikovat soubor „kandidátských pozitiv“, které lze přísněji vyhodnotit v navazující studii.
Praxe zkoušení mnoha neupravených srovnání v naději, že najdeme významné, je známým problémem, ať už je aplikována neúmyslně nebo záměrně, někdy se nazývá „p-hacking“.
Posouzení, zda jsou nějaké alternativní hypotézy pravdivé
Základní otázkou, s níž se potýkáme na začátku analýzy velkého souboru výsledků testování, je, zda existují důkazy, že některá z alternativních hypotéz je pravdivá. Jeden jednoduchý meta-test, který lze použít, když se předpokládá, že jsou testy na sobě nezávislé, je použít Poissonovu distribuci jako model pro počet významných výsledků na dané úrovni α, který by byl nalezen, když jsou všechny nulové hypotézy skutečný. Pokud je pozorovaný počet pozitivních podstatně vyšší, než by se dalo očekávat, naznačuje to, že mezi významnými výsledky pravděpodobně budou nějaká skutečná pozitiva. Pokud je například provedeno 1000 nezávislých testů, každý na úrovni α = 0,05, očekáváme, že 0,05 × 1000 = 50 významných testů proběhne, když jsou všechny nulové hypotézy pravdivé. Na základě Poissonova rozdělení s průměrem 50 je pravděpodobnost pozorování více než 61 významných testů menší než 0,05, takže pokud je pozorováno více než 61 významných výsledků, je velmi pravděpodobné, že některé z nich odpovídají situacím, kde platí alternativní hypotéza. Nevýhodou tohoto přístupu je, že nadhodnocuje důkazy o tom, že některé z alternativních hypotéz jsou pravdivé, když jsou statistiky testů pozitivně korelovány, což se v praxi běžně vyskytuje. Na druhé straně tento přístup zůstává platný i za přítomnosti korelace mezi statistiky testů, pokud lze prokázat Poissonovu distribuci, která poskytuje dobrou aproximaci počtu významných výsledků. Tento scénář nastává například při těžbě významných častých sad položek z transakčních datových sad. Kromě toho může pečlivá dvoustupňová analýza svázat FDR na předem určené úrovni.
Další běžný přístup, který lze použít v situacích, kdy lze testovací statistiky standardizovat na Z-skóre, je vytvořit normální kvantilní graf testovacích statistik. Pokud jsou pozorované kvantily výrazně rozptýlenější než normální kvantily, naznačuje to, že některé významné výsledky mohou být skutečně pozitivními.
Viz také
- Klíčové koncepty
- Rodinná míra chyb
- Falešně pozitivní míra
- Míra falešných objevů (FDR)
- Míra falešného pokrytí (FCR)
- Odhad intervalu
- Post-hoc analýza
- Experimentální chybovost
- Testování statistických hypotéz
- Obecné metody úpravy alfa pro vícenásobná srovnání
- Uzavřený testovací postup
- Korekce Bonferroni
- Boole - Bonferroni vázán
- Duncanův nový test s více rozsahy
- Holm – Bonferroniho metoda
- Postup harmonické střední hodnoty p
- Související pojmy
- Testování hypotéz navržených daty
- Texaský omyl střelce
- Výběr modelu
- Efekt hledat jinde
- Vytěžování dat
Reference
Další čtení
- F. Betz, T. Hothorn, P. Westfall (2010), Vícenásobné srovnání pomocí R , CRC Press
- S. Dudoit a MJ van der Laan (2008), Multiple Testing Procedures with Application to Genomics , Springer
- Farcomeni, A. (2008). „Přehled moderního testování více hypotéz, se zvláštním zřetelem na podíl falešných objevů“. Statistické metody v lékařském výzkumu . 17 (4): 347–388. doi : 10,1177/0962280206079046 . PMID 17698936 . S2CID 12777404 .
- Phipson, B .; Smyth, GK (2010). „P-hodnoty Permutace by nikdy neměly být nulové: Výpočet přesných P-hodnot při náhodném čerpání permutací“. Statistické aplikace v genetice a molekulární biologii . 9 : Článek 39. arXiv : 1603.05766 . doi : 10,2202/1544-6115.1585 . PMID 21044043 . S2CID 10735784 .
- PH Westfall a SS Young (1993), vícenásobné testování založené na převzorkování: Příklady a metody pro úpravu hodnoty p , Wiley
- P. Westfall, R. Tobias, R. Wolfinger (2011) Vícenásobné srovnání a vícenásobné testování pomocí SAS , 2. vydání, SAS Institute
- Galerie příkladů nepravděpodobných korelací pocházejících z hloubení dat