Nulová hypotéza - Null hypothesis

V inferenční statistice je nulová hypotéza (často označovaná jako H 0 ) výchozí hypotéza, že měřená veličina je nulová (null). Množství, které má být měřeno, je obvykle rozdílem mezi dvěma situacemi, například pokusem určit, zda existuje pozitivní důkaz, že došlo k účinku nebo že vzorky pocházejí z různých šarží.

Nulová hypotéza ve skutečnosti uvádí, že určité množství (zájmu) je větší nebo rovno nule a menší nebo rovno nule. Pokud lze některý požadavek kladně převrátit, nulová hypotéza je „vyloučena z oblasti možností“.

Obecně se předpokládá, že nulová hypotéza zůstane pravdivá. Lze provést více analýz, které ukážou, jak by měla být hypotéza buď zamítnuta nebo vyloučena, např. S ​​vysokou úrovní spolehlivosti, čímž se prokáže statisticky významný rozdíl. To je ukázáno ukázkou, že nula je mimo specifikovaný interval spolehlivosti měření na obou stranách, obvykle v reálných číslech . Nevyloučení nulové hypotézy (s jakoukoli důvěrou) logicky nepotvrzuje ani nepodporuje (neprokazatelnou) nulovou hypotézu. (Když je prokázáno, že je něco např. Větší než x , nemusí to nutně znamenat, že je pravděpodobné, že je menší nebo rovno x ; místo toho může jít o měření nízké kvality s nízkou přesností. Potvrzení nulové hypotézy oboustranně by kladně prokazující, že je větší nebo roven 0, a kladně prokazující, že je menší nebo roven 0; to je něco, pro co je zapotřebí nekonečná přesnost, stejně jako přesně nulový efekt, z nichž žádný není normálně realistický. Také měření nikdy nebudou označte nenulovou pravděpodobnost přesně nulového rozdílu.) Takže selhání vyloučení nulové hypotézy se rovná „nevím“ na zadané úrovni spolehlivosti; neznamená to okamžitě nějak null, protože data již mohou vykazovat (méně silnou) indikaci pro nenulovou hodnotu. Použitá úroveň spolehlivosti rozhodně neodpovídá pravděpodobnosti nulové hodnoty při nevyloučení; ve skutečnosti v tomto případě vysoká použitá úroveň spolehlivosti rozšiřuje stále věrohodný rozsah.

Nenulová hypotéza může mít následující významy, v závislosti na autorovi a) je použita jiná hodnota než nula, b) je použito jiné rozpětí než nula ac) „alternativní“ hypotéza.

Testování (vyloučení nebo není-li vyloučit) nulová hypotéza poskytuje důkaz, že jsou (nebo nejsou) statisticky dostatečné důvody věřit, že je vztah mezi dvěma jevy (např, že potenciální léčba má nenulovou účinek, a to buď směrem) . Testování nulové hypotézy je ústředním úkolem při testování statistických hypotéz v moderní vědecké praxi. Existují přesná kritéria pro vyloučení nebo nevyloučení nulové hypotézy na určité úrovni spolehlivosti. Úroveň spolehlivosti by měla indikovat pravděpodobnost, že mnohem více a lepších dat bude stále schopno vyloučit nulovou hypotézu na stejné straně.

Koncept nulové hypotézy se používá odlišně ve dvou přístupech ke statistickému odvozování. V přístupu Ronalda Fishera k testování významnosti je nulová hypotéza zamítnuta, pokud je pozorováno, že pozorovaná data jsou významně nepravděpodobná, pokud by nulová hypotéza byla pravdivá. V tomto případě je nulová hypotéza zamítnuta a místo ní je přijata alternativní hypotéza . Pokud jsou data v souladu s nulovou hypotézou statisticky pravděpodobně pravdivou, pak nulová hypotéza není zamítnuta. V žádném případě není prokázána nulová hypotéza ani její alternativa; s lepšími nebo více daty může být hodnota null stále odmítnuta. To je analogické s právním principem presumpce neviny , ve kterém je podezřelý nebo obžalovaný považován za nevinného (null není odmítnut), dokud není prokázána vina (null je odmítnut) mimo rozumnou pochybnost (do statisticky významné míry).

V přístupu testování Jerzyho Neymana a Egona Pearsona k testování hypotéz je nulová hypotéza v kontrastu s alternativní hypotézou a tyto dvě hypotézy se rozlišují na základě údajů s určitou mírou chyb. Používá se při formulování odpovědí ve výzkumu.

Statistické odvození lze provést bez nulové hypotézy, zadáním statistického modelu, který odpovídá každé kandidátské hypotéze, a použitím technik výběru modelu k výběru nejvhodnějšího modelu. (Nejběžnější výběrové techniky jsou založeny na informačním kritériu Akaike nebo Bayesově faktoru ).

Zásada

Testování hypotéz vyžaduje konstrukci statistického modelu toho, jak by data vypadala, kdyby za výsledky byla zodpovědná pouze náhoda nebo náhodné procesy. Hypotéza, že za výsledky je zodpovědná pouze náhoda, se nazývá nulová hypotéza . Model výsledku náhodného procesu se nazývá rozdělení podle nulové hypotézy . Získané výsledky jsou porovnány s distribucí podle nulové hypotézy a je tím stanovena pravděpodobnost nalezení získaných výsledků.

Testování hypotéz funguje tak, že sbírá data a měří, jak pravděpodobný je konkrétní soubor dat (za předpokladu, že je nulová hypotéza pravdivá), když je studie na náhodně vybraném reprezentativním vzorku. Nulová hypotéza nepředpokládá žádný vztah mezi proměnnými v populaci, ze které je vzorek vybrán.

Pokud je soubor dat náhodně vybraného reprezentativního vzorku vzhledem k nulové hypotéze velmi nepravděpodobný (definován jako součást třídy souborů dat, které budou pozorovány jen výjimečně), experimentátor nulovou hypotézu odmítne a uzavře ji (pravděpodobně ) je nepravdivé. Tato třída datových sad je obvykle specifikována prostřednictvím testovací statistiky , která je určena k měření rozsahu zjevného odklonu od nulové hypotézy. Postup funguje tak, že se vyhodnotí, zda je pozorovaný odlet, měřený statistikou testu, větší než definovaná hodnota, takže pravděpodobnost výskytu extrémnější hodnoty je za nulové hypotézy malá (obvykle v méně než 5% nebo 1 % podobných datových sad, ve kterých platí nulová hypotéza).

Pokud data nejsou v rozporu s nulovou hypotézou, pak lze učinit pouze slabý závěr: jmenovitě, že pozorovaný soubor dat poskytuje nedostatečné důkazy proti nulové hypotéze. V tomto případě, protože nulová hypotéza může být pravdivá nebo nepravdivá, je v některých kontextech interpretována tak, že data neposkytují dostatečné důkazy k vyvození žádného závěru, zatímco v jiných kontextech je interpretována tak, že neexistuje dostatek důkazů pro podpora přechodu z aktuálně užitečného režimu na jiný. Pokud se však v tomto bodě účinek jeví pravděpodobný a/nebo dostatečně velký, může existovat podnět k dalšímu zkoumání, například spuštění většího vzorku.

Například určitý lék může snížit pravděpodobnost infarktu. Možné nulové hypotézy jsou „tento lék nesnižuje pravděpodobnost infarktu“ nebo „tento lék nemá žádný vliv na pravděpodobnost infarktu“. Test hypotézy spočívá v podávání léku polovině lidí ve studijní skupině jako kontrolovaný experiment . Pokud data ukazují statisticky významnou změnu u lidí, kteří drogu dostávají, nulová hypotéza je zamítnuta.

Základní definice

Nulová hypotéza a alternativní hypotézy jsou typy hypotéz použitých při statistické testy, které jsou formální metody dosažení závěrů nebo rozhodování na základě dat. Hypotézy jsou dohady o o statistického modelu části populace , které jsou založeny na vzorku populace. Testy jsou základními prvky statistické inference , často používané při interpretaci vědeckých experimentálních dat, k oddělení vědeckých tvrzení od statistického šumu.

"Příkaz testovaný v testu statistické významnosti se nazývá nulová hypotéza . Test významnosti je určen k posouzení síly důkazů proti nulové hypotéze. Nulová hypotéza je obvykle tvrzením 'žádný účinek' nebo ' žádný rozdíl'." Často je symbolizován jako H 0 .

Tvrzení, které je testováno proti nulové hypotéze, je alternativní hypotéza . Symboly zahrnují H 1 a H a .

Statistická významnost test: „Velmi hrubě, postup pro rozhodování o tom, vypadá takto: Pak se náhodný výběr z populace Nejsou-li ukázková data v souladu s nulové hypotéze, tedy. Neodmítají nulovou hypotézu, pokud ukázková data jsou v rozporu s nulovou hypotézu, pak nulovou hypotézu odmítněte a dospějte k závěru, že alternativní hypotéza je pravdivá. “

Následující části přidávají do základních definic kontext a nuance.

Příklad

Liší se vzhledem ke skóre testů dvou náhodných vzorků , jednoho z mužů a jednoho z žen, jedna skupina od druhé? Možnou nulovou hypotézou je, že průměrné mužské skóre je stejné jako průměrné ženské skóre:

H 0 : μ 1 = μ 2

kde

H 0 = nulová hypotéza,
μ 1 = průměr populace 1, a
μ 2 = průměr populace 2.

Silnější nulovou hypotézou je, že dva vzorky jsou čerpány ze stejné populace, takže odchylky a tvary distribucí jsou také stejné.

Terminologie

Jednoduchá hypotéza
Jakákoli hypotéza, která zcela specifikuje rozdělení populace. Pro takovou hypotézu je distribuce výběru jakékoli statistiky funkcí pouze velikosti vzorku.
Složená hypotéza
Jakákoli hypotéza, která zcela nespecifikuje rozdělení populace. Příklad: Hypotéza specifikující normální rozdělení se zadaným průměrem a nespecifikovaným rozptylem.

Jednoduché/složené rozlišení provedli Neyman a Pearson.

Přesná hypotéza
Jakákoli hypotéza, která určuje přesnou hodnotu parametru. Příklad: μ = 100. Synonymum: bodová hypotéza .
Nepřesná hypotéza
Ty určující rozsah nebo interval parametrů. Příklady: μ ≤ 100; 95 ≤ μ ≤ 105.

Fisher požadoval pro testování přesnou nulovou hypotézu (viz citace níže).

Jednostranný hypotéza (testováno pomocí jednostranný testu) je nepřesný hypotéza, ve které je hodnota parametru uvedeno buď jako:

  • nad nebo rovnou určité hodnotě, popř
  • pod nebo rovnou určité hodnotě.

Jednostranná hypotéza má údajně směrovost .

Fisherův originální příklad ( dáma ochutnávající čaj ) byl jednostranný test. Nulová hypotéza byla asymetrická. Pravděpodobnost správného uhodnutí všech šálků byla stejná jako uhodnutí všech šálků nesprávně, ale Fisher poznamenal, že pouze správné uhodnutí bylo slučitelné s tvrzením dámy. (Viz níže uvedené citáty o jeho úvahách.)

Cíle testů nulové hypotézy

Existuje mnoho typů testů významnosti pro jeden, dva nebo více vzorků, pro průměr, odchylky a proporce, spárovaná nebo nepárovaná data, pro různá rozdělení, pro velké a malé vzorky; všichni mají nulové hypotézy. Pro testy významnosti existují také alespoň čtyři cíle nulových hypotéz:

  • K ověření statistických předpokladů se používají technické nulové hypotézy. Například zbytky mezi daty a statistickým modelem nelze odlišit od náhodného šumu. Pokud je to pravda, neexistuje žádné odůvodnění pro komplikování modelu.
  • Vědecké nulové předpoklady se používají k přímému prosazení teorie. Například hybnost vesmíru je nulová. Pokud to není pravda, teorie raného vesmíru může vyžadovat revizi.
  • Nulové hypotézy homogenity se používají k ověření, že více experimentů přináší konzistentní výsledky. Například účinek léku na starší osoby je konzistentní s účinkem běžné dospělé populace. Pokud je to pravda, posiluje to obecný závěr o účinnosti a zjednodušuje doporučení pro použití.
  • Nulové hypotézy, které potvrzují rovnost účinku dvou nebo více alternativních léčebných postupů, například léčiva a placeba, se používají ke snížení vědeckých tvrzení založených na statistickém šumu. Toto je nejpopulárnější nulová hypotéza; Je tak populární, že mnoho prohlášení o významných testech předpokládá takové nulové hypotézy.

Odmítnutí nulové hypotézy nemusí být nutně skutečným cílem testera významnosti. Adekvátní statistický model může být spojen se selháním odmítnutí hodnoty null; model je upravován, dokud není nulová hodnota odmítnuta. Fisherova četná použití testování významnosti byla dobře známá Fisherovi, který mnohé probral ve své knize napsané deset let předtím, než definoval nulovou hypotézu.

Test statistické významnosti sdílí mnoho matematiky s intervalem spolehlivosti . Jsou vzájemně poučné . Výsledek je často významný, pokud existuje důvěra ve znamení vztahu (interval nezahrnuje 0). Kdykoli je známka vztahu důležitá, je statistická významnost hodným cílem. To také odhaluje slabiny testování významnosti: Výsledek může být významný bez dobrého odhadu síly vztahu; význam může být skromný cíl. Slabý vztah může také dosáhnout významu s dostatkem dat. Obvykle se doporučuje vykazování intervalů významnosti a spolehlivosti.

Různorodé použití testů významnosti snižuje počet generalizací, které lze provést u všech aplikací.

Volba nulové hypotézy

Volba nulové hypotézy je spojena s řídkými a nekonzistentními radami. Fisher zmínil několik omezení při výběru a uvedl, že je třeba vzít v úvahu mnoho nulových hypotéz a pro každou je možné provést mnoho testů. Rozmanitost aplikací a rozmanitost cílů naznačuje, že výběr může být komplikovaný. V mnoha aplikacích je formulace testu tradiční. Znalost rozsahu dostupných testů může naznačovat konkrétní nulovou hypotézu a test. Formulace nulové hypotézy není automatizovaná (ačkoli výpočty testování významnosti obvykle ano). Sir David Cox řekl: „Jak je prováděn překlad z problému s předmětem do statistického modelu, je často nejdůležitější součástí analýzy“.

Test statistické významnosti je určen k testování hypotézy. Pokud hypotéza shrnuje soubor dat, nemá smysl testovat hypotézu na této sadě dat. Příklad: Pokud studie zpráv o počasí z loňského roku naznačuje, že déšť v oblasti padá především o víkendech, je platné pouze otestovat tuto nulovou hypotézu na zprávách o počasí z jakéhokoli jiného roku. Testování hypotéz navrhovaných daty je kruhové uvažování, které nic neprokazuje; Je to zvláštní omezení pro výběr nulové hypotézy.

Rutinní postup je následující: Začněte od vědecké hypotézy. Přeložit tento statistický alternativní hypotézy a pokračujte: „Vzhledem k tomu, H vyjadřuje účinek, který chceme najít důkazy, často začínají s H a potom nastavit H 0 as prohlášením, že kýžený efekt není přítomen. " Tato rada je obrácená pro modelování aplikací, kde doufáme, že nenajdeme důkazy proti nule.

Složitý případ je následující: Zlatým standardem klinického výzkumu je randomizovaná placebem kontrolovaná dvojitě zaslepená klinická studie. Ale testování nového léku proti (lékařsky neúčinnému) placebu může být pro vážné onemocnění neetické. Testování nového léku proti staršímu medicínsky účinnému léku vyvolává zásadní filozofické problémy týkající se cíle testu a motivace experimentátorů. Standardní nulová hypotéza „bez rozdílu“ může farmaceutickou společnost odměnit za shromažďování neadekvátních údajů. „Rozdíl“ je v tomto případě lepší nulovou hypotézou, ale statistická významnost není adekvátním kritériem pro dosažení jemného závěru, který vyžaduje dobrý numerický odhad účinnosti léku. „Menší“ nebo „jednoduchá“ změna nulové hypotézy ((nová vs. stará) spíše než (nová vs. placebo)) může mít ze složitých nestatistických důvodů dramatický vliv na užitečnost testu.

Směrovost

Rozhodující je volba nulové hypotézy ( H 0 ) a zohlednění směrovosti (viz „ jednostranný test “).

Ocasnost testu nulové hypotézy

Zvažte otázku, zda je hodená mince spravedlivá (tj. Že v průměru padne až 50% času), a experiment, kde hodíte mincí 5krát. Možným výsledkem experimentu, který zde uvažujeme, je 5 hlav. Nechte výsledky považovat za nepravděpodobné s ohledem na předpokládané rozdělení, pokud je jejich pravděpodobnost nižší než práh významnosti 0,05.

Potenciální nulová hypotéza naznačující jednorázový test zní „tato mince není předpojatá vůči hlavám“. Pozor, v této souvislosti má slovo „ocas“ dva významy: buď jako výsledek jednoho hodu, nebo jako oblast extrémních hodnot v rozdělení pravděpodobnosti.

Skutečně, u spravedlivé mince je pravděpodobnost výsledku tohoto experimentu 1/2 5 = 0,031, což by bylo ještě nižší, kdyby byla mince zaujatá ve prospěch ocasů. Pozorování proto není dost pravděpodobné, aby platila nulová hypotéza, a test ji vyvrací. Vzhledem k tomu, že mince není zdánlivě ani spravedlivá, ani předpojatá vůči ocasům, závěr experimentu je, že mince je předpojatá směrem k hlavám.

Alternativně je nulová hypotéza naznačující dvoustranný test „tato mince je spravedlivá“. Tuto jednu nulovou hypotézu lze prozkoumat hledáním buď příliš mnoha ocasů, nebo příliš mnoha hlav v experimentech. Výsledky, které by měly tendenci odmítnout tuto nulovou hypotézu, jsou výsledky s velkým počtem hlav nebo velkým počtem ocasů a náš experiment s 5 hlavami vypadal, že patří do této třídy.

Pravděpodobnost 5 hodů stejného druhu, bez ohledu na to, zda se jedná o hlavu nebo ocasy, je však dvakrát vyšší než u jednotlivého uvažování o výskytu 5 hlav. Pod touto dvoustrannou nulovou hypotézou tedy pozorování získá hodnotu pravděpodobnosti 0,063. Znovu tedy platí, že se stejným prahem významnosti použitým pro jednostranný test (0,05) není stejný výsledek statisticky významný. Proto bude v tomto případě zachována nulová hypotéza se dvěma ocasy, což nepodporuje závěr dosažený pomocí hypotézy s nulovou jednostrannou hypotézou, že mince je předpojatá směrem k hlavám.

Tento příklad ukazuje, že závěr dosažený statistickým testem může záviset na přesné formulaci nulové a alternativní hypotézy.

Diskuse

Fisher řekl, „nulová hypotéza musí být přesná, bez vágností a nejednoznačností, protože musí poskytnout základ„ problému distribuce “, jehož řešením je test významnosti“, což naznačuje restriktivnější doménu pro H 0 . Podle tohoto pohledu musí být nulová hypotéza číselně přesná - musí uvádět, že určitá veličina nebo rozdíl se rovná určitému číslu. V klasické vědě je nejtypičtějším tvrzením, že neexistuje žádný účinek konkrétní léčby; v pozorováních je typicky, že neexistuje žádný rozdíl mezi hodnotou konkrétní měřené proměnné a hodnotou predikce.

Většina statistiků se domnívá, že je platné uvést směr jako součást nulové hypotézy nebo jako součást dvojice nulová hypotéza/alternativní hypotéza. Výsledky však nejsou úplným popisem všech výsledků experimentu, pouze jediným výsledkem přizpůsobeným jednomu konkrétnímu účelu. Uvažujme například H 0, která tvrdí, že průměr populace pro novou léčbu je vylepšení dobře zavedené léčby s průměrem populace = 10 (znám z dlouhodobých zkušeností), přičemž jednostrannou alternativou je, že průměr nové léčby > 10 . Pokud se důkazní vzorek získaný pomocí x -bar rovná −200 a odpovídající statistika t -testu se rovná −50, závěr z testu by byl takový, že neexistuje žádný důkaz, že nové zacházení je lepší než stávající: nehlásí že je to výrazně horší, ale to není to, co tento konkrétní test hledá. Abychom překonali jakoukoli nejasnost při vykazování výsledku testu nulové hypotézy, je nejlepší uvést, zda byl test oboustranný, a pokud je jednostranný, zahrnout směr testovaného účinku.

Statistická teorie potřebná k řešení jednoduchých případů směrovosti, které jsou zde řešeny, a složitějších, využívá koncept nezaujatého testu .

Směrovost hypotéz není vždy zřejmá. Výslovná nulová hypotéza příkladu čaje Fisher's Lady ochutnávajícího byla, že Lady žádnou takovou schopnost neměla, což vedlo k symetrickému rozdělení pravděpodobnosti. Jednostranná povaha testu byla výsledkem alternativní hypotézy s jedním sledem (termín, který Fisher nepoužívá). Nulová hypotéza se implicitně stala jednostrannou. Logická negace jednostranného tvrzení Paní byla také jednostranná. (Nárok: Schopnost> 0; Uvedená null: Schopnost = 0; Implicitní null: Schopnost ≤ 0).

Čisté argumenty ohledně používání jednostranných testů komplikuje rozmanitost testů. Některé testy (například test dobroty shody χ 2 ) jsou ve své podstatě jednostranné. Některá rozdělení pravděpodobnosti jsou asymetrická. Tradiční testy 3 a více skupin jsou dvoustranné.

Rady týkající se používání jednostranných hypotéz byly nekonzistentní a uznávaná praxe se v různých oblastech liší. Největší námitkou vůči jednostranným hypotézám je jejich potenciální subjektivita. Nevýznamný výsledek může být někdy převeden na významný výsledek použitím jednostranné hypotézy (jako test férových coinů, z rozmaru analytika). Odvrácená strana argumentu: Jednostranné testy méně pravděpodobně ignorují skutečný efekt. Jednostranné testy mohou potlačit publikování dat, která se ve znamení liší od předpovědí. Objektivita byla cílem vývojářů statistických testů.

Je běžnou praxí používat ve výchozím nastavení jednostrannou hypotézu. „Pokud však předem nemáte pevně v mysli konkrétní směr, použijte oboustrannou alternativu. Někteří uživatelé statistik navíc tvrdí, že bychom vždy měli pracovat s oboustrannou alternativou.“

Jednou alternativou k této radě je použít testy se třemi výstupy. Eliminuje problémy se směrovostí hypotéz tak, že dvakrát testuje, jednou v každém směru a kombinuje výsledky tak, aby vznikly tři možné výsledky. Variace na tento přístup mají historii, od roku 1950 byly navrženy snad 10krát.

Neshody ohledně jednostranných testů plynou z filozofie vědy. Zatímco Fisher byl ochoten ignorovat nepravděpodobný případ Paní, která nesprávně hádala všechny šálky čaje (což mohlo být vhodné pro dané okolnosti), medicína se domnívá, že navrhovaná léčba, která zabíjí pacienty, je významná v každém smyslu a měla by být hlášena a možná vysvětlena . Špatné postupy statistického vykazování přispěly k neshodám ohledně jednostranných testů. Statistická významnost vyplývající z dvoustranných testů je necitlivá na znak vztahu; Pouze vykazování významu je neadekvátní. „Léčba má účinek“ je neinformativní výsledek dvoustranného testu. „Léčba má příznivý účinek“ je více informativní výsledek jednostranného testu. „Léčba má účinek, zkrácení průměrné délky hospitalizace o 1,5 dne“ je nejinformativnější zprávou, která kombinuje výsledek dvoustranného testu významnosti s numerickým odhadem vztahu mezi léčbou a účinkem. Výslovné vykazování číselného výsledku eliminuje filozofickou výhodu jednostranného testu. Základním problémem je vhodná forma experimentální vědy bez numerických prediktivních teorií: model numerických výsledků je více informativní než model efektových znaků (pozitivní, negativní nebo neznámý), který je více informativní než model jednoduchého významu (ne nula nebo neznámá); při absenci numerické teorie mohou stačit znaky.

Historie statistických testů

Historie nulových a alternativních hypotéz je zakotvena v historii statistických testů.

  • Před rokem 1925: Existují příležitostné přechodné stopy statistických testů po staletí v minulosti, které poskytují rané příklady nulových hypotéz. Na konci 19. století byla definována statistická významnost. Na počátku 20. století byla definována důležitá rozdělení pravděpodobnosti . Gossett a Pearson pracovali na konkrétních případech testování významnosti.
  • 1925: Fisher publikoval první vydání statistických metod pro výzkumné pracovníky, které definovalo test statistické významnosti a učinilo z něj hlavní analytickou metodu pro velkou část experimentální vědy. Text byl prostý důkazů a slabý na vysvětlení, ale byl plný skutečných příkladů. Umisťovalo statistickou praxi ve vědách v dostatečném předstihu před publikovanou statistickou teorií.
  • 1933: V sérii prací (publikovaných více než deset let počínaje rokem 1928) definovali Neyman & Pearson test statistických hypotéz jako navrhované vylepšení Fisherova testu. Příspěvky poskytly velkou část terminologie pro statistické testy, včetně alternativní hypotézy a H 0 jako hypotézy, která má být testována pomocí pozorovacích dat ( jako alternativy H 1 , H 2 ...). Neyman v pozdějších spisech o své metodě nepoužíval termín nulová hypotéza.
  • 1935: Fisher vydal první vydání knihy The Design of Experiments, která zavedla nulovou hypotézu (spíše příkladem než definicí) a pečlivě vysvětlila odůvodnění testů významnosti v kontextu interpretace experimentálních výsledků; viz Návrh experimentů#Citáty týkající se nulové hypotézy .
  • Následující: Fisher a Neyman se hádali kvůli relativním přednostem jejich konkurenčních formulací až do Fisherovy smrti v roce 1962. Změny v kariéře a druhá světová válka ukončila partnerství Neymana a Pearsona. Formulace byly sloučeny relativně anonymními autory učebnic, experimentátory (redaktoři časopisů) a matematickými statistiky bez vstupů od ředitelů. Předmět dnes kombinuje velkou část terminologie a vysvětlující síly Neyman & Pearson s vědeckou filozofií a výpočty poskytnutými Fisherem. Zda je statistické testování správně jedním nebo dvěma subjekty, zůstává zdrojem neshody. Ukázka dvou: Jeden text odkazuje na předmět jako testování hypotéz (bez zmínky o testování významnosti v indexu), zatímco jiný říká o testování významnosti (s částí o odvozování jako o rozhodnutí). Fisher vyvinul testování významnosti jako flexibilní nástroj pro výzkumníky, aby zvážili své důkazy. Místo toho se testování stalo institucionalizovaným. Statistický význam se stal přísně definovaným a vynuceným kritériem pro publikování experimentálních výsledků v mnoha vědeckých časopisech. V některých oblastech se testování významnosti stalo dominantní a téměř exkluzivní formou statistické analýzy. V důsledku toho byla omezení testů vyčerpávajícím způsobem prostudována. Knihy byly naplněny shromážděnou kritikou testování významnosti .

Viz také

Reference

Další čtení

  • Adèr, HJ ; Mellenbergh, GJ & Hand, DJ (2007). Poradenství ve výzkumných metodách: Společník konzultanta . Huizen, Nizozemsko: Johannes van Kessel Publishing. ISBN 978-90-79418-01-5.
  • Efron, B. (2004). „Simultánní testování hypotéz ve velkém měřítku“. Journal of the American Statistical Association . 99 (465): 96–104. doi : 10,1198/01621450400000008989 . Aplikace testování významnosti v tomto příspěvku je mimořádná. Testy k nalezení nulové hypotézy? Nesnažíte se ukázat význam, ale najít zajímavé případy?
  • Rice, William R .; Gaines, Steven D. (červen 1994). „ Hlavy vyhrávám, ocasy ztrácíte “: testování směrových alternativních hypotéz v ekologickém a evolučním výzkumu“. STROM . 9 (6): 235–237. doi : 10,1016/0169-5347 (94) 90258-5 . PMID  21236837 . Řízené testy kombinují atributy jednostranných a oboustranných testů. „... směrované testy by měly být použity prakticky ve všech aplikacích, kde byly dříve použity jednostranné testy, s výjimkou případů, kdy se data mohou odchylovat pouze od H 0 , v jednom směru.“

externí odkazy