p -hodnota - p-value

V null testování hypotéz významnosti je p -hodnota je pravděpodobnost získání výsledků zkoušky alespoň tak extrémní jako výsledky skutečně pozorovaný účinek , za předpokladu, že nulová hypotéza je správná. Velmi malá hodnota p znamená, že takový extrémní pozorovaný výsledek by byl při nulové hypotéze velmi nepravděpodobný. Hlášení p -hodnot statistických testů je běžnou praxí v akademických publikacích mnoha kvantitativních oborů. Vzhledem k tomu, že přesný význam hodnoty p je těžké pochopit, je zneužívání rozšířené a je hlavním tématem metascience .

Základní pojmy

Ve statistikách se každá domněnka týkající se neznámého rozdělení pravděpodobnosti souboru náhodných proměnných představujících pozorovaná data v nějaké studii nazývá statistická hypotéza . Pokud uvedeme pouze jednu hypotézu a cílem statistického testu je zjistit, zda je tato hypotéza udržitelná, ale nezkoumat jiné konkrétní hypotézy, pak se takový test nazývá test nulové hypotézy .

Protože naše statistická hypotéza bude z definice uvádět nějakou vlastnost rozdělení, nulová hypotéza je výchozí hypotéza, za které tato vlastnost neexistuje. Nulová hypotéza obvykle spočívá v tom, že nějaký parametr (například korelace nebo rozdíl mezi průměrem) v zájmových populacích je nulový. Naše hypotéza může přesně specifikovat rozdělení pravděpodobnosti nebo může pouze specifikovat, že patří do nějaké třídy distribucí. Data často redukujeme na jedinou číselnou statistiku, např. Jejíž okrajové rozdělení pravděpodobnosti je úzce spojeno s hlavní otázkou zájmu o studii.

Hodnota p se používá v kontextu testování nulové hypotézy za účelem kvantifikace statistické významnosti výsledku, přičemž výsledkem je pozorovaná hodnota zvolené statistiky . Čím nižší je hodnota p , tím nižší je pravděpodobnost získání tohoto výsledku, pokud by byla nulová hypotéza pravdivá. Výsledek je údajně statisticky významný, pokud nám umožňuje odmítnout nulovou hypotézu. Všechny ostatní věci jsou stejné, menší hodnoty p jsou brány jako silnější důkaz proti nulové hypotéze

Volně řečeno, odmítnutí nulové hypotézy znamená, že proti ní existují dostatečné důkazy.

Jako konkrétní příklad, pokud nulová hypotéza uvádí, že určitá souhrnná statistika sleduje standardní normální rozdělení N (0,1), pak by odmítnutí této nulové hypotézy mohlo znamenat, že (i) průměr není 0, nebo (ii ) Tento rozptyl z není 1, nebo (iii) není normální rozdělení. Různé testy stejné nulové hypotézy by byly více či méně citlivé na různé alternativy. Nicméně i když se nám podaří odmítnout nulovou hypotézu pro všechny 3 alternativy, a i když víme, že rozdělení je normální a rozptyl je 1, test nulové hypotézy nám neřekne, které nenulové hodnoty průměru jsou nyní nejvíce přijatelný. Čím více nezávislých pozorování ze stejného rozdělení pravděpodobnosti má, tím přesnější bude test a tím vyšší je přesnost, s jakou bude možné určit střední hodnotu a ukázat, že není rovná nule; ale tím se také zvýší důležitost hodnocení reálného nebo vědeckého významu této odchylky.

Definice a interpretace

Všeobecné

P-hodnota při testování statistické významnosti. Svg

Zvažte pozorovanou statistiku testu z neznámé distribuce . Pak hodnota p je taková, jaká by byla předchozí pravděpodobnost pozorování hodnoty statistiky testu alespoň tak „extrémní“, jako kdyby byla pravdivá nulová hypotéza . To je:

  • pro jednostranný test pravého ocasu,
  • pro jednostranný test levého ocasu,
  • pro oboustranný test. Pokud je rozdělení symetrické přibližně na nulu, pak

Pokud je hodnota p velmi malá, pak je buď nulová hypotéza falešná, nebo došlo k něčemu nepravděpodobnému. Ve formálním testu významnosti je nulová hypotéza odmítnuta, pokud je hodnota p menší než předem definovaná prahová hodnota , která se označuje jako hladina alfa nebo hladina významnosti . Hodnota je místo toho nastavena výzkumníkem před zkoumáním dat. definuje podíl distribuce, to znamená, že definuje tak úzký rozsah všech možných výsledků, že pokud je hodnota v tomto rozsahu, její hodnota je nepravděpodobná, že k ní došlo náhodou. Intuitivně to znamená, že pokud je nastaveno na 0,10, pouze 1/10 distribuce je definováno , takže pokud spadá do tohoto rozsahu, již se vyskytuje v řadě výsledků, které se vyskytují vzácně 1/10 času, což naznačuje, že je nepravděpodobné, že k tomu dojde náhodně. Podle konvence je běžně nastaven na 0,05, i když se někdy používají nižší hladiny alfa. Je však důležité mít na paměti řadu faktorů - například rozptylu, měření chyb, specifikační chyby, problémy vícenásobná porovnávání, atd .-- může znamenat, že právě proto, že je v rozmezí stanoveném že se nebude automaticky znamenat překvapující hodnotu z je ve skutečnosti statisticky významné.

Hodnota p je funkcí zvolené statistiky testu, a je tedy náhodnou proměnnou . Pokud nulová hypotéza přesně stanoví rozdělení pravděpodobnosti a pokud je toto rozdělení spojité, pak když je nulová hypotéza pravdivá, je hodnota p rovnoměrně rozložena mezi 0 a 1. Hodnota p tedy není pevná. Pokud se stejný test opakuje nezávisle s novými daty (vždy se stejným rozdělením pravděpodobnosti), získá se v každé iteraci jiná hodnota p . Pokud je nulová hypotéza složená nebo rozdělení statistiky je diskrétní, pravděpodobnost získání hodnoty p menší nebo rovné jakémukoli číslu mezi 0 a 1 je menší nebo rovna tomuto číslu, pokud je nulová hypotéza je pravda. Stále platí, že velmi malé hodnoty jsou relativně nepravděpodobné, pokud je nulová hypotéza pravdivá, a že test významnosti na úrovni se získá odmítnutím nulové hypotézy, pokud je hladina významnosti menší nebo rovna .

Různé hodnoty p založené na nezávislých souborech dat lze kombinovat, například pomocí Fisherova kombinovaného testu pravděpodobnosti .

Rozdělení

Když je nulová hypotéza platí, je-li formu , a podkladové náhodná proměnná je kontinuální, pak je rozdělení pravděpodobnosti z p -hodnota je jednotná v intervalu [0,1]. Naopak, pokud je alternativní hypotéza pravdivá, distribuce závisí na velikosti vzorku a skutečné hodnotě studovaného parametru.

Distribuce hodnot p pro skupinu studií se někdy nazývá p -křivka. P -curve může být použit k posouzení spolehlivosti vědecké literatuře, například pomocí detekce publikační zaujatost nebo p -hacking .

Pro kompozitní hypotézu

V problémech testování parametrických hypotéz jednoduchá nebo bodová hypotéza odkazuje na hypotézu, kde se hodnota parametru považuje za jediné číslo. Naproti tomu v kompozitní hypotéze je hodnota parametru dána množinou čísel. Například při testování nulové hypotézy, že rozdělení je normální s průměrem menším nebo rovným nule oproti alternativě, že průměr je větší než nula (známá odchylka), nulová hypotéza neurčuje rozdělení pravděpodobnosti příslušného testu statistický. V právě uvedeném příkladu by to byla Z -statistika patřící k jednostrannému jednostrannému Z -testu. Pro každou možnou hodnotu teoretického průměru má statistika Z -testu jiné rozdělení pravděpodobnosti. Za těchto okolností (případ takzvané kompozitní nulové hypotézy) je p -hodnota definována přijetím nejméně příznivého případu nulové hypotézy, který je obvykle na hranici mezi nulou a alternativou.

Tato definice zajišťuje komplementaritu hodnot p a hladin alfa. Pokud nastavíme hladinu významnosti alfa na 0,05 a odmítneme pouze nulovou hypotézu, pokud je hodnota p menší nebo rovna 0,05, pak náš test hypotézy bude mít skutečně úroveň významnosti (maximální chybovost typu 1) 0,05. Jak napsal Neyman: „Chybě, které by praktikující statistik považoval za důležitější, aby se jí vyhnul (což je subjektivní úsudek), se říká chyba prvního druhu. Prvním požadavkem matematické teorie je odvodit taková testovací kritéria, která by zajistila, že pravděpodobnost spáchání chyby prvního druhu by byla stejná (nebo přibližně stejná nebo nepřekročila) předem přiřazené číslo α, například α = 0,05 nebo 0,01 atd. Toto číslo se nazývá úroveň významnosti “; Neyman 1976, s. 161 v „The Emergence of Mathematical Statistics: A Historical Sketch with Particular Reference to the United States“, „On the History of Statistics and Probability“, ed. DB Owen, New York: Marcel Dekker, s. 149-193. Viz také „Zmatek ohledně míry důkazů (p) versus chyby (a) v klasickém statistickém testování“, Raymond Hubbard a MJ Bayarri, The American Statistician, srpen 2003, sv. 57, č. 3, 171--182 (s diskusí). Stručné moderní tvrzení najdete v kapitole 10 „Všechny statistiky: Stručný kurz statistických závěrů“, Springer; 1. opravené vyd. 20. vydání (17. září 2004). Larry Wasserman.

Používání

Hodnota p je široce používána při testování statistických hypotéz , konkrétně při testování významnosti nulových hypotéz. V této metodě, jako součást experimentálního návrhu , před provedením experimentu si člověk nejprve vybere model ( nulová hypotéza ) a prahovou hodnotu pro p , nazývanou hladina významnosti testu, tradičně 5% nebo 1% a označená jako α . Pokud je hodnota p menší než zvolená hladina významnosti ( α ), naznačuje to, že pozorovaná data jsou dostatečně nekonzistentní s nulovou hypotézou a že nulovou hypotézu lze odmítnout. To však nedokazuje, že testovaná hypotéza je nepravdivá. Když je hodnota p vypočtena správně, tento test zaručuje, že chybovost typu I je nejvýše α . Pro typickou analýzu s použitím standardního  mezního bodu α = 0,05 je nulová hypotéza odmítnuta, když p ≤ 0,05, a není odmítnuta, když p > 0,05. Hodnota p sama o sobě nepodporuje úvahy o pravděpodobnosti hypotéz, ale je pouze nástrojem pro rozhodování, zda nulovou hypotézu odmítnout.

Zneužít

Podle ASA panuje všeobecná shoda v tom, že hodnoty p jsou často zneužívány a špatně interpretovány. Jedna praxe, která byla zvláště kritizována, je přijetí alternativní hypotézy pro jakoukoli hodnotu p nominálně menší než 0,05 bez dalších podpůrných důkazů. Přestože hodnoty p jsou užitečné při posuzování toho, jak nekompatibilní jsou data se specifikovaným statistickým modelem, je třeba vzít v úvahu také kontextové faktory, jako je „návrh studie, kvalita měření, externí důkaz sledovaného jevu, a platnost předpokladů, které jsou základem analýzy dat “. Další obavou je, že hodnota p je často mylně chápána jako pravděpodobnost, že nulová hypotéza je pravdivá.

Někteří statistici navrhli upustit od hodnot p a zaměřit se více na jiné inferenční statistiky, jako jsou intervaly spolehlivosti , poměr pravděpodobnosti nebo Bayesovy faktory , ale o proveditelnosti těchto alternativ se vede bouřlivá debata. Jiní navrhli odstranit pevné prahy významnosti a interpretovat hodnoty p jako spojité indexy síly důkazů proti nulové hypotéze. Přesto jiní navrhli pod p-hodnotami uvést předchozí pravděpodobnost skutečného účinku, která by byla nutná k získání falešně pozitivního rizika (tj. Pravděpodobnost, že neexistuje žádný skutečný účinek) pod předem stanovenou prahovou hodnotou (např. 5%).

Výpočet

Obvykle se jedná o statistiku testu . Statistika testu je výstupem skalární funkce všech pozorování. Tato statistika poskytuje jediné číslo, například statistiku t nebo F. Statistika testu následuje po rozdělení určeném funkcí použitou k definování této statistiky testu a distribucí vstupních pozorovacích dat.

Pro důležitý případ, ve kterém jsou data předpokládána jako náhodný vzorek z normálního rozdělení, v závislosti na povaze statistiky testu a hypotézách zájmu o jeho rozdělení, byly vyvinuty různé testy nulové hypotézy. Některé takové testy jsou z-test pro hypotézy týkající se průměru normálního rozdělení se známým rozptylem, t-test založený na Studentově t-rozdělení vhodné statistiky pro hypotézy týkající se průměru normálního rozdělení, když je rozptyl neznámý, F-test založený na F-rozdělení o dalším statistiky pro hypotézy o rozptylu. Pro data jiné povahy, například kategorická (diskrétní) data, lze sestavit testovací statistiku, jejíž rozdělení nulové hypotézy je založeno na normálních aproximacích příslušných statistik získaných vyvoláním věty o centrálním limitu pro velké vzorky, jako v případě Pearsonovy chi- čtvercový test .

Výpočet hodnoty p tedy vyžaduje nulovou hypotézu, statistiku testu (společně s rozhodnutím, zda výzkumný pracovník provádí jednostranný test nebo dvoustranný test ) a data. I když může být výpočet statistiky testu na daných datech snadný, výpočet distribuce vzorkování podle nulové hypotézy a potom výpočet její funkce kumulativní distribuce (CDF) je často obtížný problém. V současné době tento výpočet se provádí pomocí statistického softwaru, často pomocí numerických metod (spíše než přesnými vzorci), ale na počátku a v polovině 20. století, to bylo místo toho provedeno pomocí tabulek hodnot, a jeden interpolované nebo extrapolace p -hodnoty z nich diskrétní hodnoty. Místo použití tabulky p -hodnot Fisher místo toho invertoval CDF a zveřejnil seznam hodnot statistiky testu pro daná pevná p -hodnota; to odpovídá výpočtu kvantilové funkce (inverzní CDF).

Příklad

Jako příklad statistického testu, experiment se provádí ke stanovení, zda je mince Flip je reálná (stejná šance zavážecího hlav nebo orel) nebo nepřiměřeně zkreslené (jeden výsledek je pravděpodobnější než druhá).

Předpokládejme, že experimentální výsledky ukazují, že mince obracela hlavy 14krát z 20 celkových otočení. Úplná data by byla sekvence dvacetkrát větší než symbol „H“ nebo „T“. Statistiky, na které by se člověk mohl zaměřit, by mohl být celkový počet hlav. Nulová hypotéza je, že mince je spravedlivá a házení mincí je na sobě nezávislé. Pokud se uvažuje o testu s pravostranným ocasem, což by byl případ, kdyby se člověk skutečně zajímal o možnost, že mince je předpjata směrem k padajícím hlavám, pak p -hodnota tohoto výsledku je šance na spravedlivé přistání mince na hlavách v nejméně 14krát z 20 otočení. Tuto pravděpodobnost lze vypočítat z binomických koeficientů jako

Tato pravděpodobnost je hodnotou p , s přihlédnutím pouze k extrémním výsledkům, které upřednostňují hlavy. Tomu se říká jednostranný test . Někdo by se však mohl zajímat o odchylky v obou směrech, upřednostňovat buď hlavy, nebo ocasy. Místo toho lze vypočítat dvoustrannou hodnotu p , která bere v úvahu odchylky upřednostňující buď hlavy nebo ocasy. Protože binomické rozdělení je u férových mincí symetrické, je oboustranná p -hodnota jednoduše dvojnásobkem výše vypočítané jednostranné p -hodnoty: oboustranná p -hodnota je 0,115.

Ve výše uvedeném příkladu:

  • Nulová hypotéza (H 0 ): Mince je spravedlivá, s Prob (hlavy) = 0,5
  • Statistika testu: Počet hlav
  • Hladina alfa (určený práh významnosti): 0,05
  • Pozorování O: 14 hlav z 20 otočení; a
  • Dvoustranná p -hodnota pozorování O daná H 0 = 2*min (Prob (počet hlav ≥ 14 hlav), Prob (počet hlav ≤ 14 hlav)) = 2*min (0,058, 0,978) = 2 *0,058 = 0,115.

Všimněte si, že Prob (počet hlav ≤ 14 hlav) = 1 - Prob (počet hlav ≥ 14 hlav) + Prob (počet hlav = 14) = 1 - 0,058 + 0,036 = 0,978; symetrie binomického rozdělení však činí zbytečný výpočet pro nalezení menší ze dvou pravděpodobností. Zde vypočtená hodnota p přesahuje 0,05, což znamená, že data spadají do rozsahu toho, co by se stalo 95% případů, kdy by mince byla ve skutečnosti spravedlivá. Nulová hypotéza tedy není na úrovni 0,05 odmítnuta.

Pokud by však byla získána ještě jedna hlava, výsledná hodnota p (dvoustranná) by byla 0,0414 (4,14%), v takovém případě by nulová hypotéza byla odmítnuta na úrovni 0,05.

Dějiny

Výpočty hodnot p se datují do 17. století, kde byly vypočteny pro poměr lidského pohlaví při narození, a byly použity k výpočtu statistické významnosti ve srovnání s nulovou hypotézou stejné pravděpodobnosti narození mužů a žen. John Arbuthnot studoval tuto otázku v roce 1710 a zkoumal záznamy o narození v Londýně pro každý z 82 let od roku 1629 do roku 1710. V každém roce počet mužů narozených v Londýně převyšoval počet žen. Když vezmeme v úvahu více mužských nebo více ženských porodů za stejně pravděpodobné, pravděpodobnost pozorovaného výsledku je 1/2 82 , nebo asi 1 z 4 836 000 000 000 000 000 000 000 000; v moderním slova smyslu hodnota p . To je mizivě malé, což vede Arbuthnota k tomu, že to nebylo kvůli náhodě, ale kvůli božské prozřetelnosti: „Odkud vyplývá, že vládne umění, ne náhoda.“ Moderně řečeno odmítl nulovou hypotézu stejně pravděpodobných porodů mužů a žen na hladině významnosti p  = 1/2 82 . Tato a další práce Arbuthnot je připočítána jako „… první použití testů významnosti…“ první příklad úvah o statistické významnosti a „… možná první publikovaná zpráva neparametrického testu …“, konkrétně znakový test ; podrobnosti viz Zkouškový test § Historie .

Stejnou otázku později řešil Pierre-Simon Laplace , který místo toho použil parametrický test, který modeloval počet narozených mužů s binomickým rozdělením :

V sedmdesátých letech 17. století Laplace zvažoval statistiky téměř půl milionu porodů. Statistiky ukazovaly nadbytek chlapců ve srovnání s dívkami. Výpočtem hodnoty p došel k závěru , že přebytek byl skutečným, ale nevysvětleným efektem.

Hodnota p byla poprvé formálně zavedena Karlem Pearsonem v jeho Pearsonově testu chí-kvadrát pomocí chi-kvadrátové distribuce a označen jako velké P. P- hodnoty pro distribuci chi-kvadrát (pro různé hodnoty χ 2 a stupně volnosti), nyní označované jako P, byly vypočteny v ( Elderton 1902 ), shromážděny v ( Pearson 1914 , s. xxxi – xxxiii, 26–28, tabulka XII) .

Ronald Fisher propagoval použití hodnoty p ve statistikách a hraje zásadní roli v jeho přístupu k tomuto tématu. Ve své vlivné knize Statistické metody pro výzkumné pracovníky (1925) Fisher navrhl jako limit pro statistickou významnost úroveň p = 0,05, neboli šanci 1 k 20 náhodnému překročení , a aplikoval to na normální rozdělení (jako dvoustranný test), čímž se získá pravidlo dvou standardních odchylek (při normálním rozdělení) pro statistickou významnost (viz pravidlo 68–95–99,7 ).

Poté vypočítal tabulku hodnot, podobnou Eldertonovi, ale co je důležité, obrátil role χ 2 a p. To znamená, že spíše než pro výpočet p pro různé hodnoty χ 2 (a stupně volnosti n ) vypočítal hodnoty χ 2, které poskytly určené hodnoty p , konkrétně 0,99, 0,98, 0,95, 0,90, 0,80, 0,70, 0,50. 0,30, 0,20, 0,10, 0,05, 0,02 a 0,01. To umožnilo porovnat vypočtené hodnoty χ 2 s mezními hodnotami a podpořilo použití p -hodnot (zejména 0,05, 0,02 a 0,01) jako mezních hodnot namísto výpočtu a vykazování samotných p -hodnot. Stejný typ tabulek byl poté sestaven v ( Fisher & Yates 1938 ), což upevnilo přístup.

Jako ilustraci aplikace hodnot p na návrh a interpretaci experimentů představil Fisher ve své následující knize The Design of Experiments (1935) The Lady degustační čajový experiment, který je archetypálním příkladem hodnoty p .

Aby bylo možné vyhodnotit tvrzení dámy, že ( Muriel Bristol ) dokázala podle chuti rozlišit, jak se čaj připravuje (nejprve přidání mléka do šálku, pak čaj, nebo nejprve čaj, potom mléko), postupně jí bylo předloženo 8 šálků: 4 připravené jeden způsob, 4 připravili druhý a požádali o určení přípravy každého šálku (s vědomím, že od každého byly 4). V takovém případě byla nulová hypotéza, že neměla žádnou zvláštní schopnost, test byl Fisherův přesný test a hodnota p byla taková, že Fisher byl ochoten odmítnout nulovou hypotézu (výsledek považovat za vysoce nepravděpodobný kvůli náhodě), pokud všichni byli zařazeni správně. (Ve skutečném experimentu Bristol správně zařadil všech 8 šálků.)

Fisher zopakoval práh p = 0,05 a vysvětlil své odůvodnění a uvedl:

Je obvyklé a výhodné, že experimentátoři berou 5 procent jako standardní úroveň významnosti v tom smyslu, že jsou připraveni ignorovat všechny výsledky, které nedosahují tohoto standardu, a tímto způsobem odstranit z další diskuse větší část výkyvů, které náhoda způsobuje, byla zavedena do jejich experimentálních výsledků.

Tuto prahovou hodnotu aplikuje také na návrh experimentů, přičemž poznamenal, že bylo předloženo pouze 6 šálků (3 z nich), dokonalá klasifikace by přinesla pouze hodnotu p, jejíž hodnota by tuto úroveň významnosti nesplnila. Fisher také zdůraznil interpretaci p, protože dlouhodobý podíl hodnot je přinejmenším tak extrémní jako data, za předpokladu, že nulová hypotéza je pravdivá.

V pozdějších vydáních Fisher výslovně porovnával použití hodnoty p pro statistické závěry ve vědě s metodou Neyman – Pearson, kterou označuje jako „akceptační postupy“. Fisher zdůrazňuje, že zatímco pevné úrovně, jako je 5%, 2%a 1%, jsou vhodné, lze použít přesnou hodnotu p a sílu důkazů lze a bude revidovat s dalším experimentováním. Naproti tomu rozhodovací postupy vyžadují jednoznačné rozhodnutí, které vede k nevratnému jednání, a postup je založen na nákladech na chyby, které, jak tvrdí, nejsou použitelné pro vědecký výzkum.

Související množství

Úzce související koncept je E -hodnota , což je očekávaný počet opakování při vícenásobném testování, u nichž se očekává, že získá statistiku testu přinejmenším tak extrémní, jako ta, která byla ve skutečnosti pozorována, pokud předpokládáme, že nulová hypotéza je pravdivá. Hodnota E je součinem počtu testů a hodnoty p .

Q -hodnota je analog p -hodnota, pokud jde o pozitivní falešné zjišťování rychlosti . Používá se při testování více hypotéz k udržení statistické síly při minimalizaci míry falešně pozitivních výsledků .

Viz také

Poznámky

Reference

Další čtení

externí odkazy