Chyby typu I a typu II - Type I and type II errors

Při testování statistických hypotéz je chybou typu I mylné odmítnutí nulové hypotézy (známé také jako „falešně pozitivní“ nález nebo závěr; příklad: „odsouzen nevinný člověk“), zatímco chyba typu IIje mylné přijetí nulové hypotézy (známé také jako „falešně negativní“ zjištění nebo závěr; příklad: „vinný člověk není odsouzen“). Velká část statistické teorie se točí kolem minimalizace jedné nebo obou těchto chyb, ačkoli úplné odstranění obou je statistickou nemožností, pokud výsledek není určen známým, pozorovatelným kauzálním procesem. Výběrem nízké prahové hodnoty (cut-off) a úpravou hladiny alfa (p) lze zvýšit kvalitu testu hypotéz. Znalosti chyb typu I a chyb typu II jsou široce využívány v lékařské vědě , biometrii a informatice .

Intuitivně lze chyby typu I považovat za chyby provize , tj. Výzkumník nešťastně dochází k závěru, že něco je skutečnost. Zvažte například studii, kde vědci porovnávají lék s placebem. Pokud se pacienti, kterým je podáván lék, náhodou zlepšili než pacienti, kterým bylo podáno placebo, může se zdát, že lék je účinný, ale ve skutečnosti je závěr nesprávný. Naopak chyby typu II jsou chyby opomenutí . Ve výše uvedeném příkladu, pokud by se pacienti, kteří dostali lék, nezlepšili ve vyšší míře než ti, kteří dostali placebo, ale toto byla náhodná náhoda, byla by to chyba typu II. Důsledek chyby typu II závisí na velikosti a směru zmeškaného stanovení a okolnostech. Drahý lék na jednoho z milionu pacientů může být bezvýznamný, i když je to skutečně lék.

Definice

Statistické pozadí

V teorii statistických testů je pojem statistická chyba nedílnou součástí testování hypotéz . Test pokračuje výběrem dvou konkurenčních tvrzení nazývaných nulová hypotéza , označená H 0 a alternativní hypotéza , označená H 1 . To je koncepčně podobné rozsudku v soudním procesu. Nulová hypotéza odpovídá postavení obžalovaného: stejně jako se o něm předpokládá, že je nevinný, dokud se neprokáže jeho vina, tak se předpokládá, že nulová hypotéza je pravdivá, dokud údaje neposkytnou přesvědčivý důkaz proti ní. Alternativní hypotéza odpovídá postoji vůči obžalovanému. Konkrétně nulová hypotéza také zahrnuje absenci rozdílu nebo absenci asociace. Nulová hypotéza tedy nikdy nemůže být, že existuje rozdíl nebo asociace.

Pokud výsledek testu odpovídá realitě, bylo učiněno správné rozhodnutí. Pokud však výsledek testu neodpovídá realitě, pak došlo k chybě. Existují dvě situace, kdy je rozhodnutí špatné. Nulová hypotéza může být pravdivá, zatímco H 0 odmítáme . Na druhou stranu alternativní hypotéza H 1 může být pravdivá, zatímco H 0 neodmítáme . Rozlišují se dva typy chyb: Chyba typu I a chyba typu II.

Chyba typu I.

Prvním druhem chyby je mylné odmítnutí nulové hypotézy jako výsledku testovacího postupu. Tento druh chyby se nazývá chyba typu I (falešně pozitivní) a někdy se nazývá chyba prvního druhu.

Pokud jde o příklad soudní síně, chyba typu I odpovídá odsouzení nevinného obžalovaného.

Chyba typu II

Druhým druhem chyby je mylné přijetí nulové hypotézy jako výsledku testovacího postupu. Tento druh chyby se nazývá chyba typu II (falešně negativní) a je také označován jako chyba druhého druhu.

Pokud jde o příklad soudní síně, chyba typu II odpovídá osvobození zločince.

Míra chyb crossoveru

Míra křížové chyby (CER) je bod, ve kterém jsou chyby typu I a chyby typu II stejné a představuje nejlepší způsob měření účinnosti biometrie. Systém s nižší hodnotou CER poskytuje větší přesnost než systém s vyšší hodnotou CER.

Falešně pozitivní a falešně negativní

Další informace naleznete v části: Falešně pozitivní a falešně negativní

Pokud jde o falešně pozitivní a falešně negativní výsledky, pozitivní výsledek odpovídá zamítnutí nulové hypotézy, zatímco negativní výsledek odpovídá neodmítnutí nulové hypotézy; „nepravda“ znamená, že vyvozený závěr je nesprávný. Chyba typu I je tedy falešně pozitivní a chyba typu II je falešně negativní.

Tabulka typů chyb

Tabulkové vztahy mezi pravdivostí/nepravdivostí nulové hypotézy a výsledky testu:

 Tabulka typů chyb
Nulová hypotéza ( H 0 ) je
 
Skutečný Nepravdivé
Rozhodnutí
o nulové
hypotéze ( H 0 )
Nenechte
odmítnout

Správný závěr
(true negative)

(pravděpodobnost = 1− α )

Chyba typu II
(falešně negativní)
(pravděpodobnost = β
Odmítnout Chyba typu I
(falešně pozitivní)
(pravděpodobnost = α

Správný závěr
(skutečně pozitivní)

(pravděpodobnost = 1− β )
 

Míra chyb

Výsledky získané z negativního vzorku (levá křivka) se překrývají s výsledky získanými z pozitivních vzorků (pravá křivka). Posunutím mezní hodnoty výsledku (svislý pruh) lze snížit míru falešně pozitivních výsledků (FP), a to za cenu zvýšení počtu falešných negativů (FN) nebo naopak. (TP = skutečná pozitiva, TN = skutečná negativa)

Dokonalý test by měl nula falešných poplachů a nula falešných negativů. Statistické metody jsou však pravděpodobnostní a nelze určit, zda jsou statistické závěry správné. Kdykoli existuje nejistota, existuje možnost chyby. Vzhledem k této povaze vědy o statistice mají všechny testy statistických hypotéz pravděpodobnost chyb typu I a typu II.

  • Míra chyb nebo typ významnosti typu I je pravděpodobnost odmítnutí nulové hypotézy za předpokladu, že je pravdivá. Označuje se řeckým písmenem α (alfa) a také se mu říká hladina alfa. Hladina významnosti je obvykle nastavena na 0,05 (5%), což znamená, že je přijatelné mít 5% pravděpodobnost nesprávného odmítnutí skutečné nulové hypotézy.
  • Míra chyby typu II je označena řeckým písmenem β (beta) a souvisí se silou testu , která se rovná 1 − β.

Tyto dva typy chyb se vzájemně obchodují: pro jakýkoli daný soubor vzorků má snaha omezit jeden typ chyby obecně za následek zvýšení druhého typu chyb.

Kvalita testu hypotéz

Stejná myšlenka může být vyjádřena z hlediska míry správných výsledků, a proto použita k minimalizaci chybovosti a zlepšení kvality testu hypotéz. Aby se snížila pravděpodobnost spáchání chyby typu I, je zpřísnění hodnoty alfa (p) poměrně jednoduché a efektivní. Aby se snížila pravděpodobnost spáchání chyby typu II, která je úzce spojena s výkonem analýz, může buď zvýšení velikosti vzorku v testu, nebo uvolnění hladiny alfa zvýšit výkon analýz. Statistika testu je robustní, pokud je kontrolována míra chyb typu I.

Různé různé prahové (mezní) hodnoty by mohly být také použity k tomu, aby byl test konkrétnější nebo citlivější, což zase zvyšuje kvalitu testu. Představte si například lékařský test, ve kterém by experimentátor mohl změřit koncentraci určitého proteinu ve vzorku krve. Experimenter by mohl upravit prahovou hodnotu (černá svislá čára na obrázku) a lidem by byla diagnostikována choroba, pokud by bylo detekováno jakékoli číslo nad touto určitou prahovou hodnotou. Podle obrázku by změna prahu měla za následek změny falešně pozitivních a falešných negativů, odpovídající pohybu na křivce.

Příklad

Protože ve skutečném experimentu není možné vyhnout se všem chybám typu I a typu II, je důležité vzít v úvahu míru rizika, které je člověk ochoten podstoupit, aby falešně odmítl H 0 nebo přijal H 0 . Řešením této otázky by bylo nahlásit p-hodnotu nebo hladinu významnosti α statistiky. Pokud je například p-hodnota statistického výsledku testu odhadnuta na 0,0596, pak je pravděpodobnost 5,96%, že falešně odmítneme H 0 . Nebo, pokud řekneme, statistika se provádí na úrovni α, jako 0,05, pak dovolíme falešně odmítnout H 0 na 5%. Úroveň významnosti α 0,05 je poměrně běžná, ale neexistuje obecné pravidlo, které by vyhovovalo všem scénářům.

Měření rychlosti vozidla

Rychlostní limit dálnice ve Spojených státech je 120 kilometrů za hodinu. Zařízení je nastaveno na měření rychlosti projíždějících vozidel. Předpokládejme, že zařízení provede tři měření rychlosti projíždějícího vozidla a zaznamená jako náhodný vzorek X 1 , X 2 , X 3 . Dopravní policie bude nebo nebude pokutovat řidiče v závislosti na průměrné rychlosti . To znamená statistika testu

Kromě toho předpokládáme, že měření X 1 , X 2 , X 3 jsou modelována jako normální rozdělení N (μ, 4). Pak by mělo následovat N (μ, 4/3) a parametr μ představuje skutečnou rychlost projíždějícího vozidla. V tomto experimentu by měla být nulová hypotéza H 0 a alternativní hypotéza H 1

H 0 : μ = 120 proti H 1 : μ 1 > 120.

Pokud provedeme statistickou úroveň na α = 0,05, měla by být pro vyřešení vypočítána kritická hodnota c

Podle pravidla pro změnu jednotek pro normální rozdělení. S odkazem na Z-tabulku můžeme získat

Tady kritická oblast. To znamená, že pokud je zaznamenaná rychlost vozidla vyšší než kritická hodnota 121,9, bude řidiči uložena pokuta. Stále je však 5% řidičů falešně pokutováno, protože zaznamenaná průměrná rychlost je vyšší než 121,9, ale skutečná rychlost nepřekročí 120, což je chyba typu I.

Chyba typu II odpovídá případu, že skutečná rychlost vozidla je přes 120 kilometrů za hodinu, ale řidič není pokutován. Pokud například skutečná rychlost vozidla μ = 125, pravděpodobnost, že řidič nedostane pokutu, lze vypočítat jako

což znamená, že pokud je skutečná rychlost vozidla 125, má pohon pravděpodobnost 0,36%, aby se vyhnul pokutě, když se statistika provádí na úrovni 125, protože zaznamenaná průměrná rychlost je nižší než 121,9. Pokud je skutečná rychlost blíže k 121,9 než 125, pak bude také vyšší pravděpodobnost vyhýbání se pokutě.

Rovněž je třeba zvážit kompromisy mezi chybou typu I a chybou typu II. To znamená, že v tomto případě, pokud dopravní policie nechce falešně pokutovat nevinné řidiče, lze úroveň α nastavit na menší hodnotu, například 0,01. Pokud by tomu tak bylo, pokutě by se pravděpodobně vyhnulo více řidičů, jejichž skutečná rychlost je přes 120 kilometrů za hodinu, například 125.

Etymologie

V roce 1928 Jerzy Neyman (1894–1981) a Egon Pearson (1895–1980), oba významní statistici, diskutovali o problémech spojených s „rozhodováním, zda určitý vzorek může být posouzen jako pravděpodobný náhodný výběr z určité populace. ": a, jak poznamenal Florence Nightingale David ," je nutné pamatovat na to, že adjektivum 'náhodný' [v pojmu 'náhodný vzorek'] by se mělo vztahovat na způsob kreslení vzorku, a ne na samotný vzorek ".

Identifikovali „dva zdroje chyb“, konkrétně:

a) chyba odmítnutí hypotézy, která neměla být zamítnuta, a
b) chyba v tom, že se neodmítne hypotéza, která měla být zamítnuta.

V roce 1930 rozpracovali tyto dva zdroje chyb a poznamenali, že:

... při testování hypotéz je třeba mít na paměti dvě úvahy, musíme být schopni snížit šanci na odmítnutí pravdivé hypotézy na tak nízkou hodnotu, jak je požadováno; test musí být navržen tak, aby odmítl testovanou hypotézu, pokud je pravděpodobně nepravdivý.

V roce 1933 poznamenali, že tyto „problémy jsou zřídka prezentovány v takové formě, abychom mohli s jistotou rozlišovat mezi pravdivou a nepravdivou hypotézou“. Rovněž poznamenali, že při rozhodování, zda odmítnout nebo odmítnout konkrétní hypotézu mezi „sadou alternativních hypotéz“, H 1 , H 2 ..., bylo snadné udělat chybu:

... [a] tyto chyby budou dvojího druhu:

(I) odmítáme H 0 [tj. Hypotézu, která má být testována], pokud je pravdivá,
(II) nedokážeme odmítnout H 0, když je pravdivá nějaká alternativní hypotéza H A nebo H 1 . (Pro alternativu existují různé zápisy).

Ve všech dokumentech, které napsali spolu Neyman a Pearson, výraz H 0 vždy znamená „hypotézu, kterou je třeba testovat“.

Ve stejném dokumentu nazývají tyto dva zdroje chyb, chyby typu I a chyby typu II.

Související pojmy

Nulová hypotéza

Je standardní praxí, že statistici provádějí testy , aby určili, zda lze podpořit „ spekulativní hypotézu “ týkající se pozorovaných jevů světa (nebo jeho obyvatel). Výsledky takového testování určují, zda konkrétní sada výsledků přiměřeně souhlasí (nebo nesouhlasí) se spekulovanou hypotézou.

Na základě toho, že se vždy statistickou konvencí předpokládá , že spekulovaná hypotéza je špatná, a takzvaná „ nulová hypotéza “, že pozorované jevy se vyskytují jednoduše náhodou (a že v důsledku toho spekulovaný agent nemá účinek) - test určí, zda je tato hypotéza správná nebo špatná. To je důvod, proč se testovaná hypotéza často nazývá nulová hypotéza (s největší pravděpodobností ji vytvořil Fisher (1935, s. 19)), protože právě tato hypotéza má být testem buď anulována, nebo nikoli . Když je nulová hypotéza anulována, je možné dojít k závěru, že data podporují „ alternativní hypotézu “ (což je původní spekulovaná hypotéza ).

Důsledná aplikace statistiků na Neymanovu a Pearsonovu konvenci reprezentace „ hypotézy, která má být testována “ (nebo „ hypotéza, která má být zrušena “) s výrazem H 0 , vedla k okolnostem, kde mnozí chápou termín „ nulová hypotéza “ jako význam. „ nil hypotéza “ - prohlášení, že výsledky v otázce vznikly díky náhodě. Není tomu tak nutně - podle Fishera (1966) je klíčovým omezením to, že „ nulová hypotéza musí být přesná, bez vágností a nejednoznačností, protože musí poskytnout základ„ problému distribuce “. jehož testem významnosti je řešení. “V důsledku toho je v experimentální vědě nulová hypotéza obecně tvrzením, že konkrétní léčba nemá žádný účinek ; v observační vědě jde o to, že neexistuje žádný rozdíl mezi hodnotou konkrétní měřené proměnné a hodnotou experimentální predikce.

Statistický význam

Pokud je pravděpodobnost získání výsledku tak extrémního, jaký byl získán za předpokladu, že nulová hypotéza byla pravdivá, nižší než předem stanovená mezní pravděpodobnost (například 5%), pak je výsledek považován za statisticky významný a nulová hypotéza je zamítnuta.

Britský statistik Sir Ronald Aylmer Fisher (1890–1962) zdůraznil, že „nulová hypotéza“:

... není nikdy prokázán ani prokázán, ale je možná vyvrácen v průběhu experimentování. O každém experimentu lze říci, že existuje pouze proto, aby měla fakta šanci vyvrátit nulovou hypotézu.

-  Fisher, 1935, s. 19

Aplikační domény

Lék

V lékařské praxi jsou rozdíly mezi aplikacemi screeningu a testování značné.

Lékařské vyšetření

Screening zahrnuje relativně levné testy, které jsou prováděny velkým populacím, z nichž žádný nevykazuje žádnou klinickou indikaci onemocnění (např. Pap stěr ).

Testování zahrnuje mnohem dražší, často invazivní postupy, které jsou poskytovány pouze těm, kteří projevují nějakou klinickou indikaci onemocnění, a nejčastěji se používají k potvrzení podezření na diagnózu.

Například většina států v USA mimo jiné vyžaduje vrozené vyšetření na fenylketonurii a hypotyreózu .

Hypotéza: „Novorozenci mají fenylketonurii a hypotyreózu“

Nulová hypotéza (H 0 ): „Novorozenci nemají fenylketonurii a hypotyreózu,“

Chyba typu I (falešně pozitivní): Pravdou je, že novorozenci nemají fenylketonurii a hypotyreózu, ale podle údajů se domníváme, že mají poruchy.

Chyba typu II (falešně negativní): Skutečným faktem je, že novorozenci mají fenylketonurii a hypotyreózu, ale domníváme se, že podle údajů nemají poruchy.

Přestože vykazují vysokou míru falešně pozitivních výsledků, jsou screeningové testy považovány za cenné, protože výrazně zvyšují pravděpodobnost odhalení těchto poruch v mnohem dřívější fázi.

Jednoduché krevní testy používané k vyšetření možných dárců krve na HIV a hepatitidu mají značný podíl falešně pozitivních výsledků; Lékaři však používají mnohem dražší a mnohem přesnější testy, aby zjistili, zda je člověk skutečně infikován některým z těchto virů.

Snad nejvíce diskutovaná falešná pozitiva v lékařském screeningu pocházejí z mamografie skríningu rakoviny prsu . Míra falešně pozitivních mamografů v USA je až 15%, nejvyšší na světě. Jedním z důsledků vysoké míry falešně pozitivních nálezů v USA je, že v jakémkoli desetiletém období dostane polovina vyšetřených amerických žen falešně pozitivní mamograf. Falešně pozitivní mamografie jsou nákladné a v USA se ročně utratí přes 100 milionů dolarů na následné testování a léčbu. Ženám také způsobují nepotřebnou úzkost. V důsledku vysoké míry falešně pozitivních nálezů v USA tento stav nemá až 90–95% žen, které mají pozitivní mamograf. Nejnižší míra na světě je v Nizozemsku, 1%. Nejnižší sazby jsou obecně v severní Evropě, kde jsou mamografické filmy čteny dvakrát a je stanoven vysoký práh pro další testování (vysoký práh snižuje výkon testu).

Ideální screeningový test populace by byl levný, snadno spravovatelný a pokud možno by produkoval nulové falešně negativní výsledky. Takové testy obvykle produkují více falešně pozitivních výsledků, které lze následně vyřešit sofistikovanějším (a nákladnějším) testováním.

Lékařské testování

Falešné negativy a falešně pozitivní výsledky jsou významnými problémy lékařských testů .

Hypotéza: „Pacienti mají specifické onemocnění.“

Nulová hypotéza (H 0 ): „Pacienti nemají konkrétní onemocnění.“

Chyba typu I (falešně pozitivní): „Skutečným faktem je, že pacienti nemají konkrétní onemocnění, ale lékaři podle zpráv ze zkoušek usuzují, že pacienti byli nemocní.“

Falešně pozitivní mohou také způsobit vážné a neintuitivní problémy, když je hledaný stav vzácný, jako při screeningu. Pokud má test hodnotu falešně pozitivního jednoho z deseti tisíc, ale pouze jeden z milionu vzorků (nebo lidí) je skutečně pozitivní, většina pozitiv zjištěných tímto testem bude falešná. Pravděpodobnost, že pozorovaný pozitivní výsledek je falešně pozitivní, lze vypočítat pomocí Bayesovy věty .

Chyba typu II (falešně negativní): „Skutečným faktem je, že nemoc je ve skutečnosti přítomna, ale zprávy z testů poskytují pacientům a lékařům falešně uklidňující zprávu, že nemoc chybí.“

Falešné negativy způsobují závažné a neintuitivní problémy, zvláště když je hledaný stav běžný. Pokud je k testování populace se skutečnou mírou výskytu 70% použit test s pouze falešně negativním výskytem pouze 10%, mnoho negativ detekovaných testem bude falešných.

To někdy vede k nevhodnému nebo neadekvátnímu zacházení jak s pacientem, tak s jeho nemocí. Běžným příkladem je spoléhat se na zátěžové testy srdce pro detekci koronární aterosklerózy, přestože je známo , že zátěžové testy srdce detekují pouze omezení průtoku krve koronární arterií v důsledku pokročilé stenózy .

Biometrie

Biometrické přizpůsobení, jako je rozpoznávání otisků prstů , rozpoznání obličeje nebo oční duhovky , je citlivý na typu I a II chyby.

Hypotéza: „Vstup neidentifikuje někoho ve vyhledávaném seznamu lidí“

Nulová hypotéza: „Vstup identifikuje někoho ve vyhledávaném seznamu lidí“

Chyba typu I.

Chyba typu II (míra falešné shody): „Skutečným faktem je, že tato osoba není někým ve vyhledávaném seznamu, ale systém dospěl k závěru, že tato osoba je někdo, koho podle údajů hledáme.“

Pravděpodobnost chyb typu I se nazývá „falešná míra odmítnutí“ (FRR) nebo falešná neshoda (FNMR), zatímco pravděpodobnost chyb typu II se nazývá „falešná míra přijetí“ (FAR) nebo míra falešné shody ( FMR).

Pokud je systém navržen tak, aby zřídka odpovídal podezřelým, pak pravděpodobnost chyb typu II lze nazvat „ míra falešných poplachů “. Na druhou stranu, pokud se systém používá k validaci (a přijetí je normou), pak FAR je měřítkem zabezpečení systému, zatímco FRR měří úroveň nepohodlí pro uživatele.

Bezpečnostní screening

Hlavní články: detekce výbušnin a detektor kovů

Falešná pozitiva se běžně vyskytují každý den při letištní bezpečnostní prověrce , což jsou nakonec systémy vizuální kontroly . Nainstalované bezpečnostní alarmy mají zabránit vnášení zbraní do letadel; přesto jsou často nastaveni na tak vysokou citlivost, že mnohokrát za den upozorní na drobné předměty, jako jsou klíče, spony na opasku, drobné, mobilní telefony a připínáčky v obuvi.

Zde je hypotéza: „Položka je zbraň.“

Nulová hypotéza: „Položka není zbraň.“

Chyba typu I (falešně pozitivní): „Skutečným faktem je, že položka není zbraní, ale systém stále alarmuje.“

Chyba typu II (falešně negativní) „Skutečným faktem je, že položka je zbraní, ale systém v tuto chvíli mlčí.“

Poměr falešných poplachů (identifikace nevinného cestovatele jako teroristy) ke skutečným pozitivům (detekce potenciálního teroristy) je proto velmi vysoký; a protože téměř každý poplach je falešně pozitivní, je pozitivní prediktivní hodnota těchto screeningových testů velmi nízká.

Relativní cena falešných výsledků určuje pravděpodobnost, že tvůrci testů umožní, aby k těmto událostem došlo. Vzhledem k tomu, že náklady na falešně negativní výsledek jsou v tomto scénáři extrémně vysoké (neodhalení pumy, která byla přenesena do letadla, může mít za následek stovky úmrtí), zatímco náklady na falešně pozitivní výsledek jsou relativně nízké (přiměřeně jednoduchá další kontrola), je nejvhodnější test je test s nízkou statistickou specificitou, ale vysokou statistickou citlivostí (ten, který umožňuje vysokou míru falešně pozitivních výsledků výměnou za minimální falešné negativy).

Počítače

Pojmy falešně pozitivní a falešně negativní mají v oblasti počítačů a počítačových aplikací širokou měnu, včetně počítačové bezpečnosti , filtrování nevyžádané pošty , malwaru , optického rozpoznávání znaků a mnoha dalších.

Například v případě filtrování nevyžádané pošty existuje hypotéza, že zpráva je spam.

Nulová hypotéza: „Zpráva není spam.“

Chyba typu I (falešně pozitivní): „Techniky filtrování nevyžádané pošty nebo blokování nevyžádané pošty nesprávně klasifikují legitimní e -mailovou zprávu jako nevyžádanou poštu a v důsledku toho narušují její doručení.“

Zatímco většina taktik proti spamu může blokovat nebo filtrovat vysoké procento nevyžádaných e-mailů, dělat to bez vytváření výrazných falešně pozitivních výsledků je mnohem náročnější úkol.

Chyba typu II (falešně negativní): „Nevyžádaná pošta není detekována jako nevyžádaná pošta, ale je klasifikována jako nevyžádaná pošta.“ Nízký počet falešných negativů je indikátorem účinnosti filtrování nevyžádané pošty.

Viz také

Reference

Bibliografie

  • Betz, MA & Gabriel, KR , „Chyby typu IV a analýza jednoduchých efektů“, Journal of Educational Statistics , sv. 3, č. 2, (léto 1978), s. 121–144.
  • David, FN, „A Power Function for Tests of Randomness in a Sequence of Alternatives“, Biometrika , sv. 34, č. 3/4, (prosinec 1947), s. 335–339.
  • Fisher, RA, The Design of Experiments , Oliver & Boyd (Edinburgh), 1935.
  • Gambrill, W., „Falešná pozitiva na testy novorozenců na starosti rodičům“, Den zdraví (5. června 2006). [1]
  • Kaiser, HF, „Directional Statistical Decisions“, Psychological Review , sv. 67, č. 3, (květen 1960), s. 160–167.
  • Kimball, AW, „Errors of the Third Kind in Statistical Consulting“, Journal of the American Statistical Association , Vol.52, No.278, (June 1957), pp. 133-142.
  • Lubin, A., „Interpretace významné interakce“, vzdělávací a psychologické měření , sv. 21, č. 4, (zima 1961), s. 807–817.
  • Marascuilo, LA & Levin, JR, „Vhodné post hoc srovnání pro interakci a vnořené hypotézy v analýze návrhů odchylek: Eliminace chyb typu IV“, American Educational Research Journal , sv. 7, č. 3, (květen 1970) ), s. 397–421.
  • Mitroff, II & Featheringham, TR, „O řešení systémových problémů a omylu třetího druhu“, Behavioral Science , sv. 19, č. 6 (listopad 1974), s. 383–393.
  • Mosteller, F., „A K -Sample Slippage Test for an Extreme Population“, The Annals of Mathematical Statistics , Vol.19, No.1, (March 1948), pp. 58–65.
  • Moulton, RT, „Network Security“, Datamation , Vol.29, No.7, (červenec 1983), str. 121-127.
  • Raiffa, H., Analýza rozhodnutí: Úvodní přednášky o volbách pod nejistotou , Addison – Wesley, (Reading), 1968.

externí odkazy