Známkový test - Sign test

Znak testu je statistická metoda pro testování konzistentní rozdíly mezi dvojicemi pozorování, jako je například hmotnost subjektů před a po léčbě. Vzhledem k dvojicím pozorování (jako je předlékařská a následná léčba) u každého subjektu, test znaménka určuje, zda má jeden člen dvojice (například předléčba) tendenci být větší než (nebo menší než) druhý člen pár (například následná léčba).

Spárovaná pozorování mohou být označena x a y . Pro srovnání párových pozorování ( x , y) je test znaménka nejužitečnější, pokud lze srovnání vyjádřit pouze jako x > y , x = y nebo x < y . Pokud namísto toho mohou být pozorování vyjádřena jako numerické veličiny ( x = 7, y = 18) nebo jako hodnosti (hodnost x = 1., hodnost y = 8.), pak spárovaný t-test nebo Wilcoxonovo znaménko- test pořadí bude mít obvykle větší sílu než test znaménka k detekci konzistentních rozdílů.

Jestliže X a Y jsou kvantitativní proměnné se znak testu mohou být použity k testování hypotézy , že rozdíl mezi X a Y má nulovou střední hodnotu, za předpokladu, že kontinuální distribuce dvou náhodných proměnných X a Y , v situaci, kdy můžeme čerpat spárovat vzorky z X a Y .

Test znaménka může také otestovat, zda je medián kolekce čísel výrazně větší než nebo menší než zadaná hodnota. Například vzhledem k seznamu známek studentů ve třídě může test známek určit, zda se střední známka významně liší od řekněme 75 ze 100.

Známkový test je neparametrický test, který vytváří jen velmi málo předpokladů o povaze testovaných distribucí - to znamená, že má velmi obecnou použitelnost, ale může postrádat statistickou sílu alternativních testů.

Dvě podmínky pro test znaménka spárovaného vzorku spočívají v tom, že vzorek musí být náhodně vybrán z každé populace a vzorky musí být závislé nebo spárované. Nezávislé vzorky nelze smysluplně spárovat. Protože je test neparametrický, nemusí vzorky pocházet z normálně distribuovaných populací. Test funguje také pro testy s levostranným, pravostranným a dvoustranným testem.

Metoda

Nechť p = Pr ( X > Y ) a poté otestujte nulovou hypotézu H 0 : p = 0,50. Jinými slovy, nulová hypotéza uvádí, že vzhledem k náhodnému páru měření ( x i , y i ) jsou potom x i a y i stejně pravděpodobné, že budou větší než ostatní.

Pro testování nulové hypotézy jsou z populací {( x 1 , y 1 ), ( x 2 , y 2 ), shromážděny nezávislé páry vzorových dat . . ., ( x n , y n )}. Páry jsou vynechány, u nichž není rozdíl, takže existuje možnost zmenšeného vzorku m párů.

Pak nechť W je počet párů, pro které y i  -  x i > 0. Za předpokladu, že H 0 je pravda, pak W následuje binomické rozdělení W ~ b ( m , 0,5).

Předpoklady

Nechť Z i  =  Y i  -  X i pro i  = 1, ...,  n .

  1. Rozdíly Z i se považují za nezávislé.
  2. Každý Z i pochází ze stejného kontinuálního populace.
  3. Hodnoty, které představují X i a Y i, jsou seřazeny (alespoň na řadové stupnici ), takže srovnání „větší než“, „menší než“ a „rovná se“ má smysl.

Testování důležitosti

Protože se očekává, že statistika testu bude sledovat binomické rozdělení , k výpočtu významnosti se použije standardní binomický test . Normální aproximace binomické rozdělení mohou být použity pro velké velikosti vzorku, m > 25.

Hodnota levého ocasu je vypočítána pomocí Pr ( Ww ), což je hodnota p pro alternativní H 1 : p <0,50. Tato alternativa znamená, že měření X bývají vyšší.

Hodnota pravého ocasu je vypočítána pomocí Pr ( Ww ), což je hodnota p pro alternativní H 1 : p > 0,50. Tato alternativa znamená, že měření Y bývají vyšší.

Pro oboustrannou alternativu H 1 je p-hodnota dvakrát menší ocasní hodnota.

Příklad testu oboustranného znaménka pro párové páry

Zar uvádí následující příklad testu znaménka pro párové páry. Data se shromažďují o délce levé zadní nohy a levé přední nohy u 10 jelenů.

Jelen Délka zadní nohy (cm) Délka předních nohou (cm) Rozdíl
1 142 138 +
2 140 136 +
3 144 147 -
4 144 139 +
5 142 143 -
6 146 141 +
7 149 143 +
8 150 145 +
9 142 136 +
10 148 146 +

Nulová hypotéza je, že u jelenů není rozdíl mezi délkou zadní nohy a přední nohy. Alternativní hypotéza je, že existuje rozdíl mezi délkou zadní nohy a délkou přední nohy. Všimněte si, že se jedná o dvoustranný test, nikoli o jednostranný test. U testu se dvěma ocasy je alternativní hypotézou, že délka zadních končetin může být větší nebo menší než délka předních končetin. Jednostranným testem může být to, že délka zadní nohy je větší než délka přední nohy, takže rozdíl může být pouze v jednom směru (větší než).

Existuje n = 10 jelenů. Existuje 8 pozitivních rozdílů a 2 negativní rozdíly. Pokud je pravdivá nulová hypotéza, že neexistuje rozdíl v délce zadních nohou a předních končetin, pak je očekávaný počet pozitivních rozdílů 5 z 10. Jaká je pravděpodobnost, že pozorovaný výsledek 8 pozitivních rozdílů, nebo extrémnější výsledek , došlo by, pokud není rozdíl v délkách nohou?

Protože je test oboustranný, zahrnuje výsledek jako extrémní nebo extrémnější než 8 pozitivních rozdílů výsledky 8, 9 nebo 10 pozitivních rozdílů a výsledky 0, 1 nebo 2 pozitivních rozdílů. Pravděpodobnost 8 nebo více pozitivů mezi 10 jeleny nebo 2 nebo méně pozitivů mezi 10 jeleny je stejná jako pravděpodobnost 8 nebo více hlav nebo 2 nebo méně hlav v 10 hodech spravedlivé mince. Pravděpodobnosti lze vypočítat pomocí binomického testu s pravděpodobností hlav = pravděpodobnost ocasů = 0,5.

  • Pravděpodobnost 0 hlav v 10 otočeních spravedlivé mince = 0,00098
  • Pravděpodobnost 1 hlavy za 10 výhozů spravedlivé mince = 0,00977
  • Pravděpodobnost 2 hlav v 10 otočeních spravedlivé mince = 0,04395
  • Pravděpodobnost 8 hlav v 10 otočeních spravedlivé mince = 0,04395
  • Pravděpodobnost 9 hlav v 10 otočeních spravedlivé mince = 0,00977
  • Pravděpodobnost 10 hlav v 10 otočeních spravedlivé mince = 0,00098

Oboustranná pravděpodobnost výsledku tak extrémního, jako je 8 z 10 kladných rozdílů, je součtem těchto pravděpodobností:

0,00098 + 0,00977 + 0,04395 + 0,04395 + 0,00977 + 0,00098 = 0,109375.

Pravděpodobnost pozorování výsledků tak extrémních jako 8 z 10 pozitivních rozdílů v délkách nohou, pokud tedy není rozdíl v délkách nohou, je tedy p  = 0,109375. Nulová hypotéza není odmítnuta na hladině významnosti p  = 0,05. S větší velikostí vzorku mohou být důkazy dostatečné k odmítnutí nulové hypotézy.

Protože pozorování lze vyjádřit jako numerické veličiny (skutečná délka nohy), bude mít párový t-test nebo Wilcoxonův test se znaménkem obvykle větší sílu než test znaménka k detekci konzistentních rozdílů. V tomto příkladu spárovaný t-test na rozdíly naznačuje, že existuje významný rozdíl mezi délkou zadní nohy a délkou přední nohy ( p  = 0,007).

Pokud by pozorovaným výsledkem bylo 9 pozitivních rozdílů v 10 srovnání, znaménkový test by byl významný. Pouze převrácení mince s 0, 1, 9 nebo 10 hlavami by bylo stejně extrémní nebo extrémnější než pozorovaný výsledek.

  • Pravděpodobnost 0 hlav v 10 otočeních spravedlivé mince = 0,00098
  • Pravděpodobnost 1 hlavy za 10 výhozů spravedlivé mince = 0,00977
  • Pravděpodobnost 9 hlav v 10 otočeních spravedlivé mince = 0,00977
  • Pravděpodobnost 10 hlav v 10 otočeních spravedlivé mince = 0,00098

Pravděpodobnost tak extrémního výsledku jako 9 z 10 kladných rozdílů je součtem těchto pravděpodobností:

0,00098 + 0,00977 + 0,00977 + 0,00098 = 0,0215.

Obecně 8 z 10 pozitivních rozdílů není významných ( p  = 0,11), ale 9 z 10 pozitivních rozdílů je významných ( p  = 0,0215).

Příklad jednostranného testu znaménka pro párové páry

Conover poskytuje následující příklad pomocí testu jednostranného znaménka pro párové páry. Výrobce vyrábí dva produkty, A a B. Výrobce si přeje vědět, zda spotřebitelé upřednostňují produkt B před produktem A. U vzorku 10 spotřebitelů je každý uveden produkt A a produkt B a zeptal se, který produkt preferují.

Nulová hypotéza je, že spotřebitelé nepreferují produkt B před produktem A. Alternativní hypotéza je, že spotřebitelé preferují produkt B před produktem A. Všimněte si, že se jedná o jednostranný (směrový) test.

Na konci studie 8 spotřebitelů upřednostňovalo produkt B, 1 spotřebitel preferoval produkt A a jeden neuváděl žádnou preferenci.

  • Počet + (přednost B) = 8
  • Počet čísel (přednost A) = 1
  • Počet vazeb (bez preference) = 1

Remíza je z analýzy vyloučena, což udává n = počet + a a –'s = 8 + 1 = 9.

Jaká je pravděpodobnost výsledku tak extrémního jako 8 pozitivních ve prospěch B v 9 párech, pokud je pravdivá nulová hypotéza, že spotřebitelé neupřednostňují B před A? Toto je pravděpodobnost 8 nebo více hlav v 9 otočeních spravedlivé mince a lze ji vypočítat pomocí binomického rozdělení s p (hlavy) = p (ocasy) = 0,5.

P (8 nebo 9 hlav v 9 otočeních spravedlivé mince) = 0,0195. Nulová hypotéza je odmítnuta a výrobce dochází k závěru, že spotřebitelé upřednostňují produkt B před produktem A.

Příklad testu znaménka pro medián jednoho vzorku

Sprent uvádí následující příklad testu znaménka pro medián. V klinické studii je doba přežití (týdny) měřena u 10 subjektů s non-Hodgkinsovým lymfomem. Přesná doba přežití nebyla známa u jednoho subjektu, který byl naživu po 362 týdnech, kdy studie skončila. Doby přežití subjektů byly

49, 58, 75, 110, 112, 132, 151, 276, 281, 362+

Znaménko plus označuje subjekt, který je na konci studie ještě naživu. Výzkumník chtěl zjistit, zda byla střední doba přežití menší nebo větší než 200 týdnů.

Nulová hypotéza je, že střední doba přežití je 200 týdnů. Alternativní hypotéza je, že medián přežití není 200 týdnů. Všimněte si, že se jedná o oboustranný test: alternativní medián může být větší nebo menší než 200 týdnů.

Pokud je pravdivá nulová hypotéza, že střední doba přežití je 200 týdnů, pak by v náhodném vzorku měla přibližně polovina subjektů přežít méně než 200 týdnů a polovina by měla přežít více než 200 týdnů. Pozorování pod 200 jsou označena minusem (-); pozorování nad 200 jsou označena plusem (+). Pro doby přežití subjektu je 7 pozorování pod 200 týdny (-) a 3 pozorování nad 200 týdnů (+) pro n = 10 subjektů.

Protože každé pozorování je stejně pravděpodobné, že bude nad nebo pod mediánem populace, počet plusových skóre bude mít binomické rozdělení s průměrem = 0,5. Jaká je pravděpodobnost, že výsledek bude tak extrémní, že 7 z 10 subjektů bude pod mediánem? To je přesně stejná jako pravděpodobnost výsledku tak extrémního, jako je 7 hlav v 10 losování spravedlivé mince. Protože se jedná o oboustranný test, extrémním výsledkem mohou být buď tři nebo méně hlav nebo sedm nebo více hlav.

Pravděpodobnost pozorování k hlav v 10 losování spravedlivé mince, s p (hlavy) = 0,5, je dána binomickým vzorcem:

Pr (Počet hlav = k ) = Vyberte (10, k ) × 0,5 ^ 10

Pravděpodobnost pro každou hodnotu k je uvedena v tabulce níže.

k 0 1 2 3 4 5 6 7 8 9 10
Pr 0,0010 0,0098 0,0439 0,1172 0,2051 0,2461 0,2051 0,1172 0,0439 0,0098 0,0010

Pravděpodobnost 0, 1, 2, 3, 7, 8, 9 nebo 10 hlav v 10 losování je součtem jejich jednotlivých pravděpodobností:

0,0010 + 0,0098 + 0,0439 + 0,1172 + 0,1172 + 0,0439 + 0,0098 + 0,0010 = 0,3438.

Takže pravděpodobnost pozorování 3 nebo méně znaménka plus nebo 7 nebo více znaménka plus v datech o přežití, pokud je medián přežití 200 týdnů, je 0,3438. Očekávaný počet znamének plus je 5, pokud je nulová hypotéza pravdivá. Pozorování 3 nebo méně nebo 7 nebo více plusů se významně neliší od 5. Nulová hypotéza není odmítnuta. Kvůli extrémně malé velikosti vzorku má tento vzorek nízkou sílu k detekci rozdílu.

Příklady počítačového softwaru pro test znaménka

Znakový test je zvláštním případem binomického testu, kde je pravděpodobnost úspěchu při nulové hypotéze p = 0,5. Známkový test lze tedy provést pomocí binomického testu, který je poskytován ve většině statistických softwarových programů. On-line kalkulačky pro test znaménka mohou být založeny hledáním „kalkulačky znaménkového testu“. Mnoho webů nabízí binomický test, ale obecně nabízí pouze oboustrannou verzi.

Software Excel pro test znaménka

Šablona pro test podpisu pomocí aplikace Excel je k dispozici na adrese http://www.real-statistics.com/non-parametric-tests/sign-test/

Software R pro test znaménka

V R lze binomický test provést pomocí funkce binom.test().

Syntaxe funkce je

binom.test(x, n, p = 0.5, alternative = c("two.sided", "less", "greater"), conf.level = 0.95)

kde

  • x = počet úspěchů nebo vektor délky 2 udávající počet úspěchů a neúspěchů
  • n= počet pokusů; ignorováno, pokud x má délku 2
  • p = předpokládaná pravděpodobnost úspěchu
  • alternative = označuje alternativní hypotézu a musí být jedna z „two.sided“, „greater“ nebo „less“
  • conf.level = úroveň spolehlivosti pro vrácený interval spolehlivosti.

Příklady testu znaménka pomocí funkce R binom.test

Příklad testu na znamení od Zar porovnal délku zadních nohou a předních končetin jelena. U 8 z 10 jelenů byla zadní noha delší než přední. V n = 10 pokusech tedy existuje x = 8 úspěchů. Předpokládaná pravděpodobnost úspěchu (definovaná jako zadní noha delší než přední noha) je p  = 0,5 při nulové hypotéze, že zadní nohy a přední nohy se neliší v délce. Alternativní hypotéza je, že délka zadní nohy může být buď větší než nebo menší než délka přední končetiny, což je oboustranný test specifikovaný jako alternative = "two.sided".

Příkaz R dává p = 0,1094, jako v příkladu. binom.test(x=8, n=10, p=0.5, alternative="two.sided")

Příklad testu znaménka v Conover zkoumal preference spotřebitelů pro produkt A vs. produkt B. Nulová hypotéza byla, že spotřebitelé nepreferují produkt B před produktem A. Alternativní hypotéza byla, že spotřebitelé preferují produkt B před produktem A, jednostranný test . Ve studii 8 z 9 spotřebitelů, kteří vyjádřili preferenci, upřednostňovali produkt B před produktem A.

Příkaz R dává p = 0,01953, jako v příkladu. binom.test(x=8, n=9, p=0.5, alternative="greater")

Dějiny

Conover a Sprent popisují, jak John Arbuthnot použil znakový test v roce 1710. Arbuthnot zkoumal záznamy o narození v Londýně pro každý z 82 let od roku 1629 do roku 1710. Každý rok počet mužů narozených v Londýně převyšoval počet žen. Pokud je pravdivá nulová hypotéza o stejném počtu porodů, je pravděpodobnost pozorovaného výsledku 1/2 82 , což vede Arbuthnot k závěru, že pravděpodobnost porodu mužů a žen nebyla přesně stejná.

Za své publikace v letech 1692 a 1710 se Arbuthnotovi připisuje „… první použití testů významnosti…“, první příklad úvah o statistické významnosti a morální jistotě a „… možná první publikovaná zpráva o neparametrickém testu…“.

Hald dále popisuje dopad Arbuthnotova výzkumu.

„Nicholas Bernoulli (1710–1713) dokončuje analýzu údajů Arbuthnota tím, že ukazuje, že větší část variace ročního počtu narozených mužů lze vysvětlit jako binomickou s p  = 18/35. Toto je první příklad přizpůsobení binomické s daty. Proto zde máme test významnosti odmítající hypotézu p = 0,5 následovaný odhadem p a diskusí o dobrém stavu… “

Vztah k jiným statistickým testům

Wilcoxonův podepsaný test

Test znaménka vyžaduje pouze objednání pozorování ve dvojici, například x > y . V některých případech lze pozorováním u všech subjektů přiřadit hodnostní hodnotu (1, 2, 3, ...). Pokud lze pozorování řadit a každé pozorování ve dvojici je náhodným vzorkem ze symetrického rozdělení, pak je vhodný Wilcoxonův test se znaménkem . Wilcoxonův test bude mít obecně větší schopnost detekovat rozdíly než test znaménka. Asymptotická relativní účinnost znakového testu na podepsal rank Wilcoxonova testu, za těchto okolností, je 0,67.

Spárovaný t-test

Pokud jsou spárovaná pozorování numerické veličiny (například skutečná délka zadní nohy a předních nohou v příkladu Zar) a rozdíly mezi spárovanými pozorováními jsou náhodné vzorky z jednoho normálního rozdělení, pak je vhodný spárovaný t-test . Spárovaný t-test bude mít obecně větší schopnost detekovat rozdíly než test znaménka. Asymptotická relativní účinnost testu znaménka k párovému t-testu je za těchto okolností 0,637. Pokud však rozdělení rozdílů mezi dvojicemi není normální, ale naopak je těžkopádné ( platykurtické rozdělení ), může mít test znaménka větší výkon než párový t-test s asymptotickou relativní účinností 2,0 ve srovnání s párovým t -test a 1,3 ve srovnání s Wilcoxonovým podepsaným testem.

McNemarův test

V některých aplikacích mohou pozorování v každé dvojici nabývat pouze hodnot 0 nebo 1. Například 0 může znamenat selhání a 1 může znamenat úspěch. Existují 4 možné páry: {0,0}, {0,1}, {1,0} a {1,1}. V těchto případech se používá stejný postup jako test znaménka, ale je známý jako McNemarův test .

Friedmanova zkouška

Namísto párových pozorování, jako je (Produkt A, Produkt B), mohou data sestávat ze tří nebo více úrovní (Produkt A, Produkt B, Produkt C). Pokud lze jednotlivá pozorování objednat stejným způsobem jako pro test znaménka, například B> C> A, může být použit Friedmanovo test .

Trinomiální test

Bian, McAleer a Wong navrhli v roce 2011 neparametrický test pro spárovaná data, když existuje mnoho vazeb. Ukázali, že jejich trinomiální test je lepší než test znaku v přítomnosti vazeb.

Viz také

Reference

  • Gibbons, JD a Chakraborti, S. (1992). Neparametrický statistický závěr. Marcel Dekker Inc., New York.
  • Kitchens, LJ (2003). Základní statistika a analýza dat. Duxbury.
  • Conover, WJ (1980). Praktická neparametrická statistika , 2. vydání. Wiley, New York.
  • Lehmann, EL (1975). Neparametrics: Statistické metody založené na hodnostech. Holden and Day, San Francisco.