Kendallův koeficient korelace - Kendall rank correlation coefficient

Ve statistikách je Kendallův koeficient korelační korelace , běžně označovaný jako Kendallův koeficient τ (po řeckém písmenu τ , tau), statistika používaná k měření řadové asociace mezi dvěma měřenými veličinami. Test τ je neparametrický test hypotézy pro statistické závislosti na základě koeficientu ▼.

Je to míra korelace pořadí : podobnost řazení dat, když jsou seřazeny podle každého z množství. Je pojmenována po Maurici Kendallovi , který ji vyvinul v roce 1938, ačkoli Gustav Fechner navrhl podobné opatření v kontextu časových řad v roce 1897.

Intuitivně bude Kendallova korelace mezi dvěma proměnnými vysoká, pokud mají pozorování podobnou (nebo shodnou pro korelaci 1) hodnost (tj. Označení relativní polohy pozorování v rámci proměnné: 1., 2., 3. atd.) Mezi těmito dvěma proměnnými proměnné a nízké, pokud mají pozorování rozdílnou (nebo zcela odlišnou pro korelaci -1) pořadí mezi těmito dvěma proměnnými.

Kendallův i Spearmanův lze formulovat jako speciální případy obecnějšího korelačního koeficientu . ${\ displaystyle \ tau}$ ${\ Displaystyle \ rho}$

Definice

Všechny body v šedé oblasti jsou shodné a všechny body v bílé oblasti jsou nesouhlasné s ohledem na bod . S body je celkem možné dvojice bodů. V tomto případě existuje 395 shodných bodových párů a 40 nesouhlasných bodových párů, což vede ke korelačnímu koeficientu Kendallovy hodnosti 0,816.

{\ displaystyle (X_ {1}, Y_ {1})}

{\ displaystyle n = 30}

{\ displaystyle {\ binom {30} {2}} = 435}

Nechť je soubor pozorování společných náhodných proměnných X a Y , takže všechny hodnoty ( ) a ( ) jsou jedinečné (vazby jsou pro jednoduchost zanedbávány). Jakákoli dvojice pozorování a , kde , se říká, že jsou v souladu, pokud je pořadí řazení a souhlasí: to znamená, že buď obojí a platí, nebo obojí a ; jinak jsou prý nesouhlasní . ${\ Displaystyle (x_ {1}, y_ {1}), ..., (x_ {n}, y_ {n})}$ ${\ displaystyle x_ {i}}$ ${\ displaystyle y_ {i}}$ ${\ displaystyle (x_ {i}, y_ {i})}$ ${\ displaystyle (x_ {j}, y_ {j})}$ ${\ Displaystyle i <j}$ ${\ displaystyle (x_ {i}, x_ {j})}$ ${\ displaystyle (y_ {i}, y_ {j})}$ ${\ displaystyle x_ {i}> x_ {j}}$ ${\ displaystyle y_ {i}> y_ {j}}$ ${\ displaystyle x_ {i} <x_ {j}}$ ${\ displaystyle y_ {i} <y_ {j}}$

Koeficient Kendall τ je definován jako:

{\ Displaystyle \ tau = {\ frac {({\ text {počet shodných párů}})-({\ text {počet nesouhlasných párů}})} {n \ vyberte 2}}.}

Kde je binomický koeficient pro počet způsobů, jak vybrat dvě položky z n položek. ${\ displaystyle {n \ choose 2} = {n (n-1) \ over 2}}$

Vlastnosti

Jmenovatelem je celkový počet párů kombinací, takže koeficient musí být v rozsahu od -1 ≤ ▼ je možno ≤ 1.

Pokud je shoda mezi těmito dvěma žebříčky dokonalá (tj. Obě hodnocení jsou stejná), má koeficient hodnotu 1.
Pokud je neshoda mezi těmito dvěma žebříčky dokonalá (tj. Jedno hodnocení je opakem druhého), má koeficient hodnotu −1.
Pokud X a Y jsou nezávislé , pak bychom očekávali, že koeficient bude přibližně nulový.
Explicitní výraz pro Kendallův koeficient pořadí je . ${\ displaystyle \ tau = {\ frac {2} {n (n-1)}} \ sum _ {i <j} \ operatorname {sgn} (x_ {i} -x_ {j}) \ operatorname {sgn} (y_ {i} -y_ {j})}$

Test hypotéz

Koeficient Kendallovy hodnosti se často používá jako testovací statistika v testu statistických hypotéz, aby se zjistilo, zda lze dvě proměnné považovat za statisticky závislé. Tento test je neparametrický , protože nespoléhá na žádné předpoklady týkající se distribucí X nebo Y nebo distribuce ( X , Y ).

Pod nulové hypotézy nezávislosti X a Y je distribuce vzorkování z ▼ se má očekávanou hodnotu nula. Přesné rozdělení nelze charakterizovat z hlediska běžných rozdělení, ale lze jej vypočítat přesně pro malé vzorky; u větších vzorků je běžné použít aproximaci k normálnímu rozdělení se střední nulou a rozptylem

{\ displaystyle {\ frac {2 (2n+5)} {9n (n-1)}}}}

.

Účtování kravat

Říká se, že pár je svázán, pokud nebo ; svázaný pár není ani shodný, ani nesouhlasný. Když v datech vzniknou vázané páry, může být koeficient upraven několika způsoby, aby byl v rozmezí [−1, 1]: ${\ Displaystyle \ {(x_ {i}, x_ {j}), (y_ {i}, y_ {j}) \}}$ ${\ displaystyle x_ {i} = x_ {j}}$ ${\ displaystyle y_ {i} = y_ {j}}$

Tau-a

Tau-statistika testuje sílu asociace z příčných tabulkách . Obě proměnné musí být pořadové . Tau-a nebude provádět úpravy kravat. Je definován jako:

{\ displaystyle \ tau _ {A} = {\ frac {n_ {c} -n_ {d}} {n_ {0}}}}

kde n _c , n _d a n ₀ jsou definovány jako v další části.

Tau-b

Statistiky Tau-b, na rozdíl od Tau-a, upravují vazby. Hodnoty Tau-b se pohybují od −1 (100% negativní asociace nebo dokonalá inverze) do +1 (100% pozitivní asociace nebo dokonalá shoda). Hodnota nula znamená nepřítomnost asociace.

Koeficient Kendall Tau-b je definován jako:

{\ Displaystyle \ tau _ {B} = {\ frac {n_ {c} -n_ {d}} {\ sqrt {(n_ {0} -n_ {1}) (n_ {0} -n_ {2}) }}}}

kde

{\ Displaystyle {\ begin {aligned} n_ {0} & = n (n-1)/2 \\ n_ {1} & = \ sum _ {i} t_ {i} (t_ {i} -1)/ 2 \\ n_ {2} & = \ sum _ {j} u_ {j} (u_ {j} -1)/2 \\ n_ {c} & = {\ text {Počet shodných párů}} \\ n_ {d} & = {\ text {Počet nesouhlasných párů}} \\ t_ {i} & = {\ text {Počet svázaných hodnot ve skupině}} i^{\ text {th}} {\ text { vazby pro první množství}} \\ u_ {j} & = {\ text {Počet vázaných hodnot ve skupině}} j^{\ text {th}} {\ text {skupina vazeb pro druhé množství}} \ end {aligned}}}

Jednoduchý algoritmus vyvinutý v BASIC vypočítá koeficient Tau-b pomocí alternativního vzorce.

Uvědomte si, že některé statistické balíčky, např. SPSS, používají pro výpočetní efektivitu alternativní vzorce s dvojnásobkem „obvyklého“ počtu shodných a nesouhlasných párů.

Tau-c

Tau-c (také nazývaný Stuart-Kendall Tau-c) je vhodnější než Tau-b pro analýzu dat založených na non-square (tj. Obdélníkové) kontingenčních tabulkách . Použijte tedy Tau-b, pokud základní měřítko obou proměnných má stejný počet možných hodnot (před hodnocením) a Tau-c, pokud se liší. Jedna proměnná může být například hodnocena na pětibodové stupnici (velmi dobrá, dobrá, průměrná, špatná, velmi špatná), zatímco druhá může být založena na jemnější desetibodové stupnici.

Koeficient Kendall Tau-c je definován jako:

{\ Displaystyle \ tau _ {C} = {\ frac {2 (n_ {c} -n_ {d})} {n^{2} {\ frac {(m-1)} {m}}}}}

kde

{\ displaystyle {\ begin {aligned} n_ {c} & = {\ text {Počet shodných párů}} \\ n_ {d} & = {\ text {Počet nesouhlasných párů}} \\ r & = {\ text {Počet řádků}} \\ c & = {\ text {Počet sloupců}} \\ m & = \ min (r, c) \ end {zarovnáno}}}

Testy významnosti

Pokud jsou dvě veličiny statisticky nezávislé, distribuce není snadno charakterizovatelná z hlediska známých distribucí. Pro následující statistiku je však přibližně distribuován jako standardní normál, pokud jsou proměnné statisticky nezávislé: ${\ displaystyle \ tau}$ ${\ displaystyle \ tau _ {A}}$ ${\ displaystyle z_ {A}}$

{\ Displaystyle z_ {A} = {3 (n_ {c} -n_ {d}) \ over {\ sqrt {n (n-1) (2n+5)/2}}}}}

Abychom tedy otestovali, zda jsou dvě proměnné statisticky závislé, jedna vypočítá a zjistí kumulativní pravděpodobnost pro standardní normální rozdělení na . U testu se 2 ocasy vynásobte toto číslo dvěma, abyste získali hodnotu p . Pokud je hodnota p pod danou hladinou významnosti, odmítne se nulová hypotéza (na této hladině významnosti), že veličiny jsou statisticky nezávislé. ${\ displaystyle z_ {A}}$ ${\ displaystyle -| z_ {A} |}$

Při účtování vazeb by měly být přidány četné úpravy . Následující statistika, má stejné rozdělení jako rozdělení a je opět přibližně stejná jako standardní normální rozdělení, když jsou veličiny statisticky nezávislé: ${\ displaystyle z_ {A}}$ ${\ displaystyle z_ {B}}$ ${\ displaystyle \ tau _ {B}}$

{\ displaystyle z_ {B} = {n_ {c} -n_ {d} \ over {\ sqrt {v}}}}

kde

{\ displaystyle {\ begin {array} {ccl} v & = & (v_ {0} -v_ {t} -v_ {u})/18+v_ {1}+v_ {2} \\ v_ {0} & = & n (n-1) (2n+5) \\ v_ {t} & = & \ sum _ {i} t_ {i} (t_ {i} -1) (2t_ {i} +5) \\ v_ {u} & = & \ sum _ {j} u_ {j} (u_ {j} -1) (2u_ {j} +5) \\ v_ {1} & = & \ sum _ {i} t_ {i } (t_ {i} -1) \ sum _ {j} u_ {j} (u_ {j} -1)/(2n (n-1)) \\ v_ {2} & = & \ sum _ {i } t_ {i} (t_ {i} -1) (t_ {i} -2) \ sum _ {j} u_ {j} (u_ {j} -1) (u_ {j} -2)/(9n (n-1) (n-2)) \ end {pole}}}

Toto je někdy označováno jako test Mann-Kendall.

Algoritmy

Přímý výpočet čitatele zahrnuje dvě vnořené iterace, které jsou charakterizovány následujícím pseudokódem: ${\ displaystyle n_ {c} -n_ {d}}$

numer := 0
for i := 2..N do
    for j := 1..(i − 1) do
        numer := numer + sign(x[i] − x[j]) × sign(y[i] − y[j])
return numer

Přestože se tento algoritmus rychle implementuje, je složitý a na velkých vzorcích se stává velmi pomalým. K včasnému výpočtu čitatele lze použít sofistikovanější algoritmus postavený na algoritmu Merge Sort . ${\ displaystyle O (n^{2})}$ ${\ Displaystyle O (n \ cdot \ log {n})}$

Začněte seřazením datových bodů podle prvního množství a sekundárně (mezi vazbami ) podle druhého množství . S tímto počátečním uspořádáním není seřazeno a jádro algoritmu se skládá z výpočtu, kolik kroků by Bubble Sort potřeboval k seřazení tohoto počátečního . K výpočtu počtu swapů , které by pro třídění vyžadovalo Bubble Sort , lze složitě použít vylepšený algoritmus Merge Sort . Potom se čitatel pro vypočítá jako: ${\ displaystyle x}$ ${\ displaystyle x}$ ${\ displaystyle y}$ ${\ displaystyle y}$ ${\ displaystyle y}$ ${\ Displaystyle O (n \ log n)}$ ${\ Displaystyle S (y)}$ ${\ displaystyle y_ {i}}$ ${\ displaystyle \ tau}$

{\ displaystyle n_ {c} -n_ {d} = n_ {0} -n_ {1} -n_ {2}+n_ {3} -2S (y),}

kde se počítá jako a , ale s ohledem na společné vazby v a . ${\ displaystyle n_ {3}}$ ${\ displaystyle n_ {1}}$ ${\ displaystyle n_ {2}}$ ${\ displaystyle x}$ ${\ displaystyle y}$

A sloučit Řazení příčky mají být data seřazena, na dvě přibližně stejné poloviny, a pak seřadí každou polovinu rekurzivní, a potom slučuje dvě poloviny řazeny do plně seřazeny vektoru. Počet swapů Bubble Sort se rovná: ${\ displaystyle y}$ ${\ displaystyle y _ {\ mathrm {left}}}$ ${\ displaystyle y _ {\ mathrm {right}}}$

{\ Displaystyle S (y) = S (y _ {\ mathrm {left}})+S (y _ {\ mathrm {right}})+M (Y _ {\ mathrm {left}}, Y _ {\ mathrm {right} })}

kde a jsou seřazené verze a , a charakterizuje ekvivalent odkládacího bublinového řazení pro operaci sloučení. je vypočítán podle následujícího pseudokódu: ${\ displaystyle Y _ {\ mathrm {left}}}$ ${\ displaystyle Y _ {\ mathrm {right}}}$ ${\ displaystyle y _ {\ mathrm {left}}}$ ${\ displaystyle y _ {\ mathrm {right}}}$ ${\ Displaystyle M (\ cdot, \ cdot)}$ ${\ Displaystyle M (\ cdot, \ cdot)}$

function M(L[1..n], R[1..m]) is
    i := 1
    j := 1
    nSwaps := 0
    while i ≤ n and j ≤ m do
        if R[j] < L[i] then
            nSwaps := nSwaps + n − i + 1
            j := j + 1
        else
            i := i + 1
    return nSwaps

Vedlejším efektem výše uvedených kroků je, že skončíte s seřazenou verzí i seřazenou verzí . Díky nim jsou faktory a použité pro výpočet snadno získány v jediném průchodu lineárním časem seřazenými poli. ${\ displaystyle x}$ ${\ displaystyle y}$ ${\ displaystyle t_ {i}}$ ${\ displaystyle u_ {j}}$ ${\ displaystyle \ tau _ {B}}$

Softwarové implementace

Základní balíček R 's statistics implementuje test cor.test(x, y, method = "kendall")ve svém balíčku "statistiky" (také cor(x, y, method = "kendall")bude fungovat, ale bez vrácení hodnoty p).
Pro Python , se scipy knihovna implementuje výpočet v ${\ displaystyle \ tau}$ scipy.stats.kendalltau

Viz také

Korelace
Vzdálenost Kendall tau
Kendallův W.
Korelační koeficient Spearmanovy hodnosti
Goodmanova a Kruskalova gama
Theil – Senův odhad
Mann – Whitney U test - je ekvivalentní Kendallovu tau korelačnímu koeficientu, pokud je jedna z proměnných binární.

Reference

Další čtení

Abdi, H. (2007). „Kendall korelace pořadí“ (PDF) . V Salkind, NJ (ed.). Encyklopedie měření a statistiky . Thousand Oaks (CA): Sage.
Daniel, Wayne W. (1990). „Kendall's tau“ . Aplikovaná neparametrická statistika (2. vydání). Boston: PWS-Kent. s. 365–377. ISBN 978-0-534-91976-4.
Kendall, Maurice; Gibbons, Jean Dickinson (1990) [První vydání 1948]. Metody korelace hodnocení . Série knih Charlese Griffina (5. vyd.). Oxford: Oxford University Press. ISBN 978-0195208375.
Bonett, Douglas G .; Wright, Thomas A. (2000). „Požadavky na velikost vzorku pro odhad korelací Pearsona, Kendalla a Spearmana“. Psychometrika . 65 (1): 23–28. doi : 10,1007/BF02294183 .

Languages

In other projects