Kendallův koeficient korelace - Kendall rank correlation coefficient
Ve statistikách je Kendallův koeficient korelační korelace , běžně označovaný jako Kendallův koeficient τ (po řeckém písmenu τ , tau), statistika používaná k měření řadové asociace mezi dvěma měřenými veličinami. Test τ je neparametrický test hypotézy pro statistické závislosti na základě koeficientu ▼.
Je to míra korelace pořadí : podobnost řazení dat, když jsou seřazeny podle každého z množství. Je pojmenována po Maurici Kendallovi , který ji vyvinul v roce 1938, ačkoli Gustav Fechner navrhl podobné opatření v kontextu časových řad v roce 1897.
Intuitivně bude Kendallova korelace mezi dvěma proměnnými vysoká, pokud mají pozorování podobnou (nebo shodnou pro korelaci 1) hodnost (tj. Označení relativní polohy pozorování v rámci proměnné: 1., 2., 3. atd.) Mezi těmito dvěma proměnnými proměnné a nízké, pokud mají pozorování rozdílnou (nebo zcela odlišnou pro korelaci -1) pořadí mezi těmito dvěma proměnnými.
Kendallův i Spearmanův lze formulovat jako speciální případy obecnějšího korelačního koeficientu .
Definice
Nechť je soubor pozorování společných náhodných proměnných X a Y , takže všechny hodnoty ( ) a ( ) jsou jedinečné (vazby jsou pro jednoduchost zanedbávány). Jakákoli dvojice pozorování a , kde , se říká, že jsou v souladu, pokud je pořadí řazení a souhlasí: to znamená, že buď obojí a platí, nebo obojí a ; jinak jsou prý nesouhlasní .
Koeficient Kendall τ je definován jako:
Kde je binomický koeficient pro počet způsobů, jak vybrat dvě položky z n položek.
Vlastnosti
Jmenovatelem je celkový počet párů kombinací, takže koeficient musí být v rozsahu od -1 ≤ ▼ je možno ≤ 1.
- Pokud je shoda mezi těmito dvěma žebříčky dokonalá (tj. Obě hodnocení jsou stejná), má koeficient hodnotu 1.
- Pokud je neshoda mezi těmito dvěma žebříčky dokonalá (tj. Jedno hodnocení je opakem druhého), má koeficient hodnotu −1.
- Pokud X a Y jsou nezávislé , pak bychom očekávali, že koeficient bude přibližně nulový.
- Explicitní výraz pro Kendallův koeficient pořadí je .
Test hypotéz
Koeficient Kendallovy hodnosti se často používá jako testovací statistika v testu statistických hypotéz, aby se zjistilo, zda lze dvě proměnné považovat za statisticky závislé. Tento test je neparametrický , protože nespoléhá na žádné předpoklady týkající se distribucí X nebo Y nebo distribuce ( X , Y ).
Pod nulové hypotézy nezávislosti X a Y je distribuce vzorkování z ▼ se má očekávanou hodnotu nula. Přesné rozdělení nelze charakterizovat z hlediska běžných rozdělení, ale lze jej vypočítat přesně pro malé vzorky; u větších vzorků je běžné použít aproximaci k normálnímu rozdělení se střední nulou a rozptylem
- .
Účtování kravat
Říká se, že pár je svázán, pokud nebo ; svázaný pár není ani shodný, ani nesouhlasný. Když v datech vzniknou vázané páry, může být koeficient upraven několika způsoby, aby byl v rozmezí [−1, 1]:
Tau-a
Tau-statistika testuje sílu asociace z příčných tabulkách . Obě proměnné musí být pořadové . Tau-a nebude provádět úpravy kravat. Je definován jako:
kde n c , n d a n 0 jsou definovány jako v další části.
Tau-b
Statistiky Tau-b, na rozdíl od Tau-a, upravují vazby. Hodnoty Tau-b se pohybují od −1 (100% negativní asociace nebo dokonalá inverze) do +1 (100% pozitivní asociace nebo dokonalá shoda). Hodnota nula znamená nepřítomnost asociace.
Koeficient Kendall Tau-b je definován jako:
kde
Jednoduchý algoritmus vyvinutý v BASIC vypočítá koeficient Tau-b pomocí alternativního vzorce.
Uvědomte si, že některé statistické balíčky, např. SPSS, používají pro výpočetní efektivitu alternativní vzorce s dvojnásobkem „obvyklého“ počtu shodných a nesouhlasných párů.
Tau-c
Tau-c (také nazývaný Stuart-Kendall Tau-c) je vhodnější než Tau-b pro analýzu dat založených na non-square (tj. Obdélníkové) kontingenčních tabulkách . Použijte tedy Tau-b, pokud základní měřítko obou proměnných má stejný počet možných hodnot (před hodnocením) a Tau-c, pokud se liší. Jedna proměnná může být například hodnocena na pětibodové stupnici (velmi dobrá, dobrá, průměrná, špatná, velmi špatná), zatímco druhá může být založena na jemnější desetibodové stupnici.
Koeficient Kendall Tau-c je definován jako:
kde
Testy významnosti
Pokud jsou dvě veličiny statisticky nezávislé, distribuce není snadno charakterizovatelná z hlediska známých distribucí. Pro následující statistiku je však přibližně distribuován jako standardní normál, pokud jsou proměnné statisticky nezávislé:
Abychom tedy otestovali, zda jsou dvě proměnné statisticky závislé, jedna vypočítá a zjistí kumulativní pravděpodobnost pro standardní normální rozdělení na . U testu se 2 ocasy vynásobte toto číslo dvěma, abyste získali hodnotu p . Pokud je hodnota p pod danou hladinou významnosti, odmítne se nulová hypotéza (na této hladině významnosti), že veličiny jsou statisticky nezávislé.
Při účtování vazeb by měly být přidány četné úpravy . Následující statistika, má stejné rozdělení jako rozdělení a je opět přibližně stejná jako standardní normální rozdělení, když jsou veličiny statisticky nezávislé:
kde
Toto je někdy označováno jako test Mann-Kendall.
Algoritmy
Přímý výpočet čitatele zahrnuje dvě vnořené iterace, které jsou charakterizovány následujícím pseudokódem:
numer := 0 for i := 2..N do for j := 1..(i − 1) do numer := numer + sign(x[i] − x[j]) × sign(y[i] − y[j]) return numer
Přestože se tento algoritmus rychle implementuje, je složitý a na velkých vzorcích se stává velmi pomalým. K včasnému výpočtu čitatele lze použít sofistikovanější algoritmus postavený na algoritmu Merge Sort .
Začněte seřazením datových bodů podle prvního množství a sekundárně (mezi vazbami ) podle druhého množství . S tímto počátečním uspořádáním není seřazeno a jádro algoritmu se skládá z výpočtu, kolik kroků by Bubble Sort potřeboval k seřazení tohoto počátečního . K výpočtu počtu swapů , které by pro třídění vyžadovalo Bubble Sort , lze složitě použít vylepšený algoritmus Merge Sort . Potom se čitatel pro vypočítá jako:
kde se počítá jako a , ale s ohledem na společné vazby v a .
A sloučit Řazení příčky mají být data seřazena, na dvě přibližně stejné poloviny, a pak seřadí každou polovinu rekurzivní, a potom slučuje dvě poloviny řazeny do plně seřazeny vektoru. Počet swapů Bubble Sort se rovná:
kde a jsou seřazené verze a , a charakterizuje ekvivalent odkládacího bublinového řazení pro operaci sloučení. je vypočítán podle následujícího pseudokódu:
function M(L[1..n], R[1..m]) is i := 1 j := 1 nSwaps := 0 while i ≤ n and j ≤ m do if R[j] < L[i] then nSwaps := nSwaps + n − i + 1 j := j + 1 else i := i + 1 return nSwaps
Vedlejším efektem výše uvedených kroků je, že skončíte s seřazenou verzí i seřazenou verzí . Díky nim jsou faktory a použité pro výpočet snadno získány v jediném průchodu lineárním časem seřazenými poli.
Softwarové implementace
-
Základní balíček R 's statistics implementuje test
cor.test(x, y, method = "kendall")
ve svém balíčku "statistiky" (takécor(x, y, method = "kendall")
bude fungovat, ale bez vrácení hodnoty p). - Pro Python , se scipy knihovna implementuje výpočet v
scipy.stats.kendalltau
Viz také
- Korelace
- Vzdálenost Kendall tau
- Kendallův W.
- Korelační koeficient Spearmanovy hodnosti
- Goodmanova a Kruskalova gama
- Theil – Senův odhad
- Mann – Whitney U test - je ekvivalentní Kendallovu tau korelačnímu koeficientu, pokud je jedna z proměnných binární.
Reference
Další čtení
- Abdi, H. (2007). „Kendall korelace pořadí“ (PDF) . V Salkind, NJ (ed.). Encyklopedie měření a statistiky . Thousand Oaks (CA): Sage.
- Daniel, Wayne W. (1990). „Kendall's tau“ . Aplikovaná neparametrická statistika (2. vydání). Boston: PWS-Kent. s. 365–377. ISBN 978-0-534-91976-4.
- Kendall, Maurice; Gibbons, Jean Dickinson (1990) [První vydání 1948]. Metody korelace hodnocení . Série knih Charlese Griffina (5. vyd.). Oxford: Oxford University Press. ISBN 978-0195208375.
- Bonett, Douglas G .; Wright, Thomas A. (2000). „Požadavky na velikost vzorku pro odhad korelací Pearsona, Kendalla a Spearmana“. Psychometrika . 65 (1): 23–28. doi : 10,1007/BF02294183 .