Neparametrické statistiky - Nonparametric statistics
Neparametrická statistika je odvětví statistiky, které není založeno pouze na parametrizovaných rodinách rozdělení pravděpodobnosti (běžnými příklady parametrů jsou průměr a rozptyl). Neparametrické statistiky jsou založeny buď na tom, že jsou bez distribuce, nebo mají specifikovanou distribuci, ale s nespecifikovanými parametry distribuce. Neparametrická statistika zahrnuje jak popisnou statistiku, tak statistickou inferenci . Neparametrické testy se často používají, když jsou porušeny předpoklady parametrických testů.
Definice
Pojem „neparametrická statistika“ byl mimo jiné nepřesně definován následujícími dvěma způsoby.
- První význam neparametrických zahrnuje techniky, které se nespoléhají na data patřící do konkrétní parametrické rodiny pravděpodobnostních distribucí.
Mezi ně patří mimo jiné:
- metody bez distribuce , které se nespoléhají na předpoklady, že data jsou čerpána z dané parametrické rodiny pravděpodobnostních distribucí . Jedná se o opak parametrické statistiky .
- neparametrická statistika ( statistika je definována jako funkce na vzorku; žádná závislost na parametru ).
Příkladem takových statistik jsou statistiky objednávek , které vycházejí z řad pozorování.
Následující diskuse je převzata z Kendall's .
Statistické hypotézy se týkají chování pozorovatelných náhodných proměnných .... Například hypotéza (a), že normální rozdělení má specifikovaný průměr a rozptyl, je statistická; taková je hypotéza (b), že má danou střední, ale nespecifikovanou odchylku; taková je hypotéza (c), že distribuce je normální formy s nespecifikovaným průměrem i rozptylem; konečně je to také hypotéza (d), že dvě nespecifikovaná spojitá rozdělení jsou totožná.
Bylo si všimnuto, že v příkladech (a) a (b) bylo rozdělení, z něhož vycházejí pozorování, považováno za určitou formu (normální) a hypotéza se zcela týkala hodnoty jednoho nebo obou jeho parametrů. Taková hypotéza se ze zřejmých důvodů nazývá parametrická .
Hypotéza (c) měla jinou povahu, protože ve výpisu hypotézy nejsou specifikovány žádné hodnoty parametrů; můžeme takovou hypotézu rozumně nazvat neparametrickou . Hypotéza (d) je také neparametrická, ale navíc neurčuje ani základní formu distribuce a lze ji nyní rozumně nazvat bez distribuce . Bez ohledu na tyto rozdíly statistická literatura nyní běžně aplikuje označení „neparametrické“ na testovací postupy, které jsme právě nazvali „bez distribuce“, čímž ztrácí užitečnou klasifikaci.
- Druhý význam neparametrických pokrývá techniky, které nepředpokládají, že struktura modelu je pevná. Typicky se model zvětšuje, aby vyhověl složitosti dat. V těchto technikách se předpokládá , že jednotlivé proměnné patří do parametrických distribucí, a také se vytvářejí předpoklady o typech spojení mezi proměnnými. Mezi tyto techniky patří mimo jiné:
- neparametrická regrese , což je modelování, při kterém je struktura vztahu mezi proměnnými zpracována neparametricky, ale přesto mohou existovat parametrické předpoklady o distribuci zbytků modelu.
- neparametrické hierarchické Bayesovské modely , jako jsou modely založené na Dirichletově procesu , které podle potřeby umožňují růst počtu latentních proměnných, aby vyhovovaly datům, ale kde jednotlivé proměnné stále sledují parametrické distribuce a dokonce i proces regulující rychlost růstu latentní proměnné sleduje parametrické rozdělení.
Aplikace a účel
Neparametrické metody jsou široce používány ke studiu populací, které mají seřazené pořadí (například recenze filmů, které dostávají jednu až čtyři hvězdičky). Použití neparametrických metod může být nezbytné, pokud mají data pořadí, ale nemají jasnou numerickou interpretaci, například při hodnocení preferencí . Pokud jde o úrovně měření , neparametrické metody vedou k řadovým datům .
Protože neparametrické metody vytvářejí méně předpokladů, je jejich použitelnost mnohem širší než u příslušných parametrických metod. Mohou být použity zejména v situacích, kdy je o dané aplikaci známo méně. Také díky spoléhání na méně předpokladů jsou neparametrické metody robustnější .
Dalším důvodem pro použití neparametrických metod je jednoduchost. V určitých případech, i když je použití parametrických metod oprávněné, může být použití neparametrických metod snazší. Kvůli této jednoduchosti a jejich větší robustnosti někteří statistici považují neparametrické metody za ponechání menšího prostoru pro nesprávné použití a nedorozumění.
Širší použitelnost a zvýšená robustnost neparametrických testů je nákladná: v případech, kdy by byl vhodný parametrický test, mají neparametrické testy menší výkon . Jinými slovy, k vyvození závěrů se stejnou mírou jistoty lze požadovat větší velikost vzorku.
Neparametrické modely
Neparametrické modely se liší od parametrických modelů tím, že struktura modelu není specifikována a priori, ale je určena na základě dat. Termín neparametrický neznamená, že takové modely zcela postrádají parametry, ale že počet a povaha parametrů jsou flexibilní a nejsou předem stanoveny.
- Histogram je jednoduchý neparametrický odhad rozdělení pravděpodobnosti.
- Odhad hustoty jádra poskytuje lepší odhady hustoty než histogramy.
- Byly vyvinuty metody neparametrické regrese a semiparametrické regrese založené na jádrech , spline a vlnkách .
- Analýza obálky dat poskytuje koeficienty účinnosti podobné těm, které byly získány multivariační analýzou bez jakéhokoli distribučního předpokladu.
- KNN klasifikují neviditelnou instanci na základě K bodů v tréninkové sadě, které jsou nejblíže k ní.
- Support Vector stroj (s jádrem Gaussova) je neparametrický velkém rozpětí klasifikátor.
- Metoda momentů s polynomu rozdělení pravděpodobnosti.
Metody
Neparametrické (nebo bez distribuce ) inferenční statistické metody jsou matematické postupy pro testování statistických hypotéz, které na rozdíl od parametrické statistiky nevytvářejí žádné předpoklady o rozdělení pravděpodobnosti posuzovaných proměnných. Mezi nejčastěji používané testy patří
- Analýza podobností
- Anderson – Darlingův test : testuje, zda je vzorek odebrán z dané distribuce
- Statistické metody bootstrap : odhaduje přesnost / distribuci vzorkování statistiky
- Cochranovo Q : testuje, zda k ošetření v randomizovaných blokových vzorech s výsledky 0/1 mají stejné účinky
- Cohenova kappa : měří shodu mezi hodnotiteli pro kategorické položky
- Friedmanova obousměrná analýza rozptylu podle hodností: testuje, zda k ošetření v randomizovaných blokových vzorech mají stejné účinky
- Kaplan – Meier : odhaduje funkci přežití z celoživotních dat, modeluje cenzuru
- Kendall's tau : měří statistickou závislost mezi dvěma proměnnými
- Kendall's W : míra mezi 0 a 1 dohody mezi hodnotiteli
- Kolmogorov – Smirnovův test : testuje, zda je vzorek odebrán z dané distribuce nebo zda jsou odebrány dva vzorky ze stejné distribuce
- Kruskal – Wallis jednosměrná analýza rozptylu podle řad: testuje, zda jsou ze stejné distribuce odebrány> 2 nezávislé vzorky
- Kuiperův test : testuje, zda je vzorek odebrán z dané distribuce, citlivý na cyklické variace, jako je den v týdnu
- Logrankův test : porovnává distribuce přežití dvou správně zkosených, cenzurovaných vzorků
- Mann – Whitney U nebo Wilcoxonův test součtu: testuje, zda jsou dva vzorky odebrány ze stejného rozdělení ve srovnání s danou alternativní hypotézou.
- McNemarův test : testuje, zda jsou v kontingenčních tabulkách 2 × 2 s dichotomickým znakem a párovými páry subjektů okrajové frekvence řádků a sloupců stejné
- Mediánový test : testuje, zda jsou dva vzorky odebrány z distribucí se stejnými mediány
- Pitmanův permutační test : test statistické významnosti, který poskytuje přesné hodnoty p zkoumáním všech možných přeskupení štítků
- Hodnocení produktů : detekuje odlišně exprimované geny v replikovaných microarray experimentech
- Test Siegel – Tukey : testuje rozdíly v měřítku mezi dvěma skupinami
- Test znaménka : testuje, zda jsou vzorky párových párů čerpány z distribucí se stejnými mediány
- Spearmanův koeficient korelace : měří statistickou závislost mezi dvěma proměnnými pomocí monotónní funkce
- Test čtvercových řad : testuje rovnost odchylek ve dvou nebo více vzorcích
- Test Tukey – Duckworth : testuje rovnost dvou distribucí pomocí řad
- Wald-Wolfowitzův test : testuje, zda jsou prvky sekvence vzájemně nezávislé / náhodné
- Wilcoxonův test se znaménkem : testuje, zda se vzorky párových párů odebírají z populací s různými průměrnými hodnotami
Dějiny
Časné neparametrické statistické metody patří medián (13. století nebo dříve, použití v odhadu od Edward Wright , 1599, viz Median § History ) a znak testu od John Arbuthnot (1710) při analýze poměr lidský pohlaví při narození (viz Znamení zkoušku § historie ).
Viz také
- Neparametrický interval spolehlivosti založený na CDF
- Parametrické statistiky
- Převzorkování (statistika)
- Semiparametrický model
Poznámky
Obecné odkazy
- Bagdonavicius, V., Kruopis, J., Nikulin, MS (2011). „Neparametrické testy úplných dat“, ISTE & WILEY: London & Hoboken. ISBN 978-1-84821-269-5 .
- Corder, GW; Foreman, DI (2014). Neparametrická statistika: podrobný přístup . Wiley. ISBN 978-1118840313 .
- Gibbons, Jean Dickinson ; Chakraborti, Subhabrata (2003). Neparametrické statistické inference , 4. vydání. CRC Press. ISBN 0-8247-4052-1 .
- Hettmansperger, T. P .; McKean, J. W. (1998). Robustní neparametrické statistické metody . Kendall's Library of Statistics. 5 (první vydání). Londýn: Edward Arnold . New York: John Wiley & Sons. ISBN 0-340-54937-8 . MR 1604954 . také ISBN 0-471-19479-4 .
- Hollander M., Wolfe DA, Chicken E. (2014). Neparametrické statistické metody , John Wiley & Sons.
- Sheskin, David J. (2003) Handbook of Parametric and Nonparametric Statistical Procedures . CRC Press. ISBN 1-58488-440-1
- Wasserman, Larry (2007). Vše z Nonparametric Statistics , Springer. ISBN 0-387-25145-6 .