Neparametrické statistiky - Nonparametric statistics

Neparametrická statistika je odvětví statistiky, které není založeno pouze na parametrizovaných rodinách rozdělení pravděpodobnosti (běžnými příklady parametrů jsou průměr a rozptyl). Neparametrické statistiky jsou založeny buď na tom, že jsou bez distribuce, nebo mají specifikovanou distribuci, ale s nespecifikovanými parametry distribuce. Neparametrická statistika zahrnuje jak popisnou statistiku, tak statistickou inferenci . Neparametrické testy se často používají, když jsou porušeny předpoklady parametrických testů.

Definice

Pojem „neparametrická statistika“ byl mimo jiné nepřesně definován následujícími dvěma způsoby.

  1. První význam neparametrických zahrnuje techniky, které se nespoléhají na data patřící do konkrétní parametrické rodiny pravděpodobnostních distribucí.

    Mezi ně patří mimo jiné:

    Příkladem takových statistik jsou statistiky objednávek , které vycházejí z řad pozorování.

    Následující diskuse je převzata z Kendall's .

    Statistické hypotézy se týkají chování pozorovatelných náhodných proměnných .... Například hypotéza (a), že normální rozdělení má specifikovaný průměr a rozptyl, je statistická; taková je hypotéza (b), že má danou střední, ale nespecifikovanou odchylku; taková je hypotéza (c), že distribuce je normální formy s nespecifikovaným průměrem i rozptylem; konečně je to také hypotéza (d), že dvě nespecifikovaná spojitá rozdělení jsou totožná.

    Bylo si všimnuto, že v příkladech (a) a (b) bylo rozdělení, z něhož vycházejí pozorování, považováno za určitou formu (normální) a hypotéza se zcela týkala hodnoty jednoho nebo obou jeho parametrů. Taková hypotéza se ze zřejmých důvodů nazývá parametrická .

    Hypotéza (c) měla jinou povahu, protože ve výpisu hypotézy nejsou specifikovány žádné hodnoty parametrů; můžeme takovou hypotézu rozumně nazvat neparametrickou . Hypotéza (d) je také neparametrická, ale navíc neurčuje ani základní formu distribuce a lze ji nyní rozumně nazvat bez distribuce . Bez ohledu na tyto rozdíly statistická literatura nyní běžně aplikuje označení „neparametrické“ na testovací postupy, které jsme právě nazvali „bez distribuce“, čímž ztrácí užitečnou klasifikaci.

  2. Druhý význam neparametrických pokrývá techniky, které nepředpokládají, že struktura modelu je pevná. Typicky se model zvětšuje, aby vyhověl složitosti dat. V těchto technikách se předpokládá , že jednotlivé proměnné patří do parametrických distribucí, a také se vytvářejí předpoklady o typech spojení mezi proměnnými. Mezi tyto techniky patří mimo jiné:
    • neparametrická regrese , což je modelování, při kterém je struktura vztahu mezi proměnnými zpracována neparametricky, ale přesto mohou existovat parametrické předpoklady o distribuci zbytků modelu.
    • neparametrické hierarchické Bayesovské modely , jako jsou modely založené na Dirichletově procesu , které podle potřeby umožňují růst počtu latentních proměnných, aby vyhovovaly datům, ale kde jednotlivé proměnné stále sledují parametrické distribuce a dokonce i proces regulující rychlost růstu latentní proměnné sleduje parametrické rozdělení.

Aplikace a účel

Neparametrické metody jsou široce používány ke studiu populací, které mají seřazené pořadí (například recenze filmů, které dostávají jednu až čtyři hvězdičky). Použití neparametrických metod může být nezbytné, pokud mají data pořadí, ale nemají jasnou numerickou interpretaci, například při hodnocení preferencí . Pokud jde o úrovně měření , neparametrické metody vedou k řadovým datům .

Protože neparametrické metody vytvářejí méně předpokladů, je jejich použitelnost mnohem širší než u příslušných parametrických metod. Mohou být použity zejména v situacích, kdy je o dané aplikaci známo méně. Také díky spoléhání na méně předpokladů jsou neparametrické metody robustnější .

Dalším důvodem pro použití neparametrických metod je jednoduchost. V určitých případech, i když je použití parametrických metod oprávněné, může být použití neparametrických metod snazší. Kvůli této jednoduchosti a jejich větší robustnosti někteří statistici považují neparametrické metody za ponechání menšího prostoru pro nesprávné použití a nedorozumění.

Širší použitelnost a zvýšená robustnost neparametrických testů je nákladná: v případech, kdy by byl vhodný parametrický test, mají neparametrické testy menší výkon . Jinými slovy, k vyvození závěrů se stejnou mírou jistoty lze požadovat větší velikost vzorku.

Neparametrické modely

Neparametrické modely se liší od parametrických modelů tím, že struktura modelu není specifikována a priori, ale je určena na základě dat. Termín neparametrický neznamená, že takové modely zcela postrádají parametry, ale že počet a povaha parametrů jsou flexibilní a nejsou předem stanoveny.

Metody

Neparametrické (nebo bez distribuce ) inferenční statistické metody jsou matematické postupy pro testování statistických hypotéz, které na rozdíl od parametrické statistiky nevytvářejí žádné předpoklady o rozdělení pravděpodobnosti posuzovaných proměnných. Mezi nejčastěji používané testy patří

Dějiny

Časné neparametrické statistické metody patří medián (13. století nebo dříve, použití v odhadu od Edward Wright , 1599, viz Median § History ) a znak testu od John Arbuthnot (1710) při analýze poměr lidský pohlaví při narození (viz Znamení zkoušku § historie ).

Viz také

Poznámky

Obecné odkazy