Neparametrická regrese - Nonparametric regression

Neparametrická regrese je kategorie regresní analýzy, ve které prediktor nemá předem stanovenou formu, ale je konstruován podle informací odvozených z dat. To znamená, že se nepředpokládá žádná parametrická forma pro vztah mezi prediktory a závislou proměnnou. Neparametrická regrese vyžaduje větší velikosti vzorků než regrese na základě parametrických modelů, protože data musí dodávat strukturu modelu i odhady modelu.

Definice

V neparametrické regrese, máme náhodné proměnné a a předpokládají následující vztah:

kde je nějaká deterministická funkce. Lineární regrese je omezený případ neparametrické regrese, kde se předpokládá, že je afinní. Někteří autoři používají mírně silnější předpoklad aditivního šumu:

kde náhodná proměnná je „šumový termín“, s průměrem 0. Bez předpokladu, že patří do konkrétní parametrické rodiny funkcí, nelze získat nezaujatý odhad , nicméně většina odhadů je za vhodných podmínek konzistentní .

Seznam univerzálních neparametrických regresních algoritmů

Toto je neúplný seznam algoritmů vhodných pro neparametrické regresní problémy.

Příklady

Gaussova regrese procesu nebo Kriging

V Gaussově procesu regrese, známé také jako Kriging, se pro regresní křivku předpokládá Gaussianův prior. Předpokládá se, že chyby mají vícerozměrné normální rozdělení a regresní křivka se odhaduje podle jejího zadního režimu . Gaussovský prior může záviset na neznámých hyperparametrech, které se obvykle odhadují pomocí empirických Bayesů . Hyperparametry obvykle určují předchozí kovarianční jádro. V případě, že jádro by mělo být také odvozeno neparametricky z dat, lze použít kritický filtr .

Vyhlazovací splajny mají interpretaci jako zadní režim regrese Gaussova procesu.

Jádrová regrese

Příklad křivky (červená čára) přizpůsobené malé datové sadě (černé body) s neparametrickou regresí pomocí plynulejšího Gaussova jádra. Růžově stínovaná oblast ilustruje funkci jádra použitou k získání odhadu y pro danou hodnotu x. Funkce jádra definuje váhu přiřazenou každému datovému bodu při vytváření odhadu pro cílový bod.

Regrese jádra odhaduje spojitou závislou proměnnou z omezené sady datových bodů konvolucí umístění datových bodů pomocí funkce jádra - přibližně řečeno, funkce jádra specifikuje, jak „rozmazat“ vliv datových bodů, aby bylo možné jejich hodnoty slouží k předpovědi hodnoty pro blízká místa.

Regresní stromy

Algoritmy učení rozhodovacího stromu lze použít k naučení předpovědět závislou proměnnou z dat. Ačkoli původní formulace CART (Classification And Regression Tree) platila pouze pro predikci jednorozměrných dat, lze rámec použít k předpovědi vícerozměrných dat, včetně časových řad.

Viz také

Reference

Další čtení

externí odkazy