Metoda jádra - Kernel method

V učení stroje , jádra stroje jsou třída algoritmů pro analýzu vzorek , jehož nejznámější člen je podpora-vektor stroj (SVM). Obecným úkolem analýzy vzorů je najít a studovat obecné typy vztahů (například klastry , hodnocení , hlavní komponenty , korelace , klasifikace ) v souborech dat. U mnoha algoritmů, které tyto úkoly řeší, musí být data v surové reprezentaci explicitně transformována do vektorových reprezentací funkcí pomocí mapy prvků specifikovaných uživatelem : na rozdíl od toho metody jádra vyžadují pouze jádro specifikované uživatelem , tj. Funkci podobnosti přes páry datových bodů v hrubém vyjádření.

Jádro metody vděčí za své jméno s použitím funkce jádra , která by jim umožnila pracovat v high-dimenzionální, implicitních funkcí prostoru , aniž by kdy výpočet souřadnic dat v tomto prostoru, nýbrž pouhým výpočtem na vnitřní produkty mezi obrazy z všechny páry dat v prostoru funkcí. Tato operace je často výpočetně levnější než explicitní výpočet souřadnic. Tento přístup se nazývá „ trik jádra “. Byly zavedeny funkce jádra pro sekvenční data, grafy , text, obrázky i vektory.

Algoritmy schopné pracovat s jádry zahrnují jádrový perceptron , podpůrné vektorové stroje (SVM), Gaussovy procesy , analýzu hlavních komponent (PCA), kanonickou korelační analýzu , hřebenovou regresi , spektrální shlukování , lineární adaptivní filtry a mnoho dalších.

Většina algoritmů jádra je založena na konvexní optimalizaci nebo vlastních problémech a je statisticky podložená. Jejich statistické vlastnosti se obvykle analyzují pomocí statistické teorie učení (například pomocí Rademacherovy složitosti ).

Motivace a neformální vysvětlení

Metody jádra lze považovat za studenty založené na instancích : namísto toho, aby se učili nějakou pevnou sadu parametrů odpovídajících vlastnostem jejich vstupů, místo toho si „pamatují“ ten -tý příklad tréninku a učí se mu odpovídající váhu . Predikce pro neoznačené vstupy, tj. Ty, které nejsou v tréninkové sadě, je zpracována aplikací funkce podobnosti nazývané jádro mezi neoznačeným vstupem a každým z tréninkových vstupů . Například binární klasifikátor s jádrem obvykle počítá vážený součet podobností ${\ displaystyle i}$ ${\ displaystyle (\ mathbf {x} _ {i}, y_ {i})}$ ${\ displaystyle w_ {i}}$ ${\ displaystyle k}$ ${\ displaystyle \ mathbf {x '}}$ ${\ displaystyle \ mathbf {x} _ {i}}$

{\ displaystyle {\ hat {y}} = \ operatorname {sgn} \ sum _ {i = 1} ^ {n} w_ {i} y_ {i} k (\ mathbf {x} _ {i}, \ mathbf {X'} )}

,

kde

${\ displaystyle {\ hat {y}} \ v \ {- 1, + 1 \}}$ je předpovězený štítek binárního klasifikátoru jádra pro neznačený vstup, jehož skrytý skutečný štítek je zajímavý; ${\ displaystyle \ mathbf {x '}}$ ${\ displaystyle y}$
${\ displaystyle k \ colon {\ mathcal {X}} \ krát {\ mathcal {X}} \ do \ mathbb {R}}$ je funkce jádra, která měří podobnost mezi jakoukoli dvojicí vstupů ; ${\ displaystyle \ mathbf {x}, \ mathbf {x '} \ v {\ mathcal {X}}}$
součet se pohybuje přes $n$ označených příkladů v tréninkové sadě klasifikátoru, s ; ${\ displaystyle \ {(\ mathbf {x} _ {i}, y_ {i}) \} _ {i = 1} ^ {n}}$ ${\ displaystyle y_ {i} \ in \ {- 1, + 1 \}}$
jsou váhy pro příkladů přípravy, jak je určeno algoritmem učení; ${\ displaystyle w_ {i} \ in \ mathbb {R}}$
funkce znaménka určuje, zda předpokládaná klasifikace vyjde kladně nebo záporně. ${\ displaystyle \ operatorname {sgn}}$ ${\ displaystyle {\ hat {y}}}$

Klasifikátory jádra byly popsány již v 60. letech 20. století s vynálezem perceptronu jádra . Velkou oblibu získali díky popularitě podpůrného vektorového stroje (SVM) v 90. letech, kdy bylo zjištěno, že SVM konkuruje neuronovým sítím při úlohách, jako je rozpoznávání rukopisu .

Matematika: trik s jádrem

SVM s jádrem daným φ (( a , b )) = ( a , b , a ² + b ² ) a tedy K ( x , y ) = . Cvičné body jsou mapovány do trojrozměrného prostoru, kde lze snadno najít oddělovací nadrovinu.

{\ displaystyle \ mathbf {x} \ cdot \ mathbf {y} + \ left \ | \ mathbf {x} \ right \ | ^ {2} \ left \ | \ mathbf {y} \ right \ | ^ {2} }

Trik jádra se vyhýbá explicitnímu mapování, které je nutné k tomu, aby se algoritmy lineárního učení naučily nelineární funkci nebo hranici rozhodnutí . Pro všechny a ve vstupním prostoru lze určité funkce vyjádřit jako vnitřní produkt v jiném prostoru . Tato funkce se často označuje jako jádro nebo funkce jádra . Slovo „jádro“ se v matematice používá k označení funkce vážení pro vážený součet nebo integrál . ${\ displaystyle \ mathbf {x}}$ ${\ displaystyle \ mathbf {x '}}$ ${\ displaystyle {\ mathcal {X}}}$ ${\ displaystyle k (\ mathbf {x}, \ mathbf {x '})}$ ${\ displaystyle {\ mathcal {V}}}$ ${\ displaystyle k \ colon {\ mathcal {X}} \ krát {\ mathcal {X}} \ do \ mathbb {R}}$

Určité problémy ve strojovém učení mají více struktury než libovolná váhová funkce . Výpočet je mnohem jednodušší, pokud lze jádro zapsat ve formě „mapy funkcí“, která vyhovuje ${\ displaystyle k}$ ${\ displaystyle \ varphi \ colon {\ mathcal {X}} \ na {\ mathcal {V}}}$

{\ displaystyle k (\ mathbf {x}, \ mathbf {x '}) = \ langle \ varphi (\ mathbf {x}), \ varphi (\ mathbf {x'}) \ rangle _ {\ mathcal {V} }.}

Klíčovým omezením je, že musí být správným vnitřním produktem. Na druhou stranu není nutná explicitní reprezentace pro , pokud jde o vnitřní produktový prostor . Alternativa vyplývá z Mercerovy věty : implicitně definovaná funkce existuje, kdykoli může být prostor vybaven vhodným měřítkem zajišťujícím, že funkce splňuje Mercerovu podmínku . ${\ displaystyle \ langle \ cdot, \ cdot \ rangle _ {\ mathcal {V}}}$ ${\ displaystyle \ varphi}$ ${\ displaystyle {\ mathcal {V}}}$ ${\ displaystyle \ varphi}$ ${\ displaystyle {\ mathcal {X}}}$ ${\ displaystyle k}$

Mercerova věta je podobná zevšeobecnění výsledku z lineární algebry, která spojuje vnitřní produkt s jakoukoli maticí s kladnou a konečnou platností . Ve skutečnosti lze stav Mercera snížit na tento jednodušší případ. Zvolíme-li jako měřítko míru počítání pro všechny , která spočítá počet bodů uvnitř množiny , pak se integrál v Mercerově teorémě sníží na součet ${\ displaystyle \ mu (T) = | T |}$ ${\ displaystyle T \ podmnožina X}$ ${\ displaystyle T}$

{\ displaystyle \ sum _ {i = 1} ^ {n} \ sum _ {j = 1} ^ {n} k (\ mathbf {x} _ {i}, \ mathbf {x} _ {j}) c_ {i} c_ {j} \ geq 0.}

Pokud toto shrnutí platí pro všechny konečné sekvence bodů v a všech rozhodnutích skutečný-cenil koeficienty (srov pozitivním definitivní jádra ), pak funkce splňuje stavu Mercer. ${\ displaystyle (\ mathbf {x} _ {1}, \ dotsc, \ mathbf {x} _ {n})}$ ${\ displaystyle {\ mathcal {X}}}$ ${\ displaystyle n}$ ${\ displaystyle (c_ {1}, \ tečky, c_ {n})}$ ${\ displaystyle k}$

Některé algoritmy, které závisí na libovolných vztazích v nativním prostoru, by ve skutečnosti měly lineární interpretaci v jiném nastavení: prostor rozsahu . Lineární interpretace nám poskytuje přehled o algoritmu. Kromě toho často není třeba počítat přímo během výpočtu, jako je tomu u strojů s podporou vektorů . Někteří uvádějí tuto zkratku doby chodu jako primární výhodu. Vědci jej také používají k ospravedlnění významů a vlastností existujících algoritmů. ${\ displaystyle {\ mathcal {X}}}$ ${\ displaystyle \ varphi}$ ${\ displaystyle \ varphi}$

Teoreticky, Gramova matice s ohledem na (někdy také nazývanou „matice jádra“), kde , musí být kladná semitečná (PSD) . Empiricky pro heuristiku strojového učení může volba funkce, která nevyhovuje podmínce Mercera, stále fungovat rozumně, pokud se alespoň přiblíží intuitivní myšlence podobnosti. Bez ohledu na to, zda jde o jádro Mercer, může být stále označováno jako „jádro“. ${\ displaystyle \ mathbf {K} \ in \ mathbb {R} ^ {n \ krát n}}$ ${\ displaystyle \ {\ mathbf {x} _ {1}, \ dotsc, \ mathbf {x} _ {n} \}}$ ${\ displaystyle K_ {ij} = k (\ mathbf {x} _ {i}, \ mathbf {x} _ {j})}$ ${\ displaystyle k}$ ${\ displaystyle k}$ ${\ displaystyle k}$ ${\ displaystyle k}$

Pokud je funkce jádra také kovarianční funkcí používanou v gaussovských procesech , pak lze matici Gram nazývat také kovarianční maticí . ${\ displaystyle k}$ ${\ displaystyle \ mathbf {K}}$

Aplikace

Aplikační oblasti metod jádra jsou různorodé a zahrnují geostatistiku , kriging , inverzní vážení vzdálenosti , 3D rekonstrukci , bioinformatiku , chemoinformatiku , extrakci informací a rozpoznávání rukopisu .

Populární jádra

Viz také

Reference

Další čtení

Shawe-Taylor, J .; Cristianini, N. (2004). Metody jádra pro analýzu vzorů . Cambridge University Press.
Liu, W .; Principe, J .; Haykin, S. (2010). Adaptivní filtrování jádra: komplexní úvod . Wiley.
Scholkopf, B .; Smola, AJ; Bach, F. (2018). Učení s jádry: Podpora vektorových strojů, regularizace, optimalizace a další . MIT Stiskněte. ISBN 978-0-262-53657-8.

externí odkazy

Kernel-Machines Org - webová stránka komunity
onlineprediction.net Článek o metodách jádra

Languages

In other projects