Metoda jádra - Kernel method

V učení stroje , jádra stroje jsou třída algoritmů pro analýzu vzorek , jehož nejznámější člen je podpora-vektor stroj (SVM). Obecným úkolem analýzy vzorů je najít a studovat obecné typy vztahů (například klastry , hodnocení , hlavní komponenty , korelace , klasifikace ) v souborech dat. U mnoha algoritmů, které tyto úkoly řeší, musí být data v surové reprezentaci explicitně transformována do vektorových reprezentací funkcí pomocí mapy prvků specifikovaných uživatelem : na rozdíl od toho metody jádra vyžadují pouze jádro specifikované uživatelem , tj. Funkci podobnosti přes páry datových bodů v hrubém vyjádření.

Jádro metody vděčí za své jméno s použitím funkce jádra , která by jim umožnila pracovat v high-dimenzionální, implicitních funkcí prostoru , aniž by kdy výpočet souřadnic dat v tomto prostoru, nýbrž pouhým výpočtem na vnitřní produkty mezi obrazy z všechny páry dat v prostoru funkcí. Tato operace je často výpočetně levnější než explicitní výpočet souřadnic. Tento přístup se nazývá „ trik jádra “. Byly zavedeny funkce jádra pro sekvenční data, grafy , text, obrázky i vektory.

Algoritmy schopné pracovat s jádry zahrnují jádrový perceptron , podpůrné vektorové stroje (SVM), Gaussovy procesy , analýzu hlavních komponent (PCA), kanonickou korelační analýzu , hřebenovou regresi , spektrální shlukování , lineární adaptivní filtry a mnoho dalších.

Většina algoritmů jádra je založena na konvexní optimalizaci nebo vlastních problémech a je statisticky podložená. Jejich statistické vlastnosti se obvykle analyzují pomocí statistické teorie učení (například pomocí Rademacherovy složitosti ).

Motivace a neformální vysvětlení

Metody jádra lze považovat za studenty založené na instancích : namísto toho, aby se učili nějakou pevnou sadu parametrů odpovídajících vlastnostem jejich vstupů, místo toho si „pamatují“ ten -tý příklad tréninku a učí se mu odpovídající váhu . Predikce pro neoznačené vstupy, tj. Ty, které nejsou v tréninkové sadě, je zpracována aplikací funkce podobnosti nazývané jádro mezi neoznačeným vstupem a každým z tréninkových vstupů . Například binární klasifikátor s jádrem obvykle počítá vážený součet podobností

,

kde

  • je předpovězený štítek binárního klasifikátoru jádra pro neznačený vstup, jehož skrytý skutečný štítek je zajímavý;
  • je funkce jádra, která měří podobnost mezi jakoukoli dvojicí vstupů ;
  • součet se pohybuje přes n označených příkladů v tréninkové sadě klasifikátoru, s ;
  • jsou váhy pro příkladů přípravy, jak je určeno algoritmem učení;
  • funkce znaménka určuje, zda předpokládaná klasifikace vyjde kladně nebo záporně.

Klasifikátory jádra byly popsány již v 60. letech 20. století s vynálezem perceptronu jádra . Velkou oblibu získali díky popularitě podpůrného vektorového stroje (SVM) v 90. letech, kdy bylo zjištěno, že SVM konkuruje neuronovým sítím při úlohách, jako je rozpoznávání rukopisu .

Matematika: trik s jádrem

SVM s jádrem daným φ (( a , b )) = ( a , b , a 2 + b 2 ) a tedy K ( x , y ) = . Cvičné body jsou mapovány do trojrozměrného prostoru, kde lze snadno najít oddělovací nadrovinu.

Trik jádra se vyhýbá explicitnímu mapování, které je nutné k tomu, aby se algoritmy lineárního učení naučily nelineární funkci nebo hranici rozhodnutí . Pro všechny a ve vstupním prostoru lze určité funkce vyjádřit jako vnitřní produkt v jiném prostoru . Tato funkce se často označuje jako jádro nebo funkce jádra . Slovo „jádro“ se v matematice používá k označení funkce vážení pro vážený součet nebo integrál .

Určité problémy ve strojovém učení mají více struktury než libovolná váhová funkce . Výpočet je mnohem jednodušší, pokud lze jádro zapsat ve formě „mapy funkcí“, která vyhovuje

Klíčovým omezením je, že musí být správným vnitřním produktem. Na druhou stranu není nutná explicitní reprezentace pro , pokud jde o vnitřní produktový prostor . Alternativa vyplývá z Mercerovy věty : implicitně definovaná funkce existuje, kdykoli může být prostor vybaven vhodným měřítkem zajišťujícím, že funkce splňuje Mercerovu podmínku .

Mercerova věta je podobná zevšeobecnění výsledku z lineární algebry, která spojuje vnitřní produkt s jakoukoli maticí s kladnou a konečnou platností . Ve skutečnosti lze stav Mercera snížit na tento jednodušší případ. Zvolíme-li jako měřítko míru počítání pro všechny , která spočítá počet bodů uvnitř množiny , pak se integrál v Mercerově teorémě sníží na součet

Pokud toto shrnutí platí pro všechny konečné sekvence bodů v a všech rozhodnutích skutečný-cenil koeficienty (srov pozitivním definitivní jádra ), pak funkce splňuje stavu Mercer.

Některé algoritmy, které závisí na libovolných vztazích v nativním prostoru, by ve skutečnosti měly lineární interpretaci v jiném nastavení: prostor rozsahu . Lineární interpretace nám poskytuje přehled o algoritmu. Kromě toho často není třeba počítat přímo během výpočtu, jako je tomu u strojů s podporou vektorů . Někteří uvádějí tuto zkratku doby chodu jako primární výhodu. Vědci jej také používají k ospravedlnění významů a vlastností existujících algoritmů.

Teoreticky, Gramova matice s ohledem na (někdy také nazývanou „matice jádra“), kde , musí být kladná semitečná (PSD) . Empiricky pro heuristiku strojového učení může volba funkce, která nevyhovuje podmínce Mercera, stále fungovat rozumně, pokud se alespoň přiblíží intuitivní myšlence podobnosti. Bez ohledu na to, zda jde o jádro Mercer, může být stále označováno jako „jádro“.

Pokud je funkce jádra také kovarianční funkcí používanou v gaussovských procesech , pak lze matici Gram nazývat také kovarianční maticí .

Aplikace

Aplikační oblasti metod jádra jsou různorodé a zahrnují geostatistiku , kriging , inverzní vážení vzdálenosti , 3D rekonstrukci , bioinformatiku , chemoinformatiku , extrakci informací a rozpoznávání rukopisu .

Populární jádra

Viz také

Reference

Další čtení

externí odkazy