Nejmenší čtverce podpůrných vektorových strojů (LS-SVM) jsou verze nejmenších čtverců podpůrných vektorových strojů (SVM), které jsou sadou souvisejících dohlížených metod učení, které analyzují data a rozpoznávají vzory a které se používají pro klasifikaci a regresi analýza . V této verzi najdeme řešení řešením řady lineárních rovnic místo problému konvexního kvadratického programování (QP) pro klasické SVM. Klasifikátory SVM nejmenších čtverců navrhli Suykens a Vandewalle. LS-SVM jsou třídou výukových metod založených na jádře .
Od stroje vektoru podpory po stroj vektoru podpory s nejmenšími čtverci
Vzhledem k tomu, trénovací množinu s vstupních dat a odpovídající etikety binární třídy , v SVM klasifikátor, podle Vapnik ‚s původní formulaci, splňuje následující podmínky:
což odpovídá
kde je nelineární mapa z původního prostoru do prostoru vysoké nebo nekonečné dimenze.
Neoddělitelná data
V případě, že taková oddělovací nadrovina neexistuje, zavedeme tzv. Slack proměnné takové, že
Podle principu minimalizace strukturálních rizik je riziko omezeno následujícím problémem minimalizace:
Výsledek klasifikátoru SVM
Abychom tento problém vyřešili, mohli bychom postavit Lagrangeovu funkci :
kde jsou Lagrangeovy multiplikátory . Optimální bod bude v sedlovém bodě Lagrangeovy funkce a pak získáme
Nahrazením jeho výrazem v Lagrangeově tvaru vytvořeném z příslušného cíle a omezení získáme následující kvadratický programovací problém:
kde se nazývá funkce jádra . Při řešení tohoto problému QP podléhajícím omezením v bodě (8) získáme nadrovinu ve vysokodimenzionálním prostoru, a tedy klasifikátor v původním prostoru.
Formulace SVM nejmenších čtverců
Verze nejmenších čtverců klasifikátoru SVM se získá přeformulováním problému minimalizace na
s výhradou omezení rovnosti
Výše uvedená formulace klasifikátoru SVM (LS-SVM) s nejmenšími čtverci implicitně odpovídá regresní interpretaci s binárními cíli .
Pomocí máme
s Všimněte si, že tato chyba by také měla smysl pro přizpůsobení dat nejmenších čtverců, takže pro případ regrese platí stejné konečné výsledky.
Proto je formulace klasifikátoru LS-SVM ekvivalentní
s a
Výsledek klasifikátoru LS-SVM
Oba a měly by být považovány za hyperparametry pro vyladění množství regularizace versus součet čtvercových chyb. Řešení závisí pouze na poměru , proto původní formulace používá pouze jako parametr ladění. Používáme oba parametry a jako parametry, abychom poskytli Bayesovu interpretaci LS-SVM.
Řešení regresoru LS-SVM získáme po konstrukci Lagrangeovy funkce :
kde jsou Lagrangeovy multiplikátory. Podmínky pro optimálnost jsou
Eliminace a přinese lineární systém namísto kvadratického programovacího problému:
s , a . Odtud je jednotková matice a je matrix jádra definováno .
Funkce jádra K
U funkce jádra K (•, •) má člověk obvykle následující možnosti:
-
Lineární jádro:
-
Polynomiální jádro stupně :
-
Radiální základní funkce RBF jádro:
- MLP jádro:
kde , , , a jsou konstanty. Všimněte si, že podmínka Mercer platí pro všechny a hodnoty v případě polynomu a RBF, ale ne pro všechny možné volby a v případě MLP. Parametry stupnice , a určují škálování vstupů do polynomu, RBF a MLP funkce jádra . Toto měřítko souvisí se šířkou pásma jádra ve statistikách , kde se ukazuje, že šířka pásma je důležitým parametrem chování generalizace metody jádra.
Bayesovská interpretace pro LS-SVM
Bayesian výklad SVM bylo navrženo Smola et al. Ukázali, že použití různých jader v SVM lze považovat za definování různých předchozích distribucí pravděpodobnosti ve funkčním prostoru, jako . Zde je konstanta a je to regularizační operátor odpovídající vybranému jádru.
Obecný Bayesiánský důkazní rámec byl vyvinut společností MacKay a MacKay ji použil k řešení problému regrese, dopředné neuronové sítě a klasifikační sítě. Za předpokladu datové sady , modelu s vektorem parametrů a takzvaného hyperparametru nebo regularizačního parametru je Bayesianova inference konstruována se 3 úrovněmi inference:
- Na úrovni 1, pro danou hodnotu , odvozuje první úroveň inference zadní rozdělení podle Bayesovské vlády
- Druhá úroveň závěru určuje hodnotu maximalizací
- Třetí úroveň závěru v rámci důkazů řadí různé modely zkoumáním jejich zadních pravděpodobností
Vidíme, že Bayesiánský důkazní rámec je jednotná teorie pro učení modelu a výběru modelu. Kwok použil Bayesianský důkazní rámec k interpretaci formulace SVM a výběru modelu. A také použil Bayesianský důkazní rámec na podporu vektorové regrese.
Nyní, vzhledem k datovým bodům a hyperparametrům a modelu , jsou parametry modelu a jsou odhadovány maximalizací zadní . Použitím Bayesova pravidla získáme
kde je normalizační konstanta takového integrálu přes všechno možné a rovná se 1. Předpokládáme a jsme nezávislí na hyperparametru a jsou podmíněné nezávislé, tj. předpokládáme
Kdy bude distribuce přibližně stejná distribuce. Dále předpokládáme a jsme Gaussovo rozdělení, takže získáme apriorní rozdělení a s být
Tady je rozměrnost prostoru funkcí, stejně jako rozměrnost prostoru .
Předpokládá se, že pravděpodobnost závisí pouze na a . Předpokládáme, že datové body jsou nezávisle identicky distribuovány (iid), takže:
Za účelem získání funkce nejmenších čtvercových nákladů se předpokládá, že pravděpodobnost datového bodu je úměrná:
Gaussova distribuce je považována za chyby jako:
Předpokládá se, že a a jsou určeny takovým způsobem, že se třída vycentruje a mapuje na cíl -1, respektive +1. Projekce prvků třídy sledují mnohorozměrné Gaussovo rozdělení, které mají rozptyl .
Zkombinováním předchozích výrazů a zanedbáním všech konstant se stane Bayesovo pravidlo
Maximální hustota zadní odhady a se získají tím, že minimalizuje negativní logaritmus (26), takže dostaneme (10).
Reference
-
^ Suykens, J. A. K .; Vandewalle, J. (1999) „Nejméně čtverce podporují klasifikátory vektorových strojů“, Neural Processing Letters , 9 (3), 293–300.
-
^ Vapnik, V. Podstata teorie statistického učení. Springer-Verlag, New York, 1995.
-
^ MacKay, D. J. C. Bayesian interpolace. Neural Computation, 4 (3): 415–447, květen 1992.
-
^ MacKay, D. J. C. Praktický bayesovský rámec pro backpropagační sítě. Neural Computation, 4 (3): 448–472, květen 1992.
-
^ MacKay, D. J. C. Důkazní rámec aplikovaný na klasifikační sítě. Neural Computation, 4 (5): 720–736, září 1992.
Bibliografie
- JAK Suykens, T. Van Gestel, J. De Brabanter, B. De Moor, J. Vandewalle, Least Squares Support Vector Machines, World Scientific Pub. Co., Singapore, 2002.
ISBN 981-238-151-1
- Suykens J. A. K., Vandewalle J., Nejmenší čtverce podporují klasifikátory vektorových strojů, Neural Processing Letters , sv. 9, č. 3, červen 1999, str. 293–300.
- Vladimir Vapnik. Podstata teorie statistického učení . Springer-Verlag, 1995. ISBN 0-387-98780-0
- MacKay, DJC, Pravděpodobné sítě a věrohodné předpovědi - přehled praktických Bayesiánských metod pro neuronové sítě pod dohledem. Network: Computation in Neural Systems , sv. 6, 1995, s. 469–505.
externí odkazy
-
www.esat.kuleuven.be/sista/lssvmlab/ „ Sada nejmenších čtverců podporuje sadu vektorových strojů Lab (LS-SVMlab) obsahuje implementace Matlab / C pro řadu algoritmů LS-SVM“.
-
www.kernel-machines.org „Podpora vektorových strojů a metod založených na jádře (Smola & Schölkopf)“.
-
www.gaussianprocess.org „Gaussovské procesy: Modelování dat pomocí Gaussova procesu upřednostňuje funkce pro regresi a klasifikaci (MacKay, Williams)“.
-
www.support-vector.net „Podpora vektorových strojů a metod založených na jádře (Cristianini)“.
-
dlib : Obsahuje implementaci SVM nejmenších čtverců pro rozsáhlé datové sady.