Stroj na podporu vektoru podpory nejmenších čtverců - Least-squares support-vector machine

Nejmenší čtverce podpůrných vektorových strojů (LS-SVM) jsou verze nejmenších čtverců podpůrných vektorových strojů (SVM), které jsou sadou souvisejících dohlížených metod učení, které analyzují data a rozpoznávají vzory a které se používají pro klasifikaci a regresi analýza . V této verzi najdeme řešení řešením řady lineárních rovnic místo problému konvexního kvadratického programování (QP) pro klasické SVM. Klasifikátory SVM nejmenších čtverců navrhli Suykens a Vandewalle. LS-SVM jsou třídou výukových metod založených na jádře .

Od stroje vektoru podpory po stroj vektoru podpory s nejmenšími čtverci

Vzhledem k tomu, trénovací množinu s vstupních dat a odpovídající etikety binární třídy , v SVM klasifikátor, podle Vapnik ‚s původní formulaci, splňuje následující podmínky:

Spirálová data: pro modrý datový bod, pro červený datový bod

což odpovídá

kde je nelineární mapa z původního prostoru do prostoru vysoké nebo nekonečné dimenze.

Neoddělitelná data

V případě, že taková oddělovací nadrovina neexistuje, zavedeme tzv. Slack proměnné takové, že

Podle principu minimalizace strukturálních rizik je riziko omezeno následujícím problémem minimalizace:

Výsledek klasifikátoru SVM

Abychom tento problém vyřešili, mohli bychom postavit Lagrangeovu funkci :

kde jsou Lagrangeovy multiplikátory . Optimální bod bude v sedlovém bodě Lagrangeovy funkce a pak získáme

Nahrazením jeho výrazem v Lagrangeově tvaru vytvořeném z příslušného cíle a omezení získáme následující kvadratický programovací problém:

kde se nazývá funkce jádra . Při řešení tohoto problému QP podléhajícím omezením v bodě (8) získáme nadrovinu ve vysokodimenzionálním prostoru, a tedy klasifikátor v původním prostoru.

Formulace SVM nejmenších čtverců

Verze nejmenších čtverců klasifikátoru SVM se získá přeformulováním problému minimalizace na

s výhradou omezení rovnosti

Výše uvedená formulace klasifikátoru SVM (LS-SVM) s nejmenšími čtverci implicitně odpovídá regresní interpretaci s binárními cíli .

Pomocí máme

s Všimněte si, že tato chyba by také měla smysl pro přizpůsobení dat nejmenších čtverců, takže pro případ regrese platí stejné konečné výsledky.

Proto je formulace klasifikátoru LS-SVM ekvivalentní

s a

Výsledek klasifikátoru LS-SVM

Oba a měly by být považovány za hyperparametry pro vyladění množství regularizace versus součet čtvercových chyb. Řešení závisí pouze na poměru , proto původní formulace používá pouze jako parametr ladění. Používáme oba parametry a jako parametry, abychom poskytli Bayesovu interpretaci LS-SVM.

Řešení regresoru LS-SVM získáme po konstrukci Lagrangeovy funkce :

kde jsou Lagrangeovy multiplikátory. Podmínky pro optimálnost jsou

Eliminace a přinese lineární systém namísto kvadratického programovacího problému:

s , a . Odtud je jednotková matice a je matrix jádra definováno .

Funkce jádra K

U funkce jádra K (•, •) má člověk obvykle následující možnosti:

  • Lineární jádro:
  • Polynomiální jádro stupně :
  • Radiální základní funkce RBF jádro:
  • MLP jádro:

kde , , , a jsou konstanty. Všimněte si, že podmínka Mercer platí pro všechny a hodnoty v případě polynomu a RBF, ale ne pro všechny možné volby a v případě MLP. Parametry stupnice , a určují škálování vstupů do polynomu, RBF a MLP funkce jádra . Toto měřítko souvisí se šířkou pásma jádra ve statistikách , kde se ukazuje, že šířka pásma je důležitým parametrem chování generalizace metody jádra.

Bayesovská interpretace pro LS-SVM

Bayesian výklad SVM bylo navrženo Smola et al. Ukázali, že použití různých jader v SVM lze považovat za definování různých předchozích distribucí pravděpodobnosti ve funkčním prostoru, jako . Zde je konstanta a je to regularizační operátor odpovídající vybranému jádru.

Obecný Bayesiánský důkazní rámec byl vyvinut společností MacKay a MacKay ji použil k řešení problému regrese, dopředné neuronové sítě a klasifikační sítě. Za předpokladu datové sady , modelu s vektorem parametrů a takzvaného hyperparametru nebo regularizačního parametru je Bayesianova inference konstruována se 3 úrovněmi inference:

  • Na úrovni 1, pro danou hodnotu , odvozuje první úroveň inference zadní rozdělení podle Bayesovské vlády
  • Druhá úroveň závěru určuje hodnotu maximalizací
  • Třetí úroveň závěru v rámci důkazů řadí různé modely zkoumáním jejich zadních pravděpodobností

Vidíme, že Bayesiánský důkazní rámec je jednotná teorie pro učení modelu a výběru modelu. Kwok použil Bayesianský důkazní rámec k interpretaci formulace SVM a výběru modelu. A také použil Bayesianský důkazní rámec na podporu vektorové regrese.

Nyní, vzhledem k datovým bodům a hyperparametrům a modelu , jsou parametry modelu a jsou odhadovány maximalizací zadní . Použitím Bayesova pravidla získáme

kde je normalizační konstanta takového integrálu přes všechno možné a rovná se 1. Předpokládáme a jsme nezávislí na hyperparametru a jsou podmíněné nezávislé, tj. předpokládáme

Kdy bude distribuce přibližně stejná distribuce. Dále předpokládáme a jsme Gaussovo rozdělení, takže získáme apriorní rozdělení a s být

Tady je rozměrnost prostoru funkcí, stejně jako rozměrnost prostoru .

Předpokládá se, že pravděpodobnost závisí pouze na a . Předpokládáme, že datové body jsou nezávisle identicky distribuovány (iid), takže:

Za účelem získání funkce nejmenších čtvercových nákladů se předpokládá, že pravděpodobnost datového bodu je úměrná:

Gaussova distribuce je považována za chyby jako:

Předpokládá se, že a a jsou určeny takovým způsobem, že se třída vycentruje a mapuje na cíl -1, respektive +1. Projekce prvků třídy sledují mnohorozměrné Gaussovo rozdělení, které mají rozptyl .

Zkombinováním předchozích výrazů a zanedbáním všech konstant se stane Bayesovo pravidlo

Maximální hustota zadní odhady a se získají tím, že minimalizuje negativní logaritmus (26), takže dostaneme (10).

Reference

  1. ^ Suykens, J. A. K .; Vandewalle, J. (1999) „Nejméně čtverce podporují klasifikátory vektorových strojů“, Neural Processing Letters , 9 (3), 293–300.
  2. ^ Vapnik, V. Podstata teorie statistického učení. Springer-Verlag, New York, 1995.
  3. ^ MacKay, D. J. C. Bayesian interpolace. Neural Computation, 4 (3): 415–447, květen 1992.
  4. ^ MacKay, D. J. C. Praktický bayesovský rámec pro backpropagační sítě. Neural Computation, 4 (3): 448–472, květen 1992.
  5. ^ MacKay, D. J. C. Důkazní rámec aplikovaný na klasifikační sítě. Neural Computation, 4 (5): 720–736, září 1992.

Bibliografie

  • JAK Suykens, T. Van Gestel, J. De Brabanter, B. De Moor, J. Vandewalle, Least Squares Support Vector Machines, World Scientific Pub. Co., Singapore, 2002. ISBN   981-238-151-1
  • Suykens J. A. K., Vandewalle J., Nejmenší čtverce podporují klasifikátory vektorových strojů, Neural Processing Letters , sv. 9, č. 3, červen 1999, str. 293–300.
  • Vladimir Vapnik. Podstata teorie statistického učení . Springer-Verlag, 1995. ISBN   0-387-98780-0
  • MacKay, DJC, Pravděpodobné sítě a věrohodné předpovědi - přehled praktických Bayesiánských metod pro neuronové sítě pod dohledem. Network: Computation in Neural Systems , sv. 6, 1995, s. 469–505.

externí odkazy

  • www.esat.kuleuven.be/sista/lssvmlab/ Sada nejmenších čtverců podporuje sadu vektorových strojů Lab (LS-SVMlab) obsahuje implementace Matlab / C pro řadu algoritmů LS-SVM“.
  • www.kernel-machines.org „Podpora vektorových strojů a metod založených na jádře (Smola & Schölkopf)“.
  • www.gaussianprocess.org „Gaussovské procesy: Modelování dat pomocí Gaussova procesu upřednostňuje funkce pro regresi a klasifikaci (MacKay, Williams)“.
  • www.support-vector.net „Podpora vektorových strojů a metod založených na jádře (Cristianini)“.
  • dlib : Obsahuje implementaci SVM nejmenších čtverců pro rozsáhlé datové sady.