Diskriminační model - Discriminative model

Diskriminační modely , označované také jako podmíněné modely , jsou třídou logistických modelů používaných ke klasifikaci nebo regresi. Rozlišují hranice rozhodování prostřednictvím pozorovaných údajů, jako je úspěšný/neúspěšný, výhra/prohra, živý/mrtvý nebo zdravý/nemocný.

Mezi typické diskriminační modely patří logistická regrese (LR), podmíněná náhodná pole (CRF) (zadaná přes neorientovaný graf), rozhodovací stromy a mnoho dalších. Mezi typické generativní modelové přístupy patří naivní Bayesovy klasifikátory , Gaussovy směšovací modely , variační autoenkodéry , generativní kontradiktorní sítě a další.

Definice

Na rozdíl od generativního modelování, které studuje na základě společné pravděpodobnosti , diskriminační modelování studuje nebo přímo mapuje danou nepozorovanou proměnnou (cíl), označení třídy záviselo na pozorovaných proměnných (tréninkové vzorky). Například v rozpoznávání objektů , je pravděpodobné, že se vektor surových pixelů (nebo znaky extrahovanými z nezpracovaných pixelů obrazu). V rámci pravděpodobnostního rámce se to provádí modelováním podmíněného rozdělení pravděpodobnosti , které lze použít pro predikci z . Všimněte si, že stále existuje rozdíl mezi podmíněným modelem a diskriminačním modelem, i když častěji jsou jednoduše kategorizovány jako diskriminační model. ${\ displaystyle P (x, y)}$ ${\ Displaystyle P (y | x)}$ ${\ displaystyle x}$ ${\ displaystyle y}$ ${\ displaystyle x}$ ${\ Displaystyle P (y | x)}$ ${\ displaystyle y}$ ${\ displaystyle x}$

Čistě diskriminační model vs. podmíněný model

A podmíněné modelové modely podmíněné rozdělení pravděpodobnosti, zatímco tradiční diskriminativní modelu usiluje o optimalizaci na mapování vstup kolem většiny podobných vyškolení vzorků.

Typické diskriminační přístupy k modelování

Následující přístup je založen na předpokladu, že je zadán tréninkový soubor dat , kde je odpovídající výstup pro vstup . ${\ Displaystyle D = \ {(x_ {i}; y_ {i}) | i \ leq N \ in \ mathbb {Z} \}}$ ${\ displaystyle y_ {i}}$ ${\ displaystyle x_ {i}}$

Lineární klasifikátor

Máme v úmyslu použít tuto funkci k simulaci chování toho, co jsme pozorovali ze sady tréninkových dat metodou lineárního klasifikátoru . Pomocí vektoru společných prvků je rozhodovací funkce definována jako: ${\ displaystyle f (x)}$ ${\ Displaystyle \ phi (x, y)}$

{\ Displaystyle f (x, w) = \ arg \ max _ {y} w^{T} \ phi (x, y)}

Podle Memisevicovy interpretace, která také vypočítává skóre, které měří vypočítatelnost vstupu s potenciálním výstupem . Poté určuje třídu s nejvyšším skóre. ${\ Displaystyle w^{T} \ phi (x, y)}$ ${\ Displaystyle c (x, y; w)}$ ${\ displaystyle x}$ ${\ displaystyle y}$ ${\ displaystyle \ arg \ max}$

Logistická regrese (LR)

Protože je v teorii rozhodování běžně používaná funkce ztráty 0-1 , podmíněné rozdělení pravděpodobnosti , kde je vektor parametrů pro optimalizaci tréninkových dat, by bylo možné pro logistický regresní model znovu zvážit jako následující: ${\ Displaystyle P (y | x; w)}$ ${\ displaystyle w}$

{\ Displaystyle P (y | x; w) = {\ frac {1} {Z (x; w)}} \ \ exp (w^{T} \ phi (x, y))}

, s

{\ Displaystyle Z (x; w) = \ textstyle \ sum _ {y} \ displaystyle \ exp (w^{T} \ phi (x, y))}

Rovnice výše představuje logistickou regresi . Všimněte si, že zásadním rozdílem mezi modely je jejich způsob zavádění pozdější pravděpodobnosti. Další pravděpodobnost je odvozena z parametrického modelu. Parametr pak můžeme maximalizovat podle následující rovnice:

{\ Displaystyle L (w) = \ textstyle \ sum _ {i} \ displaystyle \ log p (y^{i} | x^{i}; w)}

Mohla by být také nahrazena níže uvedenou rovnicí log-loss :

{\ Displaystyle l^{\ log} (x^{i}, y^{i}, c (x^{i}; w)) =-\ log p (y^{i} | x^{i} ; w) = \ log Z (x^{i}; w) -w^{T} \ phi (x^{i}, y^{i})}

Protože ztráta protokolu je odlišitelná, lze k optimalizaci modelu použít metodu založenou na přechodu. Globální optimum je zaručeno, protože objektivní funkce je konvexní. Gradient pravděpodobnosti protokolu je reprezentován:

{\ Displaystyle {\ frac {\ partial L (w)} {\ partial w}} = \ textstyle \ sum _ {i} \ displaystyle \ phi (x^{i}, y^{i})-E_ {p (y | x^{i}; w)} \ phi (x^{i}, y)}

kde je očekávání . ${\ Displaystyle E_ {p (y | x^{i}; w)}}$ ${\ Displaystyle p (y | x^{i}; w)}$

Výše uvedená metoda poskytne efektivní výpočet pro relativně malý počet klasifikací.

Kontrast s generativním modelem

Kontrast v přístupech

Řekněme, že jako ukázky školení dostaneme označení třídy (klasifikace) a proměnné funkcí . ${\ displaystyle m}$ ${\ displaystyle n}$ ${\ Displaystyle Y: \ {y_ {1}, y_ {2}, \ ldots, y_ {m} \}, X: \ {x_ {1}, x_ {2}, \ ldots, x_ {n} \} }$

Generativní model bere společnou pravděpodobnost , kde je vstup a je návěští, a pomocí Bayesovy věty předpovídá nejznámější známku pro neznámou proměnnou . ${\ displaystyle P (x, y)}$ ${\ displaystyle x}$ ${\ displaystyle y}$ ${\ displaystyle {\ widetilde {y}} \ v Y}$ ${\ displaystyle {\ widetilde {x}}}$

Diskriminační modely, na rozdíl od generativních modelů , neumožňují generovat vzorky ze společné distribuce pozorovaných a cílových proměnných. U úkolů, jako je klasifikace a regrese , které nevyžadují společnou distribuci, však mohou diskriminační modely přinést vynikající výkon (částečně proto, že mají méně proměnných k výpočtu). Na druhou stranu jsou generativní modely obvykle flexibilnější než diskriminační modely při vyjadřování závislostí v komplexních učebních úlohách. Většina diskriminačních modelů je navíc ze své podstaty pod dohledem a nemůže snadno podporovat učení bez dozoru . Podrobnosti specifické pro aplikaci nakonec diktují vhodnost výběru diskriminačního versus generativního modelu.

Diskriminační modely a generativní modely se také liší v zavedení zadní možnosti . Aby byla zachována co nejmenší očekávaná ztráta, měla by být získána minimalizace nesprávné klasifikace výsledku. V diskriminačním modelu, pozdějších pravděpodobnostech, je odvozeno z parametrického modelu, kde parametry pocházejí z tréninkových dat. Body odhadu parametrů jsou získány z maximalizace výpočtu pravděpodobnosti nebo distribuce nad parametry. Na druhou stranu, vzhledem k tomu, že se generativní modely zaměřují na společnou pravděpodobnost, je v Bayesově větě , která je ${\ Displaystyle P (y | x)}$ ${\ Displaystyle P (k)}$

{\ Displaystyle P (y | x) = {\ frac {p (x | y) p (y)} {\ textstyle \ sum _ {i} p (x | i) p (i) \ displaystyle}} = = { \ frac {p (x | y) p (y)} {p (x)}}}

.

Výhody a nevýhody aplikace

V opakovaných experimentech se zde uplatňuje logistická regrese a naivní Bayes pro různé modely úlohy binární klasifikace, diskriminační učení vede k nižším asymptotickým chybám, zatímco generativní vede k vyšším asymptotickým chybám rychleji. Ve společné práci Ulusoye a Bishopa, Porovnání generativních a diskriminačních technik pro detekci a klasifikaci objektů , však uvádějí, že výše uvedené tvrzení je pravdivé pouze tehdy, je -li model vhodný pro data (i když distribuce dat je správně modelována generativním modelem ).

Výhody

Významné výhody používání diskriminačního modelování jsou:

Vyšší přesnost, která většinou vede k lepším výsledkům učení.
Umožňuje zjednodušení vstupu a poskytuje přímý přístup k ${\ Displaystyle P (y | x)}$
Šetří výpočetní zdroj
Generuje nižší asymptotické chyby

Ve srovnání s výhodami použití generativního modelování:

Bere v úvahu všechna data, což by mohlo mít za následek pomalejší zpracování jako nevýhodu
Vyžaduje méně tréninkových vzorků
Flexibilní rámec, který by mohl snadno spolupracovat s dalšími potřebami aplikace

Nevýhody

Metoda školení obvykle vyžaduje více technik numerické optimalizace
Podobně podle definice bude diskriminační model pro řešení složitého problému v reálném světě potřebovat kombinaci více dílčích úkolů

Optimalizace v aplikacích

Protože oba způsoby modelování přinášejí výhody i nevýhody, bude kombinace obou přístupů dobrým modelováním v praxi. Například v Marrasově článku Společný diskriminační generativní model pro konstrukci a klasifikaci deformovatelných modelů on a jeho spoluautoři používají kombinaci dvou modelování na klasifikaci obličejů modelů a získávají vyšší přesnost než tradiční přístup.

Podobně Kelm také navrhl kombinaci dvou modelování pro klasifikaci pixelů ve svém článku Kombinace generativních a diskriminačních metod pro klasifikaci pixelů s vícepodmíněným učením .

Během procesu extrakce diskriminačních funkcí před klastrováním není analýza hlavních komponent (PCA), i když se běžně používá, nutně diskriminačním přístupem. Naproti tomu LDA je diskriminační. Lineární diskriminační analýza (LDA) poskytuje účinný způsob odstranění nevýhod, které uvádíme výše. Jak víme, diskriminační model potřebuje před klasifikací kombinaci více dílčích úkolů a LDA poskytuje vhodné řešení tohoto problému zmenšením dimenze.

V článku společnosti Beyerlein , DISCRIMINATIVE MODEL COMBINATION , diskriminační modelová kombinace poskytuje nový přístup k automatickému rozpoznávání řeči. Pomáhá nejen optimalizovat integraci různých druhů modelů do jednoho log-lineárního pozdějšího rozdělení pravděpodobnosti. Tato kombinace má také za cíl minimalizovat empirickou chybovost slov u tréninkových vzorků.

V článku, Sjednocený a diskriminační model pro upřesnění dotazů, Guo a jeho partneři používají sjednocený diskriminační model při zpřesňování dotazů pomocí lineárního klasifikátoru a úspěšně získávají mnohem vyšší míru přesnosti. Experiment, který navrhli, také považuje generativní model za srovnání s unifikovaným modelem. Jak se očekávalo v aplikaci v reálném světě, generativní model funguje nejhůře ve srovnání s ostatními modely, včetně modelů bez jejich vylepšení.

Typy

Mezi příklady diskriminačních modelů patří:

Logistická regrese , typ generalizované lineární regrese používané pro předpovídání binárních nebo kategorických výstupů (také známé jako klasifikátory maximální entropie )
Boosting (meta-algoritmus)
Podmíněná náhodná pole
Lineární regrese
Náhodné lesy

Viz také

Generativní model

Languages

In other projects