Multinomiální logistická regrese - Multinomial logistic regression

V statistik , multinomické logistická regrese je klasifikace metoda, která zevšeobecní logistická regrese na multiclass problémů , tedy s více než dvěma možnými diskrétních výsledky. To znamená, že je to model, který se používá k předpovědi pravděpodobnosti různých možných výsledků kategoricky distribuované závislé proměnné , dané sadou nezávislých proměnných (které mohou mít skutečnou hodnotu, binární hodnotu, kategorickou hodnotu atd.) ).

Multinomické logistická regrese je známá různými jinými jmény, včetně polytomous LR , multiclass LR , Softmax regrese , multinomické logit ( mlogit ), přičemž maximální entropie ( MaxEnt ) třídiče a podmíněného modelu maximální entropie .

Pozadí

Multinomiální logistická regrese se používá, když je závislá proměnná, o kterou se jedná, nominální (ekvivalentně kategorická , což znamená, že spadá do kterékoli ze sady kategorií, které nelze smysluplně řadit) a pro které existují více než dvě kategorie. Některé příklady by byly:

  • Který obor si vybere vysokoškolák s ohledem na jeho známky, deklarované záliby a záliby atd.?
  • Jakou krevní skupinu má člověk s ohledem na výsledky různých diagnostických testů?
  • Které osobě bylo v aplikaci pro vytáčení mobilních telefonů vyřčeno dané vlastnosti řečového signálu?
  • Kterého kandidáta bude člověk volit s ohledem na konkrétní demografické charakteristiky?
  • Ve které zemi bude firma hledat kancelář, vzhledem k vlastnostem firmy a různých kandidátských zemí?

To všechno jsou problémy se statistickou klasifikací . Všichni mají společnou závislou proměnnou , kterou lze předpovědět, která pochází z jedné z omezené sady položek, které nelze smysluplně uspořádat, a také sadu nezávislých proměnných (známých také jako funkce, vysvětlující prvky atd.), Které se používají předpovídat závislou proměnnou. Multinomiální logistická regrese je konkrétním řešením klasifikačních problémů, které k odhadu pravděpodobnosti každé konkrétní hodnoty závislé proměnné používají lineární kombinaci pozorovaných znaků a některých parametrů specifických pro problém. Nejlepší hodnoty parametrů pro daný problém jsou obvykle stanoveny z některých tréninkových dat (např. Někteří lidé, pro které jsou známy jak výsledky diagnostických testů, tak krevní skupiny, nebo některé příklady mluvených slov).

Předpoklady

Multinomiální logistický model předpokládá, že data jsou specifická pro každý případ; to znamená, že každá nezávislá proměnná má pro každý případ jedinou hodnotu. Multinomiální logistický model také předpokládá, že závislou proměnnou nelze v žádném případě dokonale předpovědět z nezávislých proměnných. Stejně jako u jiných typů regrese není potřeba, aby byly nezávislé proměnné na sobě statisticky nezávislé (na rozdíl například od naivního Bayesova klasifikátoru ); Předpokládá se však, že kolinearita je relativně nízká, protože je obtížné rozlišovat mezi dopady několika proměnných, pokud tomu tak není.

Pokud se k modelování voleb používá multinomiální logit, spoléhá se na předpokladu nezávislosti irelevantních alternativ (IIA), což není vždy žádoucí. Tento předpoklad uvádí, že šance upřednostnit jednu třídu před jinou nezávisí na přítomnosti nebo nepřítomnosti jiných „irelevantních“ alternativ. Například relativní pravděpodobnost přijetí auta nebo autobusu do práce se nezmění, pokud je jako další možnost přidáno kolo. To umožňuje modelování volby K alternativ jako sady nezávislých binárních voleb K -1, ve kterých je jedna alternativa vybrána jako „pivot“ a druhá K -1 je porovnána s ní, jedna po druhé. Hypotéza IIA je základní hypotézou v teorii racionální volby; nicméně četné studie v psychologii ukazují, že jednotlivci často tento předpoklad při výběru porušují. Příkladem problémového případu je situace, kdy mezi možnosti patří auto a modrý autobus. Předpokládejme, že poměr šancí mezi těmito dvěma je 1: 1. Nyní, pokud je zavedena možnost červeného autobusu, může být člověk lhostejný mezi červeným a modrým autobusem, a proto může vykazovat poměr šancí auto: modrý autobus: červený autobus 1: 0,5: 0,5, čímž se zachová poměr 1: 1 auto: jakýkoli autobus, přičemž se použije změněný poměr auto: modrý autobus 1: 0,5. Zde nebyla volba červeného autobusu ve skutečnosti irelevantní, protože červený autobus byl perfektní náhradou za modrý autobus.

Pokud se k modelování voleb používá multinomiální logit, může to v některých situacích příliš omezovat relativní preference mezi různými alternativami. Tento bod je obzvláště důležité vzít v úvahu, pokud si analýza klade za cíl předpovědět, jak by se volby změnily, pokud by zmizela jedna alternativa (například pokud by jeden politický kandidát odstoupil ze tří kandidátských ras). V takových případech mohou být použity jiné modely, jako je vnořený logit nebo multinomiální probit , protože umožňují porušení IIA.

Modelka

Úvod

Existuje několik ekvivalentních způsobů, jak popsat matematický model, který je základem multinomiální logistické regrese. To může ztěžovat srovnání různých způsobů zpracování předmětu v různých textech. Článek o logistické regresi představuje řadu ekvivalentních formulací jednoduché logistické regrese a mnohé z nich mají v multinomickém logitovém modelu obdoby.

Myšlenkou všech, stejně jako v mnoha jiných statistických klasifikačních technikách, je sestrojit funkci lineárního prediktoru, která sestrojí skóre ze sady vah, které jsou lineárně kombinovány s vysvětlujícími proměnnými (rysy) daného pozorování pomocí bodového součinu :

kde X i je vektor vysvětlujících proměnných popisujících pozorování i , β k je vektor váh (nebo regresních koeficientů ) odpovídajících výsledku k a skóre ( X i , k ) je skóre spojené s přiřazením pozorování i do kategorie k . V diskrétním výběru teorii, kde pozorování představují lidé a výsledky představují volby, skóre je považován za nástroj spojený s osobou i vybírá výsledek K . Předvídaný výsledek je ten s nejvyšším skóre.

Rozdíl mezi multinomickým logitovým modelem a řadou dalších metod, modelů, algoritmů atd. Se stejným základním nastavením ( perceptronový algoritmus, podpůrné vektorové stroje , lineární diskriminační analýza atd.) Je postup pro stanovení (trénink) optimálních vah /koeficienty a způsob, jakým je skóre interpretováno. Zejména v multinomickém logitovém modelu může být skóre přímo převedeno na hodnotu pravděpodobnosti, což naznačuje pravděpodobnost pozorování i výběr výsledku k vzhledem k měřeným charakteristikám pozorování. To poskytuje principiální způsob začlenění predikce konkrétního multinomického logitového modelu do většího postupu, který může zahrnovat více takových předpovědí, každou s možností chyby. Bez takových prostředků kombinování předpovědí se chyby množí. Představte si například velký prediktivní model, který je rozdělen na řadu submodelů, kde je predikce daného submodelu použita jako vstup jiného submodelu a tato predikce je zase použita jako vstup do třetího submodelu atd. Pokud má každý submodel 90% přesnost ve svých předpovědích a existuje pět submodelů v sérii, pak celkový model má pouze 0,9 5 = 59% přesnost. Pokud má každý dílčí model přesnost 80%, celková přesnost klesne na 0,8 5 = 33% přesnost. Tento problém je známý jako šíření chyb a je vážným problémem v prediktivních modelech reálného světa, které se obvykle skládají z mnoha částí. Jedním ze způsobů, jak tento problém zmírnit, je předvídat pravděpodobnosti každého možného výsledku, a ne jednoduše vytvářet jedinou optimální predikci.

Založit

Základní nastavení je stejné jako v logistické regresi , jediný rozdíl je v tom, že závislé proměnné jsou spíše kategorické než binární , tj. Existuje K možných výsledků, než jen dvě. Následující popis je poněkud zkrácen; další podrobnosti najdete v článku o logistické regresi .

Datové body

Konkrétně se předpokládá, že máme řadu N pozorovaných datových bodů. Každý datový bod i (v rozmezí od 1 do N ) se skládá ze sady M vysvětlujících proměnných x 1, i ... x M, i (aka nezávislé proměnné , prediktorové proměnné, funkce atd.) A související kategorický výsledek Y i (aka závislá proměnná , proměnná odezvy), která může nabývat jedné z K možných hodnot. Tyto možné hodnoty představují logicky jednotlivé kategorie (např různé politické strany, krevních skupin a podobně), a jsou často popsány matematicky libovolně přiřazení každé číslo od 1 do K . Vysvětlující proměnné a výsledek představují pozorované vlastnosti datových bodů a často jsou považovány za zdroje pocházející z pozorování N „experimentů“ - ačkoli „experiment“ nemusí spočívat v ničem jiném než ve shromažďování dat. Cílem multinomiální logistické regrese je sestrojit model, který vysvětluje vztah mezi vysvětlujícími proměnnými a výsledkem, aby bylo možné výsledek nového „experimentu“ správně předpovědět pro nový datový bod, pro který vysvětlující proměnné, ale nikoli výsledek, jsou k dispozici. V tomto procesu se model pokouší vysvětlit relativní účinek různých vysvětlujících proměnných na výsledek.

Nějaké příklady:

  • Pozorovanými výsledky jsou různé varianty onemocnění, jako je hepatitida (případně zahrnující „žádné onemocnění“ a/nebo jiná související onemocnění) u souboru pacientů, a vysvětlujícími proměnnými mohou být charakteristiky pacientů považovaných za relevantní (pohlaví, rasa) věk, krevní tlak , výsledky různých testů jaterních funkcí atd.). Cílem je pak předpovědět, která nemoc způsobuje pozorované příznaky související s játry u nového pacienta.
  • Pozorovanými výsledky jsou strana zvolená skupinou lidí ve volbách a vysvětlujícími proměnnými jsou demografické charakteristiky každé osoby (např. Pohlaví, rasa, věk, příjem atd.). Cílem je pak předpovědět pravděpodobné hlasování nového voliče s danými vlastnostmi.

Lineární prediktor

Stejně jako v jiných formách lineární regrese používá multinomiální logistická regrese funkci lineárního prediktoru k předpovědi pravděpodobnosti, že pozorování i má výsledek k , následující formy:

kde je regresní koeficient spojený s m th vysvětlující proměnnou a k th výsledkem. Jak je vysvětleno v článku o logistické regresi , regresní koeficienty a vysvětlující proměnné jsou obvykle seskupeny do vektorů velikosti M+1 , takže funkci prediktoru lze zapisovat kompaktněji:

kde je sada regresních koeficientů spojených s výsledkem k , a (řádkový vektor) je sada vysvětlujících proměnných spojených s pozorováním i .

Jako sada nezávislých binárních regresí

Abychom dospěli k multinomickému logitovému modelu, lze si pro K možné výsledky představit spuštění K -1 nezávislých binárních logistických regresních modelů, ve kterých je jeden výsledek vybrán jako „pivot“ a poté jsou ostatní K -1 výstupy samostatně regresovány proti pivotní výsledek. To by probíhalo následovně, pokud je jako pivot zvolen výsledek K (poslední výsledek):

Tato formulace je také známá jako alr transformace běžně používaná v analýze kompozičních dat. Všimli jsme si, že jsme zavedli samostatné sady regresních koeficientů, jeden pro každý možný výsledek.

Pokud umocníme obě strany a vyřešíme pravděpodobnosti, dostaneme:

Když použijeme fakt, že všech K pravděpodobností se musí rovnat jedné, zjistíme:

Můžeme to použít k nalezení dalších pravděpodobností:

Skutečnost, že provádíme několik regresí, odhaluje, proč model spoléhá na předpoklad nezávislosti výše popsaných nerelevantních alternativ .

Odhad koeficientů

Neznámé parametry v každém vektoru β k jsou obvykle společně odhadovány maximem a posteriori (MAP) odhadem, což je rozšíření maximální pravděpodobnosti pomocí regularizace závaží k prevenci patologických řešení (obvykle čtvercová regularizační funkce, která je ekvivalentní umístění Gaussovo předchozí rozdělení na váhy s nulovým průměrem , ale jsou možná i jiná rozdělení). Řešení se obvykle nachází pomocí iteračního postupu, jako je generalizované iterativní škálování , iterativně znovu vážené nejmenší čtverce (IRLS), pomocí algoritmů pro optimalizaci založených na gradientu, jako je L-BFGS , nebo specializovaných algoritmů sestupu souřadnic .

Jako log-lineární model

Formulaci binární logistické regrese jako log-lineárního modelu lze přímo rozšířit na vícecestnou regresi. To znamená, že modelujeme logaritmus pravděpodobnosti zobrazení daného výstupu pomocí lineárního prediktoru a také dalšího normalizačního faktoru , logaritmu rozdělovací funkce :

Stejně jako v binárním případě potřebujeme další termín, abychom zajistili, že celý soubor pravděpodobností vytvoří rozdělení pravděpodobnosti , tj. Aby se všechny sečetly do jedné:

Důvodem, proč potřebujeme přidat termín k zajištění normalizace, spíše než se množit, jak je obvyklé, je to, že jsme vzali logaritmus pravděpodobností. Umocňování obou stran mění aditivní člen na multiplikativní faktor, takže pravděpodobnost je pouze Gibbsova míra :

Množství Z se nazývá funkce rozdělení pro distribuci. Můžeme vypočítat hodnotu funkce oddílu použitím výše uvedeného omezení, které vyžaduje součet všech pravděpodobností na 1:

Proto:

Všimněte si, že tento faktor je „konstantní“ v tom smyslu, že nejde o funkci Y i , což je proměnná, přes kterou je definováno rozdělení pravděpodobnosti. Rozhodně však není konstantní, pokud jde o vysvětlující proměnné, nebo zásadně, pokud jde o neznámé regresní koeficienty β k , které budeme muset určit pomocí nějakého optimalizačního postupu.

Výsledné rovnice pro pravděpodobnosti jsou

Nebo obecně:

Následující funkce:

je označována jako funkce softmax . Důvodem je, že důsledkem umocňování hodnot je zveličování rozdílů mezi nimi. V důsledku toho vrátí hodnotu blízkou 0 vždy, když je výrazně menší než maximum všech hodnot, a vrátí hodnotu blízkou 1, pokud je použita na maximální hodnotu, pokud není extrémně blízko další největší hodnotě. Funkci softmax lze tedy použít ke konstrukci váženého průměru, který se chová jako plynulá funkce (kterou lze pohodlně odlišit atd.) A která aproximuje funkci indikátoru

Rovnice pravděpodobnosti tedy můžeme zapsat jako

Funkce softmax tedy slouží jako ekvivalent logistické funkce v binární logistické regresi.

Všimněte si, že ne všechny vektory koeficientů jsou jednoznačně identifikovatelné . To je dáno skutečností, že všechny pravděpodobnosti se musí rovnat 1, takže jedna z nich bude zcela určena, jakmile budou známy všechny ostatní. V důsledku toho existují pouze samostatně specifikovatelné pravděpodobnosti, a tedy samostatně identifikovatelné vektory koeficientů. Jedním ze způsobů, jak to vidět, je poznamenat, že pokud ke všem vektorům koeficientů přidáme konstantní vektor, rovnice jsou totožné:

V důsledku toho je obvyklé nastavit (nebo alternativně jeden z dalších vektorů koeficientů). V podstatě nastavíme konstantu tak, aby se jeden z vektorů stal 0, a všechny ostatní vektory se transformovaly do rozdílu mezi těmito vektory a vektorem, který jsme vybrali. To je ekvivalentní „otáčení“ kolem jedné z voleb K a zkoumání, o kolik lepší nebo horší jsou všechny ostatní volby K -1, vzhledem k volbě, kolem které otáčíme. Matematicky transformujeme koeficienty takto:

To vede k následujícím rovnicím:

Jiné než primární symboly na regresních koeficientech, to je přesně stejné jako forma modelu popsaného výše, pokud jde o K -1 nezávislé obousměrné regrese.

Jako latentně variabilní model

Je také možné formulovat multinomiální logistickou regresi jako latentní variabilní model podle obousměrného latentního variabilního modelu popsaného pro binární logistickou regresi. Tato formulace je v teorii modelů diskrétní volby běžná a usnadňuje srovnání multinomiální logistické regrese se souvisejícím multinomickým probitovým modelem a také její rozšíření na složitější modely.

Představte si, že pro každý datový bod i a možný výsledek k = 1,2, ..., K existuje spojitá latentní proměnná Y i, k * (tj. Nepozorovaná náhodná proměnná ), která je distribuována následovně:

kde tj. standardní rozdělení extrémních hodnot typu 1 .

Tuto latentní proměnnou lze považovat za nástroj spojený s datovým bodem i, který volí výsledek k , kde je určitá náhodnost ve skutečném množství získaného nástroje, což odpovídá dalším nemodelovaným faktorům, které do výběru vstupují. Hodnota skutečné proměnné je pak z těchto latentních proměnných stanovena nenáhodným způsobem (tj. Náhodnost byla přesunuta z pozorovaných výsledků do latentních proměnných), kde je výsledek k vybrán právě tehdy, pokud je přidružený nástroj ( value of ) is greater than the utilities of all the other choices, ie if the utility associated with result k is the maximum of all the utility. Protože latentní proměnné jsou spojité , je pravděpodobnost, že dvě mají přesně stejnou hodnotu, 0, takže scénář ignorujeme. To je:

Nebo ekvivalentně:

Podívejme se blíže na první rovnici, kterou můžeme napsat následovně:

Zde je třeba si uvědomit několik věcí:

  1. Obecně platí, že pokud a pak To znamená, že rozdíl dvou nezávislých identicky distribuovaných proměnných distribuovaných extrémní hodnoty distribuuje logistickou distribuci , kde první parametr není důležitý. To je pochopitelné, protože první parametr je parametr umístění , tj. Posouvá průměr o pevnou částku, a pokud jsou obě hodnoty posunuty o stejnou částku, jejich rozdíl zůstává stejný. To znamená, že všechny relační výroky, které jsou základem pravděpodobnosti dané volby, zahrnují logistické rozdělení, což činí počáteční volbu rozdělení extrémní hodnoty, která se zdála poněkud libovolná, poněkud srozumitelnější.
  2. Druhý parametr v extrémní hodnotě nebo logistické distribuci je parametr měřítka , takže pokud pak To znamená, že účinek použití chybové proměnné s libovolným parametrem měřítka místo měřítka 1 lze kompenzovat jednoduše vynásobením všech regresních vektorů stejné měřítko. Spolu s předchozím bodem to ukazuje, že použití standardního rozdělení extrémních hodnot (umístění 0, měřítko 1) pro chybové proměnné neznamená žádnou ztrátu obecnosti oproti použití libovolného rozdělení extrémních hodnot. Pokud je použito obecnější rozdělení , model je ve skutečnosti neidentifikovatelný (žádná jednotlivá sada optimálních koeficientů).
  3. Protože se používají pouze rozdíly vektorů regresních koeficientů, přidání libovolné konstanty do všech vektorů koeficientů nemá na model žádný vliv. To znamená, že stejně jako v log -lineárním modelu lze identifikovat pouze K -1 vektorů koeficientů a poslední lze nastavit na libovolnou hodnotu (např. 0).

Ve skutečnosti najít hodnoty výše uvedených pravděpodobností je poněkud obtížné a je problémem spočítat statistiku konkrétního řádu (první, tj. Maximum) ze sady hodnot. Lze však ukázat, že výsledné výrazy jsou stejné jako ve výše uvedených formulacích, tj. Ty dva jsou ekvivalentní.

Odhad zachycení

Při použití multinomiální logistické regrese je jako referenční kategorie vybrána jedna kategorie závislé proměnné. Pro všechny nezávislé proměnné pro každou kategorii závislé proměnné jsou určeny samostatné poměry šancí s výjimkou referenční kategorie, která je z analýzy vynechána. Exponenciální koeficient beta představuje změnu v pravděpodobnosti, že závislá proměnná je v konkrétní kategorii vůči referenční kategorii, spojená se změnou jedné nezávislé jednotky na odpovídající nezávislé proměnné.

Aplikace ve zpracování přirozeného jazyka

Při zpracování přirozeného jazyka se jako alternativa k naivním Bayesovým klasifikátorům běžně používají vícečlenné klasifikátory LR, protože nepředpokládají statistickou nezávislost náhodných proměnných (běžně známých jako funkce ), které slouží jako prediktory. Učení v takovém modelu je však pomalejší než u naivního Bayesova klasifikátoru, a proto nemusí být vhodné vzhledem k velkému počtu tříd, které je třeba se naučit. Zejména učení v klasifikátoru Naive Bayes je jednoduchá záležitost spočítání počtu souběžných výskytů vlastností a tříd, zatímco v klasifikátoru maximální entropie musí váhy, které jsou obvykle maximalizovány pomocí odhadu maxima a posteriori (MAP), naučit se iteračním postupem; viz #Odhad koeficientů .

Viz také

Reference