V statistik , Bayesovské multivariační lineární regrese je
Bayesian přístup k multivariační lineární regrese , tj lineární regrese , kde předpokládaný výsledek je vektor korelovaných náhodných proměnných , spíše než jediný skalární náhodné proměnné. Obecnější zacházení s tímto přístupem lze nalézt v článku MMSE estimator .
Detaily
Uvažujme o regresním problému, kde závislá proměnná, která se má předpovědět, není jediný skalár se skutečnou hodnotou, ale vektor délky m korelovaných reálných čísel. Stejně jako ve standardním regresním nastavení existuje n pozorování, kde každé pozorování i sestává z vysvětlujících proměnných k -1
seskupených do vektoru
délky k (kde byla přidána fiktivní proměnná s hodnotou 1 umožňující koeficient interceptu ). To lze považovat za sadu m regresních problémů souvisejících s každým pozorováním i :
kde
jsou všechny chyby v korelaci. Ekvivalentně lze na ni pohlížet jako na jeden regresní problém, kde výsledkem je vektor řádků
a vektory regresních koeficientů se skládají vedle sebe, a to následovně:
Matice koeficientu B je matice, kde jsou vektory koeficientů pro každý regresní problém skládány vodorovně:
Vektor šumu pro každé pozorování i
je společně normální, takže výsledky pro dané pozorování jsou korelovány:
Celý regresní problém můžeme napsat do maticového tvaru jako:
kde Y a E jsou matice. Konstrukce matice X je matice s pozorováními uspořádaných vertikálně, jak ve standardním lineární regresní nastavení:
Klasickým, častým lineárním řešením nejmenších čtverců je jednoduše odhadnout matici regresních koeficientů pomocí Moore-Penroseovy pseudoinverze :
-
.
Abychom získali Bayesovské řešení, musíme specifikovat podmíněnou pravděpodobnost a poté najít vhodný konjugát. Stejně jako u jednorozměrného případu lineární Bayesovské regrese zjistíme, že můžeme určit přirozený podmíněný konjugát před (který je závislý na měřítku).
Napišme naši podmíněnou pravděpodobnost jako
psaní chyby z hlediska a výnosů
Hledáme přirozený konjugát dříve - hustotu kloubů, která má stejnou funkční formu jako pravděpodobnost. Protože je pravděpodobnost kvadratická , přepíšeme pravděpodobnost, takže je normální (odchylka od odhadu klasického vzorku).
Použitím stejné techniky jako u Bayesovské lineární regrese rozložíme exponenciální člen pomocí maticové formy techniky součtu čtverců. Zde však také budeme muset použít Maticový diferenciální počet ( produkt Kronecker a vektorizační transformace).
Nejprve použijeme součty čtverců, abychom získali nový výraz pravděpodobnosti:
Rádi bychom vytvořili podmíněnou formu pro předky:
kde je inverzní Wishartovo rozdělení
a je nějakou formou normálního rozdělení v matici . Toho je dosaženo pomocí vektorizační transformace, která převádí pravděpodobnost z funkce matic na funkci vektorů .
Psát si
Nechat
kde označuje produkt Kronecker matic A a B , zevšeobecnění vnějšího produktu, které vynásobí matici maticí pro generování matice, skládající se z každé kombinace produktů prvků z obou matic.
Pak
což povede k pravděpodobnosti, která je v .
S pravděpodobností ve více přitažlivé formě můžeme nyní najít přirozený (podmíněný) konjugát dříve.
Konjugujte předchozí distribuci
Přirozený konjugát před použitím vektorizované proměnné má tvar:
-
,
kde
a
Zadní distribuce
Pomocí výše uvedeného předchozího a pravděpodobnosti lze zadní distribuci vyjádřit jako:
kde . Výrazy zahrnující lze seskupit pomocí:
-
,
s
-
.
To nám nyní umožňuje napsat zadní část v užitečnější formě:
-
.
To má podobu inverzní Wishartovy distribuční doby a normální distribuce Matrix :
a
-
.
Parametry tohoto zadku jsou dány vztahem:
Viz také
Reference