Bayesovská vícerozměrná lineární regrese - Bayesian multivariate linear regression

V statistik , Bayesovské multivariační lineární regrese je Bayesian přístup k multivariační lineární regrese , tj lineární regrese , kde předpokládaný výsledek je vektor korelovaných náhodných proměnných , spíše než jediný skalární náhodné proměnné. Obecnější zacházení s tímto přístupem lze nalézt v článku MMSE estimator .

Obsah

1 Detaily
- 1.1 Konjugujte předchozí distribuci
- 1.2 Zadní distribuce
2 Viz také
3 Reference

Detaily

Uvažujme o regresním problému, kde závislá proměnná, která se má předpovědět, není jediný skalár se skutečnou hodnotou, ale vektor délky m korelovaných reálných čísel. Stejně jako ve standardním regresním nastavení existuje n pozorování, kde každé pozorování i sestává z vysvětlujících proměnných k -1 seskupených do vektoru délky k (kde byla přidána fiktivní proměnná s hodnotou 1 umožňující koeficient interceptu ). To lze považovat za sadu m regresních problémů souvisejících s každým pozorováním i : ${\ displaystyle \ mathbf {x} _ {i}}$

{\ displaystyle y_ {i, 1} = \ mathbf {x} _ {i} ^ {\ rm {T}} {\ boldsymbol {\ beta}} _ {1} + \ epsilon _ {i, 1}}

{\ displaystyle \ cdots}

{\ displaystyle y_ {i, m} = \ mathbf {x} _ {i} ^ {\ rm {T}} {\ boldsymbol {\ beta}} _ {m} + \ epsilon _ {i, m}}

kde jsou všechny chyby v korelaci. Ekvivalentně lze na ni pohlížet jako na jeden regresní problém, kde výsledkem je vektor řádků a vektory regresních koeficientů se skládají vedle sebe, a to následovně: ${\ displaystyle \ {\ epsilon _ {i, 1}, \ ldots, \ epsilon _ {i, m} \}}$ ${\ displaystyle \ mathbf {y} _ {i} ^ {\ rm {T}}}$

{\ displaystyle \ mathbf {y} _ {i} ^ {\ rm {T}} = \ mathbf {x} _ {i} ^ {\ rm {T}} \ mathbf {B} + {\ boldsymbol {\ epsilon }} _ {i} ^ {\ rm {T}}.}

Matice koeficientu B je matice, kde jsou vektory koeficientů pro každý regresní problém skládány vodorovně: ${\ displaystyle k \ krát m}$ ${\ displaystyle {\ boldsymbol {\ beta}} _ {1}, \ ldots, {\ boldsymbol {\ beta}} _ {m}}$

{\ displaystyle \ mathbf {B} = {\ begin {bmatrix} {\ begin {pmatrix} \\ {\ boldsymbol {\ beta}} _ {1} \\\\\ end {pmatrix}} \ cdots {\ begin {pmatrix} \\ {\ boldsymbol {\ beta}} _ {m} \\\\\ end {pmatrix}} \ end {bmatrix}} = {\ begin {bmatrix} {\ begin {pmatrix} \ beta _ { 1,1} \\\ vdots \\\ beta _ {k, 1} \\\ end {pmatrix}} \ cdots {\ begin {pmatrix} \ beta _ {1, m} \\\ vdots \\\ beta _ {k, m} \\\ end {pmatrix}} \ end {bmatrix}}.}

Vektor šumu pro každé pozorování i je společně normální, takže výsledky pro dané pozorování jsou korelovány: ${\ displaystyle {\ boldsymbol {\ epsilon}} _ {i}}$

{\ displaystyle {\ boldsymbol {\ epsilon}} _ {i} \ sim N (0, {\ boldsymbol {\ Sigma}} _ {\ epsilon}).}

Celý regresní problém můžeme napsat do maticového tvaru jako:

{\ displaystyle \ mathbf {Y} = \ mathbf {X} \ mathbf {B} + \ mathbf {E},}

kde Y a E jsou matice. Konstrukce matice X je matice s pozorováními uspořádaných vertikálně, jak ve standardním lineární regresní nastavení: ${\ displaystyle n \ krát m}$ ${\ displaystyle n \ krát k}$

{\ displaystyle \ mathbf {X} = {\ begin {bmatrix} \ mathbf {x} _ {1} ^ {\ rm {T}} \\\ mathbf {x} _ {2} ^ {\ rm {T} } \\\ vdots \\\ mathbf {x} _ {n} ^ {\ rm {T}} \ end {bmatrix}} = {\ begin {bmatrix} x_ {1,1} & \ cdots & x_ {1, k} \\ x_ {2,1} & \ cdots & x_ {2, k} \\\ vdots & \ ddots & \ vdots \\ x_ {n, 1} & \ cdots & x_ {n, k} \ end {bmatrix }}.}

Klasickým, častým lineárním řešením nejmenších čtverců je jednoduše odhadnout matici regresních koeficientů pomocí Moore-Penroseovy pseudoinverze : ${\ displaystyle {\ hat {\ mathbf {B}}}}$

{\ displaystyle {\ hat {\ mathbf {B}}} = (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X}) ^ {- 1} \ mathbf {X} ^ {\ rm { T}} \ mathbf {Y}}

.

Abychom získali Bayesovské řešení, musíme specifikovat podmíněnou pravděpodobnost a poté najít vhodný konjugát. Stejně jako u jednorozměrného případu lineární Bayesovské regrese zjistíme, že můžeme určit přirozený podmíněný konjugát před (který je závislý na měřítku).

Napišme naši podmíněnou pravděpodobnost jako

{\ displaystyle \ rho (\ mathbf {E} | {\ boldsymbol {\ Sigma}} _ {\ epsilon}) \ propto | {\ boldsymbol {\ Sigma}} _ {\ epsilon} | ^ {- n / 2} \ exp (- {\ frac {1} {2}} {\ rm {tr}} (\ mathbf {E} ^ {\ rm {T}} \ mathbf {E} {\ boldsymbol {\ Sigma}} _ { \ epsilon} ^ {- 1})),}

psaní chyby z hlediska a výnosů ${\ displaystyle \ mathbf {E}}$ ${\ displaystyle \ mathbf {Y}, \ mathbf {X},}$ ${\ displaystyle \ mathbf {B}}$

{\ displaystyle \ rho (\ mathbf {Y} | \ mathbf {X}, \ mathbf {B}, {\ boldsymbol {\ Sigma}} _ {\ epsilon}) \ propto | {\ boldsymbol {\ Sigma}} _ {\ epsilon} | ^ {- n / 2} \ exp (- {\ frac {1} {2}} {\ rm {tr}} ((\ mathbf {Y} - \ mathbf {X} \ mathbf {\ mathbf {B}}) ^ {\ rm {T}} (\ mathbf {Y} - \ mathbf {X} \ mathbf {\ mathbf {B}}) {\ boldsymbol {\ Sigma}} _ {\ epsilon} ^ {-1})),}

Hledáme přirozený konjugát dříve - hustotu kloubů, která má stejnou funkční formu jako pravděpodobnost. Protože je pravděpodobnost kvadratická , přepíšeme pravděpodobnost, takže je normální (odchylka od odhadu klasického vzorku). ${\ displaystyle \ rho (\ mathbf {B}, \ Sigma _ {\ epsilon})}$ ${\ displaystyle \ mathbf {B}}$ ${\ displaystyle (\ mathbf {B} - {\ hat {\ mathbf {B}}})}$

Použitím stejné techniky jako u Bayesovské lineární regrese rozložíme exponenciální člen pomocí maticové formy techniky součtu čtverců. Zde však také budeme muset použít Maticový diferenciální počet ( produkt Kronecker a vektorizační transformace).

Nejprve použijeme součty čtverců, abychom získali nový výraz pravděpodobnosti:

{\ displaystyle \ rho (\ mathbf {Y} | \ mathbf {X}, \ mathbf {B}, {\ boldsymbol {\ Sigma}} _ {\ epsilon}) \ propto | {\ boldsymbol {\ Sigma}} _ {\ epsilon} | ^ {- (nk) / 2} \ exp (- {\ rm {tr}} ({\ frac {1} {2}} \ mathbf {S} ^ {\ rm {T}} \ mathbf {S} {\ boldsymbol {\ Sigma}} _ {\ epsilon} ^ {- 1})) | {\ boldsymbol {\ Sigma}} _ {\ epsilon} | ^ {- k / 2} \ exp (- {\ frac {1} {2}} {\ rm {tr}} ((\ mathbf {B} - {\ hat {\ mathbf {B}}}) ^ {\ rm {T}} \ mathbf {X} ^ {\ rm {T}} \ mathbf {X} (\ mathbf {B} - {\ hat {\ mathbf {B}}}) {\ boldsymbol {\ Sigma}} _ {\ epsilon} ^ {- 1} )),}

{\ displaystyle \ mathbf {S} = \ mathbf {Y} - \ mathbf {X} {\ hat {\ mathbf {B}}}}

Rádi bychom vytvořili podmíněnou formu pro předky:

{\ displaystyle \ rho (\ mathbf {B}, {\ boldsymbol {\ Sigma}} _ {\ epsilon}) = \ rho ({\ boldsymbol {\ Sigma}} _ {\ epsilon}) \ rho (\ mathbf { B} | {\ boldsymbol {\ Sigma}} _ {\ epsilon}),}

kde je inverzní Wishartovo rozdělení a je nějakou formou normálního rozdělení v matici . Toho je dosaženo pomocí vektorizační transformace, která převádí pravděpodobnost z funkce matic na funkci vektorů . ${\ displaystyle \ rho ({\ boldsymbol {\ Sigma}} _ {\ epsilon})}$ ${\ displaystyle \ rho (\ mathbf {B} | {\ boldsymbol {\ Sigma}} _ {\ epsilon})}$ ${\ displaystyle \ mathbf {B}}$ ${\ displaystyle \ mathbf {B}, {\ hat {\ mathbf {B}}}}$ ${\ displaystyle {\ boldsymbol {\ beta}} = {\ rm {vec}} (\ mathbf {B}), {\ hat {\ boldsymbol {\ beta}}} = {\ rm {vec}} ({\ klobouk {\ mathbf {B}}})}$

Psát si

{\ displaystyle {\ rm {tr}} ((\ mathbf {B} - {\ hat {\ mathbf {B}}}) ^ {\ rm {T}} \ mathbf {X} ^ {\ rm {T} } \ mathbf {X} (\ mathbf {B} - {\ hat {\ mathbf {B}}}) {\ boldsymbol {\ Sigma}} _ {\ epsilon} ^ {- 1}) = {\ rm {vec }} (\ mathbf {B} - {\ hat {\ mathbf {B}}}) ^ {\ rm {T}} {\ rm {vec}} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} (\ mathbf {B} - {\ hat {\ mathbf {B}}}) {\ boldsymbol {\ Sigma}} _ {\ epsilon} ^ {- 1})}

Nechat

{\ displaystyle {\ rm {vec}} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} (\ mathbf {B} - {\ hat {\ mathbf {B}}}) {\ boldsymbol {\ Sigma}} _ {\ epsilon} ^ {- 1}) = ({\ boldsymbol {\ Sigma}} _ {\ epsilon} ^ {- 1} \ otimes \ mathbf {X} ^ {\ rm {T }} \ mathbf {X}) {\ rm {vec}} (\ mathbf {B} - {\ hat {\ mathbf {B}}}),}

kde označuje produkt Kronecker matic A a B , zevšeobecnění vnějšího produktu, které vynásobí matici maticí pro generování matice, skládající se z každé kombinace produktů prvků z obou matic. ${\ displaystyle \ mathbf {A} \ další \ mathbf {B}}$ ${\ displaystyle m \ krát n}$ ${\ displaystyle p \ times q}$ ${\ displaystyle mp \ krát nq}$

Pak

{\ displaystyle {\ rm {vec}} (\ mathbf {B} - {\ hat {\ mathbf {B}}}) ^ {\ rm {T}} ({\ boldsymbol {\ Sigma}} _ {\ epsilon } ^ {- 1} \ otimes \ mathbf {X} ^ {\ rm {T}} \ mathbf {X}) {\ rm {vec}} (\ mathbf {B} - {\ hat {\ mathbf {B} }})}

{\ displaystyle = ({\ boldsymbol {\ beta}} - {\ hat {\ boldsymbol {\ beta}}}) ^ {\ rm {T}} ({\ boldsymbol {\ Sigma}} _ {\ epsilon} ^ {-1} \ otimes \ mathbf {X} ^ {\ rm {T}} \ mathbf {X}) ({\ boldsymbol {\ beta}} - {\ hat {\ boldsymbol {\ beta}}})}

což povede k pravděpodobnosti, která je v . ${\ displaystyle ({\ boldsymbol {\ beta}} - {\ hat {\ boldsymbol {\ beta}}})}$

S pravděpodobností ve více přitažlivé formě můžeme nyní najít přirozený (podmíněný) konjugát dříve.

Konjugujte předchozí distribuci

Přirozený konjugát před použitím vektorizované proměnné má tvar: ${\ displaystyle {\ boldsymbol {\ beta}}}$

{\ displaystyle \ rho ({\ boldsymbol {\ beta}}, {\ boldsymbol {\ Sigma}} _ {\ epsilon}) = \ rho ({\ boldsymbol {\ Sigma}} _ {\ epsilon}) \ rho ( {\ boldsymbol {\ beta}} | {\ boldsymbol {\ Sigma}} _ {\ epsilon})}

,

kde

{\ displaystyle \ rho ({\ boldsymbol {\ Sigma}} _ {\ epsilon}) \ sim {\ mathcal {W}} ^ {- 1} (\ mathbf {V_ {0}}, {\ boldsymbol {\ nu }} _ {0})}

a

{\ displaystyle \ rho ({\ boldsymbol {\ beta}} | {\ boldsymbol {\ Sigma}} _ {\ epsilon}) \ sim N ({\ boldsymbol {\ beta}} _ {0}, {\ boldsymbol { \ Sigma}} _ {\ epsilon} \ otimes {\ boldsymbol {\ Lambda}} _ {0} ^ {- 1}).}

Zadní distribuce

Pomocí výše uvedeného předchozího a pravděpodobnosti lze zadní distribuci vyjádřit jako:

{\ displaystyle \ rho ({\ boldsymbol {\ beta}}, {\ boldsymbol {\ Sigma}} _ {\ epsilon} | \ mathbf {Y}, \ mathbf {X}) \ propto | {\ boldsymbol {\ Sigma }} _ {\ epsilon} | ^ {- ({\ boldsymbol {\ nu}} _ {0} + m + 1) / 2} \ exp {(- {\ frac {1} {2}} {\ rm {tr}} (\ mathbf {V_ {0}} {\ boldsymbol {\ Sigma}} _ {\ epsilon} ^ {- 1}))}}

{\ displaystyle \ times | {\ boldsymbol {\ Sigma}} _ {\ epsilon} | ^ {- k / 2} \ exp {(- {\ frac {1} {2}} {\ rm {tr}} ( (\ mathbf {B} - \ mathbf {B_ {0}}) ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {0} (\ mathbf {B} - \ mathbf {B_ {0} }) {\ boldsymbol {\ Sigma}} _ {\ epsilon} ^ {- 1}))}}

{\ displaystyle \ times | {\ boldsymbol {\ Sigma}} _ {\ epsilon} | ^ {- n / 2} \ exp {(- {\ frac {1} {2}} {\ rm {tr}} ( (\ mathbf {Y} - \ mathbf {XB}) ^ {\ rm {T}} (\ mathbf {Y} - \ mathbf {XB}) {\ boldsymbol {\ Sigma}} _ {\ epsilon} ^ {- 1}))},}

kde . Výrazy zahrnující lze seskupit pomocí: ${\ displaystyle {\ rm {vec}} (\ mathbf {B_ {0}}) = {\ boldsymbol {\ beta}} _ {0}}$ ${\ displaystyle \ mathbf {B}}$ ${\ displaystyle {\ boldsymbol {\ Lambda}} _ {0} = \ mathbf {U} ^ {\ rm {T}} \ mathbf {U}}$

{\ displaystyle (\ mathbf {B} - \ mathbf {B_ {0}}) ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {0} (\ mathbf {B} - \ mathbf {B_ {0}}) + (\ mathbf {Y} - \ mathbf {XB}) ^ {\ rm {T}} (\ mathbf {Y} - \ mathbf {XB})}

{\ displaystyle = \ left ({\ begin {bmatrix} \ mathbf {Y} \\\ mathbf {UB_ {0}} \ end {bmatrix}} - {\ begin {bmatrix} \ mathbf {X} \\\ mathbf {U} \ end {bmatrix}} \ mathbf {B} \ right) ^ {\ rm {T}} \ left ({\ begin {bmatrix} \ mathbf {Y} \\\ mathbf {UB_ {0}} \ end {bmatrix}} - {\ begin {bmatrix} \ mathbf {X} \\\ mathbf {U} \ end {bmatrix}} \ mathbf {B} \ right)}

{\ displaystyle = \ left ({\ begin {bmatrix} \ mathbf {Y} \\\ mathbf {UB_ {0}} \ end {bmatrix}} - {\ begin {bmatrix} \ mathbf {X} \\\ mathbf {U} \ end {bmatrix}} \ mathbf {B_ {n}} \ right) ^ {\ rm {T}} \ left ({\ begin {bmatrix} \ mathbf {Y} \\\ mathbf {UB_ {0) }} \ end {bmatrix}} - {\ begin {bmatrix} \ mathbf {X} \\\ mathbf {U} \ end {bmatrix}} \ mathbf {B_ {n}} \ right) + (\ mathbf {B } - \ mathbf {B_ {n}}) ^ {\ rm {T}} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + {\ boldsymbol {\ Lambda}} _ {0 }) (\ mathbf {B} - \ mathbf {B_ {n}})}

{\ displaystyle = (\ mathbf {Y} - \ mathbf {XB_ {n}}) ^ {\ rm {T}} (\ mathbf {Y} - \ mathbf {XB_ {n}}) + (\ mathbf {B_ {0}} - \ mathbf {B_ {n}}) ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {0} (\ mathbf {B_ {0}} - \ mathbf {B_ {n }}) + (\ mathbf {B} - \ mathbf {B_ {n}}) ^ {\ rm {T}} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + {\ boldsymbol {\ Lambda}} _ {0}) (\ mathbf {B} - \ mathbf {B_ {n}})}

,

s

{\ displaystyle \ mathbf {B_ {n}} = (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + {\ boldsymbol {\ Lambda}} _ {0}) ^ {- 1} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} {\ hat {\ mathbf {B}}} + {\ boldsymbol {\ Lambda}} _ {0} \ mathbf {B_ {0} }) = (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + {\ boldsymbol {\ Lambda}} _ {0}) ^ {- 1} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {Y} + {\ boldsymbol {\ Lambda}} _ {0} \ mathbf {B_ {0}})}

.

To nám nyní umožňuje napsat zadní část v užitečnější formě:

{\ displaystyle \ rho ({\ boldsymbol {\ beta}}, {\ boldsymbol {\ Sigma}} _ {\ epsilon} | \ mathbf {Y}, \ mathbf {X}) \ propto | {\ boldsymbol {\ Sigma }} _ {\ epsilon} | ^ {- ({\ boldsymbol {\ nu}} _ {0} + m + n + 1) / 2} \ exp {(- {\ frac {1} {2}} { \ rm {tr}} ((\ mathbf {V_ {0}} + (\ mathbf {Y} - \ mathbf {XB_ {n}}) ^ {\ rm {T}} (\ mathbf {Y} - \ mathbf {XB_ {n}}) + (\ mathbf {B_ {n}} - \ mathbf {B_ {0}}) ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {0} (\ mathbf {B_ {n}} - \ mathbf {B_ {0}})) {\ boldsymbol {\ Sigma}} _ {\ epsilon} ^ {- 1}))}}

{\ displaystyle \ times | {\ boldsymbol {\ Sigma}} _ {\ epsilon} | ^ {- k / 2} \ exp {(- {\ frac {1} {2}} {\ rm {tr}} ( (\ mathbf {B} - \ mathbf {B_ {n}}) ^ {\ rm {T}} (\ mathbf {X} ^ {T} \ mathbf {X} + {\ boldsymbol {\ Lambda}} _ { 0}) (\ mathbf {B} - \ mathbf {B_ {n}}) {\ boldsymbol {\ Sigma}} _ {\ epsilon} ^ {- 1}))}}

.

To má podobu inverzní Wishartovy distribuční doby a normální distribuce Matrix :

{\ displaystyle \ rho ({\ boldsymbol {\ Sigma}} _ {\ epsilon} | \ mathbf {Y}, \ mathbf {X}) \ sim {\ mathcal {W}} ^ {- 1} (\ mathbf { V_ {n}}, {\ boldsymbol {\ nu}} _ {n})}

a

{\ displaystyle \ rho (\ mathbf {B} | \ mathbf {Y}, \ mathbf {X}, {\ boldsymbol {\ Sigma}} _ {\ epsilon}) \ sim {\ mathcal {MN}} _ {k , m} (\ mathbf {B_ {n}}, {\ boldsymbol {\ Lambda}} _ {n} ^ {- 1}, {\ boldsymbol {\ Sigma}} _ {\ epsilon})}

.

Parametry tohoto zadku jsou dány vztahem:

{\ displaystyle \ mathbf {V_ {n}} = \ mathbf {V_ {0}} + (\ mathbf {Y} - \ mathbf {XB_ {n}}) ^ {\ rm {T}} (\ mathbf {Y } - \ mathbf {XB_ {n}}) + (\ mathbf {B_ {n}} - \ mathbf {B_ {0}}) ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {0 } (\ mathbf {B_ {n}} - \ mathbf {B_ {0}})}

{\ displaystyle {\ boldsymbol {\ nu}} _ {n} = {\ boldsymbol {\ nu}} _ {0} + n}

{\ displaystyle \ mathbf {B_ {n}} = (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + {\ boldsymbol {\ Lambda}} _ {0}) ^ {- 1} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {Y} + {\ boldsymbol {\ Lambda}} _ {0} \ mathbf {B_ {0}})}

{\ displaystyle {\ boldsymbol {\ Lambda}} _ {n} = \ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + {\ boldsymbol {\ Lambda}} _ {0}}

Viz také

Reference

Box, GEP ; Tiao, GC (1973). „8“. Bayesovský závěr ve statistické analýze . Wiley. ISBN 0-471-57428-7 .
Geisser, S. (1965). "Bayesiánský odhad ve vícerozměrné analýze". Annals of Mathematical Statistics . 36 (1): 150–159. JSTOR 2238083 .
Tiao, GC; Zellner, A. (1964). „O bayesovském odhadu vícerozměrné regrese“. Journal of the Royal Statistical Society. Řada B (metodická) . 26 (2): 277–285. JSTOR 2984424 .

Languages

In other projects