Smíšený model - Mixed model

Smíšený model , smíšené účinky modelu nebo smíšený chyb složka modelu je statistický model obsahující jak fixních efektů a náhodné efekty . Tyto modely jsou užitečné v široké škále oborů ve fyzikálních, biologických a sociálních vědách. Jsou zvláště užitečné v nastaveních, kde se opakovaná měření provádějí na stejných statistických jednotkách ( longitudinální studie ) nebo kde se měření provádějí na klastrech souvisejících statistických jednotek. Kvůli své výhodě při řešení chybějících hodnot jsou modely smíšených efektů často upřednostňovány před tradičnějšími přístupy, jako je analýza variací opakovaných měření .

Tato stránka pojednává spíše o lineárních smíšených modelech (LMEM) než o zobecněných lineárních smíšených modelech nebo nelineárních modelech smíšených efektů .

Historie a současný stav

Ronald Fisher zavedl modely náhodných efektů ke studiu korelací hodnot vlastností mezi příbuznými. V roce 1950, Charles Roy Henderson za předpokladu, nejlepší lineární nestranné odhady z fixních efektů a tak lineární nezaujatých předpovědí náhodných vlivů. Následně se smíšené modelování stalo hlavní oblastí statistického výzkumu, včetně práce na výpočtu odhadů maximální pravděpodobnosti, nelineárních modelů smíšených účinků, chybějících údajů v modelech smíšených účinků a Bayesiánského odhadu modelů smíšených účinků. Smíšené modely se používají v mnoha oborech, kde se na každé sledované jednotce provádí několik korelovaných měření. Jsou prominentně používány ve výzkumu zahrnujícím lidské a zvířecí subjekty v oblastech od genetiky po marketing a jsou také používány v baseballové a průmyslové statistice.

Definice

V maticové notaci lze lineární smíšený model reprezentovat jako

{\ displaystyle {\ boldsymbol {y}} = X {\ boldsymbol {\ beta}} + Z {\ boldsymbol {u}} + {\ boldsymbol {\ epsilon}}}

kde

${\ displaystyle {\ boldsymbol {y}}}$ je známý vektor pozorování, se střední hodnotou ; ${\ displaystyle E ({\ boldsymbol {y}}) = X {\ boldsymbol {\ beta}}}$
${\ displaystyle {\ boldsymbol {\ beta}}}$ je neznámý vektor fixních efektů;
${\ displaystyle {\ boldsymbol {u}}}$ je neznámý vektor náhodných efektů, se střední a variační – kovarianční maticí ; ${\ displaystyle E ({\ boldsymbol {u}}) = {\ boldsymbol {0}}}$ ${\ displaystyle \ operatorname {var} ({\ boldsymbol {u}}) = G}$
${\ displaystyle {\ boldsymbol {\ epsilon}}}$ je neznámý vektor náhodných chyb se střední hodnotou a rozptylem ; ${\ displaystyle E ({\ boldsymbol {\ epsilon}}) = {\ boldsymbol {0}}}$ ${\ displaystyle \ operatorname {var} ({\ boldsymbol {\ epsilon}}) = R}$
${\ displaystyle X}$ a jsou známé designové matrice v souvislosti vyjádření k a , v uvedeném pořadí. ${\ displaystyle Z}$ ${\ displaystyle {\ boldsymbol {y}}}$ ${\ displaystyle {\ boldsymbol {\ beta}}}$ ${\ displaystyle {\ boldsymbol {u}}}$

Odhad

Společný hustotu a může být zapsán jako: . Za předpokladu normality, , a , a maximalizovat společný hustotu nad a dává Henderson je „smíšený model rovnice“ (MME) pro lineární smíšené modely: ${\ displaystyle {\ boldsymbol {y}}}$ ${\ displaystyle {\ boldsymbol {u}}}$ ${\ displaystyle f ({\ boldsymbol {y}}, {\ boldsymbol {u}}) = f ({\ boldsymbol {y}} | {\ boldsymbol {u}}) \, f ({\ boldsymbol {u} })}$ ${\ displaystyle {\ boldsymbol {u}} \ sim {\ mathcal {N}} ({\ boldsymbol {0}}, G)}$ ${\ displaystyle {\ boldsymbol {\ epsilon}} \ sim {\ mathcal {N}} ({\ boldsymbol {0}}, R)}$ ${\ displaystyle \ mathrm {Cov} ({\ boldsymbol {u}}, {\ boldsymbol {\ epsilon}}) = {\ boldsymbol {0}}}$ ${\ displaystyle {\ boldsymbol {\ beta}}}$ ${\ displaystyle {\ boldsymbol {u}}}$

{\ displaystyle {\ begin {pmatrix} X'R ^ {- 1} X & X'R ^ {- 1} Z \\ Z'R ^ {- 1} X & Z'R ^ {- 1} Z + G ^ {- 1} \ end {pmatrix}} {\ begin {pmatrix} {\ hat {\ boldsymbol {\ beta}}} \\ {\ hat {\ boldsymbol {u}}} \ end {pmatrix}} = {\ begin { pmatrix} X'R ^ {- 1} {\ boldsymbol {y}} \\ Z'R ^ {- 1} {\ boldsymbol {y}} \ end {pmatrix}}}

Řešení k MME, a jsou nejlepší lineární Nestranná odhady a prediktory a , v uvedeném pořadí. To je důsledek Gauss-Markovovy věty, když podmíněná varianta výsledku není škálovatelná podle matice identity. Je-li známa podmíněná odchylka, pak je nejmenším čtvercem váženým inverzním rozptylem nejlepší lineární nezaujatý odhad. Podmíněná odchylka je však známa jen zřídka, pokud vůbec. Při řešení MME je tedy žádoucí společně odhadnout rozptyl a odhady vážených parametrů. ${\ displaystyle \ textstyle {\ hat {\ boldsymbol {\ beta}}}}$ ${\ displaystyle \ textstyle {\ klobouk {\ boldsymbol {u}}}}$ ${\ displaystyle {\ boldsymbol {\ beta}}}$ ${\ displaystyle {\ boldsymbol {u}}}$

Jednou metodou použitou k přizpůsobení takovým smíšeným modelům je algoritmus očekávání - maximalizace, kdy se s komponentami rozptylu zachází jako s nezjištěnými obtěžujícími parametry ve společné pravděpodobnosti. V současné době se jedná o implementovanou metodu pro hlavní statistické softwarové balíčky R (lme v balíčku nlme nebo lineární smíšené efekty v balíčku lme4), Python ( balíček statsmodels ), Julia (balíček MixedModels.jl) a SAS (proc smíšený). Řešením rovnic smíšeného modelu je odhad maximální pravděpodobnosti, když je rozdělení chyb normální.

Viz také

Reference

Další čtení

Gałecki, Andrzej; Burzykowski, Tomasz (2013). Lineární modely se smíšenými efekty pomocí R: podrobný přístup . New York: Springer. ISBN 978-1-4614-3900-4.
Milliken, GA; Johnson, DE (1992). Analýza chaotických dat: sv. I. Navržené experimenty . New York: Chapman & Hall.
West, BT; Welch, KB; Galecki, AT (2007). Lineární smíšené modely: Praktický průvodce využívající statistický software . New York: Chapman & Hall / CRC.

Languages

In other projects