Obousměrná analýza rozptylu - Two-way analysis of variance

Ve statistice je obousměrná analýza rozptylu ( ANOVA ) rozšířením jednosměrné ANOVA, která zkoumá vliv dvou různých kategoricky nezávislých proměnných na jednu spojitou závislou proměnnou . Obousměrná ANOVA si klade za cíl nejen posoudit hlavní účinek každé nezávislé proměnné, ale také zjistit, zda mezi nimi existuje nějaká interakce .

Dějiny

V roce 1925 Ronald Fisher zmiňuje obousměrnou ANOVA ve své slavné knize Statistické metody pro výzkumné pracovníky (kapitoly 7 a 8). V roce 1934 Frank Yates zveřejnil postupy pro nevyvážený případ. Od té doby byla vytvořena rozsáhlá literatura. Téma bylo přezkoumáno v roce 1993 Yasunori Fujikoshi . V roce 2005 Andrew Gelman navrhl odlišný přístup ANOVA, považovaný za víceúrovňový model .

Soubor dat

Představme si soubor dat, pro který může být závislá proměnná ovlivněna dvěma faktory, které jsou potenciálními zdroji variací. První faktor má levels ( ) a druhý má levels ( ) . Každá kombinace definuje léčbu pro celkem ošetření. My představují počet opakování pro léčbu u , a nechat se index opakování v této léčby ( ) . ${\ displaystyle I}$ ${\ displaystyle i \ in \ {1, \ ldots, I \}}$ ${\ displaystyle J}$ ${\ displaystyle j \ in \ {1, \ ldots, J \}}$ ${\ displaystyle (i, j)}$ ${\ displaystyle I \ times J}$ ${\ displaystyle (i, j)}$ ${\ displaystyle n_ {ij}}$ ${\ displaystyle k}$ ${\ displaystyle k \ in \ {1, \ ldots, n_ {ij} \}}$

Z těchto dat můžeme sestavit pohotovostní tabulku , kde a , a celkový počet replikátů se rovná . ${\ displaystyle n_ {i +} = \ součet _ {j = 1} ^ {J} n_ {ij}}$ ${\ displaystyle n _ {+ j} = \ součet _ {i = 1} ^ {I} n_ {ij}}$ ${\ Displaystyle n = \ sum _ {i, j} n_ {ij} = \ sum _ {i} n_ {i +} = \ sum _ {j} n _ {+ j}}$

Experimentální návrh je dáno , jestliže každá léčba má stejný počet opakování, . V takovém případě se také říká, že design je ortogonální , což umožňuje plně rozlišit účinky obou faktorů. Můžeme tedy psát , a . ${\ displaystyle K}$ ${\ displaystyle \ forall i, j \; n_ {ij} = K}$ ${\ displaystyle \ forall i, j \; n_ {ij} = {\ frac {n_ {i +} \ cdot n _ {+ j}} {n}}}$

Modelka

Při pozorování odchylek mezi všemi datovými body, například prostřednictvím histogramu , „ lze k popisu těchto odchylek použít pravděpodobnost “. Pojďme tedy označíme na náhodné veličiny , který zjištěná hodnota je tý opatření pro léčbu . Tyto dvoucestné ANOVA modely všechny tyto proměnné jsou různé nezávisle a normálně kolem střední, s konstantním rozptylu, ( homoskedasticita ): ${\ displaystyle n}$ ${\ displaystyle Y_ {ijk}}$ ${\ displaystyle y_ {ijk}}$ ${\ displaystyle k}$ ${\ displaystyle (i, j)}$ ${\ displaystyle \ mu _ {ij}}$ ${\ displaystyle \ sigma ^ {2}}$

${\ displaystyle Y_ {ijk} \, | \, \ mu _ {ij}, \ sigma ^ {2} \; {\ overset {\ mathrm {iid}} {\ sim}} \; {\ mathcal {N} } (\ mu _ {ij}, \ sigma ^ {2})}$ .

Konkrétně je průměr proměnné odezvy modelován jako lineární kombinace vysvětlujících proměnných:

${\ displaystyle \ mu _ {ij} = \ mu + \ alpha _ {i} + \ beta _ {j} + \ gamma _ {ij}}$ ,

kde je hlavní průměr, je aditivní hlavní efekt úrovně z prvního faktoru ( i -tý řádek v konfigurační tabulce), je aditivní hlavní efekt úrovně z druhého faktoru ( j -tý sloupec v kontingenční tabulce) a je neaditivní interakční účinek léčby z obou faktorů (buňka v řádku i a sloupci j v kontingenční tabulce). ${\ displaystyle \ mu}$ ${\ displaystyle \ alpha _ {i}}$ ${\ displaystyle i}$ ${\ displaystyle \ beta _ {j}}$ ${\ displaystyle j}$ ${\ displaystyle \ gamma _ {ij}}$ ${\ displaystyle (i, j)}$

Dalším ekvivalentním způsobem, jak popsat obousměrnou ANOVA, je zmínka, že kromě variace vysvětlené faktory zde zůstává určitý statistický šum . Toto množství nevysvětlitelné variace je zpracováno zavedením jedné náhodné proměnné na datový bod , zvané chyba . Tyto náhodné proměnné jsou považovány za odchylky od průměrů a předpokládá se, že jsou nezávislé a normálně distribuované: ${\ displaystyle \ epsilon _ {ijk}}$ ${\ displaystyle n}$

${\ displaystyle Y_ {ijk} = \ mu _ {ij} + \ epsilon _ {ijk} {\ text {with}} \ epsilon _ {ijk} {\ overset {\ mathrm {iid}} {\ sim}} { \ mathcal {N}} (0, \ sigma ^ {2})}$ .

Předpoklady

V návaznosti na Gelmana a Hilla jsou předpoklady ANOVA a obecněji obecného lineárního modelu v sestupném pořadí podle důležitosti:

datové body jsou relevantní s ohledem na zkoumanou vědeckou otázku;
průměr proměnné odezvy je ovlivňován aditivně (pokud není termín interakce) a lineárně faktory;
chyby jsou nezávislé;
chyby mají stejnou odchylku;
chyby jsou normálně distribuovány.

Odhad parametrů

Abychom zajistili identifikovatelnost parametrů, můžeme přidat následující omezení „součtu k nule“:

${\ displaystyle \ sum _ {i} \ alpha _ {i} = \ sum _ {j} \ beta _ {j} = \ sum _ {i} \ gamma _ {ij} = \ sum _ {j} \ gamma _ {ij} = 0}$

Testování hypotéz

V klasickém přístupu je testování nulových hypotéz (že faktory nemají žádný účinek) dosaženo pomocí jejich významnosti, která vyžaduje výpočet součtů čtverců .

Testování, zda je výraz interakce významný, může být obtížné kvůli potenciálně velkému počtu stupňů volnosti .

Viz také

Analýza rozptylu
F test ( Zahrnuje jednosměrný příklad ANOVA )
Smíšený model
Vícerozměrná analýza rozptylu (MANOVA)
Jednosměrná ANOVA
Opakovaná opatření ANOVA
Tukeyho test aditivity

Poznámky

Reference

George Casella (18. dubna 2008). Statistický návrh . Springer Texty ve statistice. Springer . ISBN 978-0-387-75965-4.

Languages

In other projects