Analýza rozptylu - Analysis of variance

Analýza rozptylu ( ANOVA ) je soubor statistických modelů a s nimi spojených odhadovacích postupů (jako je „variace“ mezi skupinami a mezi nimi), které se používají k analýze rozdílů mezi prostředky. ANOVA byla vyvinuta statistikem Ronaldem Fisherem . ANOVA je založena na zákonu celkové odchylky , kde je pozorovaná odchylka v konkrétní proměnné rozdělena do složek, které lze přičíst různým zdrojům variací. Ve své nejjednodušší formě poskytuje ANOVA statistický test, zda jsou dva nebo více populačních průměrů rovnocenné, a proto zevšeobecňuje t -test za dva prostředky.

Dějiny

Zatímco analýza rozptylu dosáhla ovoce ve 20. století, předchůdci podle Stiglera zasahují staletí do minulosti. Patří sem testování hypotéz, rozdělení součtů čtverců, experimentální techniky a aditivní model. Laplace prováděl testování hypotéz v sedmdesátých letech 17. století. Kolem roku 1800 Laplace a Gauss vyvinuli metodu nejmenších čtverců pro kombinování pozorování, která vylepšila metody používané v astronomii a geodézii. Rovněž zahájila velkou studii příspěvků k součtům čtverců. Laplace věděl, jak odhadnout rozptyl ze zbytkového (spíše než celkového) součtu čtverců. V roce 1827 Laplace používal metody nejmenších čtverců k řešení problémů ANOVA týkajících se měření atmosférických přílivů a odlivů. Před rokem 1800 astronomové izolovali pozorovací chyby vyplývající z reakčních časů („ osobní rovnice “) a vyvinuli metody snižování chyb. Experimentální metody používané při studiu osobní rovnice byly později přijaty vznikající oblastí psychologie, která vyvinula silné (plně faktoriální) experimentální metody, ke kterým se brzy přidala randomizace a oslepování. V roce 1885 bylo k dispozici výmluvné nematematické vysvětlení modelu aditivních efektů.

Ronald Fisher představil termín rozptyl a navrhl jeho formální analýzu v článku z roku 1918 The Correlation Between Relatives on the Supposition of Mendelian Inheritance . Jeho první aplikace analýzy rozptylu byla publikována v roce 1921. Analýza rozptylu se stala všeobecně známou poté, co byla zahrnuta do Fisherovy knihy Statistické metody pro výzkumné pracovníky z roku 1925 .

Randomizační modely byly vyvinuty několika výzkumníky. První publikoval v polštině Jerzy Neyman v roce 1923.

Příklad

Nesedí: Mladí vs staří a krátkosrstí vs dlouhosrstí
Fair fit: Domácí mazlíček vs Pracovní plemeno a méně atletický vs více atletický
Velmi dobrý střih: Hmotnost podle plemene

Analýzu rozptylu lze použít k popisu jinak složitých vztahů mezi proměnnými. Příkladem je výstava psů. Výstava psů není náhodným odběrem vzorků z tohoto plemene: je obvykle omezena na psy, kteří jsou dospělí, čistokrevní a příkladní. Histogram hmotnosti psa z výstavy může být věrohodně poměrně složitý, jako žlutooranžové rozložení zobrazené na obrázcích. Předpokládejme, že bychom chtěli předpovědět hmotnost psa na základě určitého souboru vlastností každého psa. Jedním ze způsobů, jak toho dosáhnout, je vysvětlit rozložení hmotností rozdělením populace psů do skupin na základě těchto charakteristik. Úspěšné seskupení rozdělí psy tak, že (a) každá skupina má malou variabilitu hmotnosti psa (což znamená, že skupina je relativně homogenní) a (b) průměr každé skupiny je odlišný (pokud mají dvě skupiny stejný průměr, pak není rozumné dojít k závěru, že skupiny jsou ve skutečnosti nějakým smysluplným způsobem oddělené).

Na obrázcích vpravo jsou skupiny označeny jako X 1 , X 2 atd. Na první ilustraci jsou psi rozděleni podle součinu (interakce) dvou binárních skupin: mladí vs staří a krátkosrstí vs dlouho -vlasy (např. skupina 1 jsou mladí, krátkosrstí psi, skupina 2 jsou mladí, dlouhosrstí psi atd.). Vzhledem k tomu, že rozložení hmotnosti psa v každé ze skupin (zobrazeno modře) má relativně velký rozptyl a protože prostředky jsou v rámci skupin velmi podobné, seskupování psů podle těchto charakteristik neposkytuje účinný způsob, jak vysvětlit rozdíly v hmotnosti psů : Vědět, ve které skupině je pes, nám neumožňuje předpovědět jeho váhu mnohem lépe, než jednoduše vědět, že pes je na výstavě. Toto seskupení tedy nedokáže vysvětlit rozdíly v celkové distribuci (žlutooranžová).

Pokus o vysvětlení rozložení hmotnosti seskupením psů jako domácích a pracovních plemen a méně sportovních vs sportovnějších by byl pravděpodobně o něco úspěšnější (fair fit). Nejtěžší výstavní psi budou pravděpodobně velká, silná, pracovní plemena, zatímco plemena chovaná jako domácí mazlíčci bývají menší a tím i lehčí. Jak ukazuje druhá ilustrace, rozdělení mají odchylky, které jsou podstatně menší než v prvním případě, a prostředky jsou rozlišitelnější. Významné překrývání distribucí však například znamená, že nemůžeme spolehlivě rozlišit X 1 a X 2 . Seskupování psů podle flipu na mince může produkovat distribuce, které vypadají podobně.

Pokus o vysvětlení hmotnosti podle plemene pravděpodobně povede k velmi dobré kondici. Všechny Chihuahua jsou lehké a všichni St Bernardi jsou těžcí. Rozdíl ve váze mezi setry a ukazateli neodůvodňuje oddělená plemena. Analýza rozptylu poskytuje formální nástroje k ospravedlnění těchto intuitivních úsudků. Běžné použití metody je analýza experimentálních dat nebo vývoj modelů. Metoda má oproti korelaci určité výhody: ne všechna data musí být číselná a jedním výsledkem metody je úsudek o důvěře ve vysvětlující vztah.

Třídy modelů

Při analýze rozptylu se používají tři třídy modelů, které jsou zde nastíněny.

Modely s pevnými efekty

Model fixních efektů (třída I) analýzy rozptylu se vztahuje na situace, ve kterých experimentátor aplikuje jedno nebo více ošetření na subjekty experimentu, aby zjistil, zda se hodnoty proměnných odezvy mění. To umožňuje experimentátorovi odhadnout rozsahy hodnot proměnných odezvy, které by léčba generovala v populaci jako celku.

Modely s náhodnými efekty

Model s náhodnými efekty (třída II) se používá, pokud léčba není fixní. K tomu dochází, když jsou různé úrovně faktorů odebrány z větší populace. Vzhledem k tomu, že samotné úrovně jsou náhodné veličiny , některé předpoklady a způsob kontrastu léčby (více proměnná generalizace jednoduchých rozdílů) se liší od modelu s fixními efekty.

Modely se smíšenými efekty

Model se smíšenými efekty (třída III) obsahuje experimentální faktory typů s fixním i náhodným efektem, s příslušně odlišnými interpretacemi a analýzami pro tyto dva typy.

Příklad: Učební experimenty by mohla provádět vysoká škola nebo univerzitní oddělení, aby našla dobrou úvodní učebnici, přičemž každý text je považován za léčbu. Model s pevnými efekty by porovnal seznam kandidátských textů. Model náhodných efektů by určil, zda existují významné rozdíly mezi seznamem náhodně vybraných textů. Model se smíšenými efekty by porovnával (fixní) stávající texty s náhodně vybranými alternativami.

Definování pevných a náhodných efektů se ukázalo jako nepolapitelné, přičemž konkurenční definice pravděpodobně vedou k lingvistické bažině.

Předpoklady

Analýza rozptylu byla studována z několika přístupů, z nichž nejběžnější používá lineární model, který spojuje odezvu na ošetření a bloky. Všimněte si, že model je lineární v parametrech, ale může být nelineární napříč úrovněmi faktorů. Interpretace je snadná, pokud jsou data vyvážena mezi faktory, ale pro nevyvážená data je zapotřebí mnohem hlubšího porozumění.

Analýza učebnic pomocí normální distribuce

Analýzu rozptylu lze prezentovat pomocí lineárního modelu , který činí následující předpoklady o rozdělení pravděpodobnosti odpovědí:

Oddělené předpoklady modelu učebnice naznačují, že chyby jsou nezávisle, identicky a normálně distribuovány pro modely pevných efektů, to znamená, že chyby ( ) jsou nezávislé a

Analýza založená na náhodnosti

V randomizovaném kontrolovaném experimentu jsou ošetření náhodně přiřazena experimentálním jednotkám podle experimentálního protokolu. Tato randomizace je objektivní a deklarována před provedením experimentu. Objektivní náhodné přiřazení se používá k testování významnosti nulové hypotézy podle myšlenek CS Peirce a Ronalda Fishera . Tuto analýzu založenou na designu prodiskutovali a vyvinuli Francis J. Anscombe na experimentální stanici Rothamsted a Oscar Kempthorne na Iowské státní univerzitě . Kempthorne a jeho studenti vytvářejí předpoklad aditivity na jednotkovou léčbu , o kterém pojednávají knihy Kempthorne a David R. Cox .

Aditivita na jednotkové léčbě

Ve své nejjednodušší formě předpoklad aditivity k jednotkové léčbě uvádí, že pozorovanou odpověď od experimentální jednotky při léčbě lze zapsat jako součet odpovědi jednotky a účinku léčby , tj.

Předpoklad aditivity k jednotkové léčbě znamená, že pro každé ošetření má tato léčba přesně stejný účinek na každou experimentální jednotku.

Podle Coxe a Kempthorna předpoklad aditivity na jednotkovou léčbu obvykle nelze přímo zfalšovat . Mnoho důsledků aditivity aditiva na léčebnou jednotku lze však zfalšovat. U randomizovaného experimentu předpoklad aditivity na jednotku léčby znamená , že rozptyl je u všech ošetření konstantní. Proto je contraposition nezbytnou podmínkou aditivity k jednotkové léčbě, aby byl rozptyl konstantní.

Použití aditivity a randomizace jednotkové léčby je podobné odvození na základě návrhu, které je standardem při odběru vzorků z průzkumu konečné populace .

Odvozený lineární model

Kempthorne používá distribuci randomizace a předpoklad aditivity jednotkové léčby k vytvoření odvozeného lineárního modelu , velmi podobného modelu učebnice, o kterém jsme hovořili dříve. Statistiky testů tohoto odvozeného lineárního modelu jsou úzce aproximovány testovacími statistikami vhodného normálního lineárního modelu podle aproximačních vět a simulačních studií. Existují však rozdíly. Analýza založená na randomizaci například vede k malé, ale (přísně) negativní korelaci mezi pozorováními. V analýze na bázi náhodného neexistuje žádný předpoklad o normálním rozdělení a rozhodně žádný předpoklad o nezávislosti . Naopak, pozorování jsou závislá !

Analýza založená na randomizaci má tu nevýhodu, že její expozice zahrnuje únavnou algebru a dlouhý čas. Vzhledem k tomu, že analýza založená na randomizaci je komplikovaná a je velmi přiblížena přístupem využívajícím normální lineární model, většina učitelů klade důraz na přístup běžného lineárního modelu. Několik statistiků má námitky proti modelové analýze vyvážených randomizovaných experimentů.

Statistické modely pro pozorovací data

Při aplikaci na data z nerandomizovaných experimentů nebo observačních studií postrádá analýza založená na modelu záruku randomizace. Pro pozorovací data musí odvozování intervalů spolehlivosti používat subjektivní modely, jak zdůraznil Ronald Fisher a jeho následovníci. V praxi jsou odhady účinků léčby z pozorovacích studií obecně často nekonzistentní. V praxi jsou „statistické modely“ a pozorovací údaje užitečné pro navrhování hypotéz, s nimiž by veřejnost měla zacházet velmi opatrně.

Shrnutí předpokladů

Analýza ANOVA založená na normálním modelu předpokládá nezávislost, normálnost a homogenitu odchylek reziduí. Analýza založená na randomizaci předpokládá pouze homogenitu odchylek reziduí (jako důsledek aditivity k jednotkové léčbě) a používá randomizační postup experimentu. Obě tyto analýzy vyžadují homoscedasticitu , jako předpoklad pro analýzu normálního modelu a jako důsledek randomizace a aditivity pro analýzu založenou na randomizaci.

Studie procesů, které mění spíše rozptyly než prostředky (nazývané disperzní efekty), však byly úspěšně provedeny pomocí ANOVA. Neexistují žádné nezbytné předpoklady pro ANOVA v její plné obecnosti, ale F -test použitý pro testování hypotéz ANOVA má předpoklady a praktická omezení, která jsou stále zajímavá.

Problémy, které nesplňují předpoklady ANOVA, lze často transformovat tak, aby předpoklady splnily. Vlastnost aditivity k jednotkové léčbě není při „změně měřítka“ invariantní, takže statistici často používají transformace k dosažení aditivity k jednotkové léčbě. Pokud se očekává, že proměnná odezvy bude následovat parametrickou rodinu rozdělení pravděpodobnosti, pak může statistik specifikovat (v protokolu pro experiment nebo observační studii), že reakce budou transformovány za účelem stabilizace rozptylu. Statistik také může specifikovat, že na odpovědi, o nichž se věří, že se řídí multiplikativním modelem, budou použity logaritmické transformace. Podle Cauchyovy věty o funkční rovnici je logaritmus jedinou spojitou transformací, která transformuje skutečné násobení na sčítání.

Charakteristika

ANOVA se používá při analýze srovnávacích experimentů, u nichž je zajímavý pouze rozdíl ve výsledcích. Statistická významnost experimentu je určena poměrem dvou rozptylů. Tento poměr je nezávislý na několika možných změnách experimentálních pozorování: Přidání konstanty ke všem pozorováním nemění význam. Násobení všech pozorování konstantou nemění význam. Výsledek statistické významnosti ANOVA je nezávislý na konstantních zkresleních a chybách škálování, stejně jako na jednotkách použitých při vyjádření pozorování. V éře mechanického výpočtu bylo běžné odečíst konstantu od všech pozorování (pokud je ekvivalentní vypuštění úvodních číslic), aby se zjednodušilo zadávání dat. Toto je příklad kódování dat .

Logika

Výpočty ANOVA lze charakterizovat jako výpočet řady průměrů a rozptylů, rozdělení dvou odchylek a porovnání poměru k hodnotě příručky za účelem stanovení statistické významnosti. Výpočet účinku léčby je pak triviální: „účinek jakéhokoli ošetření se odhaduje tak, že se vezme rozdíl mezi průměrem pozorování, která byla léčena, a obecným průměrem“.

Rozdělení součtu čtverců

ANOVA používá tradiční standardizovanou terminologii. Definiční rovnice rozptylu vzorku je , kde dělitel se nazývá stupně volnosti (DF), součet se nazývá součet čtverců (SS), výsledek se nazývá střední čtverec (MS) a čtvercové členy jsou odchylky od průměr vzorku. ANOVA odhaduje 3 odchylky vzorku: celkový rozptyl na základě všech odchylek pozorování od velkého průměru, rozptyl chyb založený na všech odchylkách pozorování od jejich vhodných léčebných prostředků a rozptyl ošetření. Rozptyl léčby je založen na odchylkách léčebných prostředků od velkého průměru, přičemž výsledek je vynásoben počtem pozorování při každém ošetření, aby se zohlednil rozdíl mezi rozptylem pozorování a rozptylem průměrů.

Základní technikou je rozdělení celkového součtu čtverců SS na komponenty související s efekty použitými v modelu. Například model pro zjednodušenou ANOVA s jedním typem léčby na různých úrovních.

Počet stupňů volnosti DF lze rozdělit podobným způsobem: jedna z těchto komponent (která pro chybu) určuje rozdělení chí-kvadrát, které popisuje související součet čtverců, zatímco totéž platí pro "ošetření", pokud existuje žádný účinek léčby.

Viz také Nedostatečný součet čtverců .

F -test

F -test se používá pro porovnání faktorů celkové odchylky. Například v jednosměrné nebo jednofaktorové ANOVA se testuje statistická významnost porovnáním statistiky F testu

kde MS je průměrný čtverec, = počet ošetření a = celkový počet případů

do F -distribuce s , stupně volnosti. Použití F -distribuce je přirozeným kandidátem, protože testovací statistika je poměrem dvou škálovaných součtů čtverců, z nichž každý sleduje zmenšenou distribuci chí -kvadrát .

Očekávaná hodnota F je (kde je velikost ošetřeného vzorku), což je 1, protože nemá žádný léčebný účinek. Jak hodnoty F rostou nad 1, důkaz je stále více v rozporu s nulovou hypotézou. Dvě zjevné experimentální metody zvyšování F zvyšují velikost vzorku a snižují rozptyl chyb pomocí přísných experimentálních kontrol.

Existují dva způsoby uzavření testu hypotézy ANOVA, z nichž oba produkují stejný výsledek:

  • Metodou učebnice je porovnat pozorovanou hodnotu F s kritickou hodnotou F stanovenou z tabulek. Kritická hodnota F je funkcí stupňů volnosti čitatele a jmenovatele a hladiny významnosti (α). Pokud je F ≥ F kritická , nulová hypotéza je zamítnuta.
  • Počítačová metoda vypočítá pravděpodobnost (p-hodnota) hodnoty F větší nebo rovné pozorované hodnotě. Nulová hypotéza je zamítnuta, pokud je tato pravděpodobnost menší nebo rovna hladině významnosti (α).

Je známo, že test ANOVA F je téměř optimální ve smyslu minimalizace falešně negativních chyb pro fixní míru falešně pozitivních chyb (tj. Maximalizace výkonu pro pevnou úroveň významnosti). Například pro testování hypotézy, že různé léčebné postupy, které mají přesně stejný účinek, F -test "s p -hodnoty těsně aproximovat permutačního testu je p-hodnoty : Aproximace je zvláště v blízkosti, když je konstrukce je dáno. Takové permutační testy charakterizují testy s maximálním výkonem proti všem alternativním hypotézám , jak pozoroval Rosenbaum. Jako praktický test se doporučuje test ANOVA F (nulová hypotéza, že všechna ošetření mají přesně stejný účinek), protože je odolný vůči mnoha alternativním distribucím.

Rozšířená logika

ANOVA se skládá z oddělitelných částí; rozdělovací zdroje rozptylu a testování hypotéz lze použít jednotlivě. ANOVA slouží k podpoře dalších statistických nástrojů. Regrese se nejprve používá k přizpůsobení složitějších modelů datům, poté se ANOVA používá k porovnání modelů s cílem vybrat jednoduché (r) modely, které adekvátně popisují data. "Takové modely by mohly být vhodné bez jakéhokoli odkazu na ANOVA, ale nástroje ANOVA by pak mohly být použity k tomu, aby poskytly určitý smysl přizpůsobených modelů a testovaly hypotézy o dávkách koeficientů." "[W] Myslíme na analýzu rozptylu jako způsob porozumění a strukturování víceúrovňových modelů-nikoli jako alternativu k regresi, ale jako nástroj pro shrnutí komplexních vysokodimenzionálních závěrů ..."

Pro jeden faktor

Nejjednodušší experiment vhodný pro analýzu ANOVA je zcela randomizovaný experiment s jediným faktorem. Složitější experimenty s jediným faktorem zahrnují omezení randomizace a zahrnují zcela randomizované bloky a latinské čtverce (a varianty: řecko-latinské čtverce atd.). Složitější experimenty sdílejí mnoho složitostí více faktorů. Relativně kompletní diskuze o analýzy (modely, souhrnné údaje, ANOVA tabulky) zcela randomizované experimentu je k dispozici .

Pro jeden faktor existuje několik alternativ jednosměrné analýzy rozptylu; jmenovitě Welch je Heteroscedastická F test, Welch se Heteroscedastická F test stříhaných prostředky a Winsorized rozptyly, Brown-Forsythe test, Alexander-Govern testy, James testu druhého řádu a Kruskal-Wallisův test, k dispozici v onewaytests R balíčku .

Pro více faktorů

ANOVA zobecňuje studium účinků více faktorů. Pokud experiment zahrnuje pozorování na všech kombinacích úrovní každého faktoru, nazývá se faktoriál . Faktoriální experimenty jsou účinnější než série experimentů s jedním faktorem a účinnost roste s tím, jak se zvyšuje počet faktorů. V důsledku toho se hodně používají faktoriální návrhy.

Použití ANOVA ke studiu účinků více faktorů má komplikaci. V třícestné ANOVA s faktory x, y a z obsahuje model ANOVA termíny pro hlavní efekty (x, y, z) a termíny pro interakce (xy, xz, yz, xyz). Všechny termíny vyžadují testy hypotéz. Šíření interakčních termínů zvyšuje riziko, že některý test hypotézy způsobí náhodně falešně pozitivní výsledek. Naštěstí zkušenosti říkají, že interakce vysokého řádu jsou vzácné. Schopnost detekovat interakce je hlavní výhodou ANOVA s více faktory. Testování jednoho faktoru najednou skrývá interakce, ale vytváří zjevně nekonzistentní experimentální výsledky.

Při interakcích se doporučuje opatrnost; Nejprve ověřte podmínky interakce a v případě zjištění interakcí rozbalte analýzu nad rámec ANOVA. Texty se liší ve svých doporučeních týkajících se pokračování postupu ANOVA po setkání s interakcí. Interakce komplikují interpretaci experimentálních dat. Ani výpočty významnosti, ani odhadované účinky léčby nelze brát za nominální hodnotu. „Významná interakce často maskuje význam hlavních efektů.“ Ke zlepšení porozumění se doporučují grafické metody. Regrese je často užitečná. Dlouhou diskusi o interakcích nabízí Cox (1958). Některé interakce lze odstranit (transformacemi), zatímco jiné ne.

Ke snížení nákladů se používá řada technik s vícefaktorovou ANOVA. Jednou z technik používaných v faktoriálních návrzích je minimalizovat replikaci (možná žádná replikace s podporou analytických triků ) a kombinovat skupiny, pokud jsou efekty shledány statisticky (nebo prakticky) nevýznamnými. Experiment s mnoha nevýznamnými faktory se může zhroutit do jednoho s několika faktory podporovanými mnoha replikacemi.

Přidružená analýza

Na podporu návrhu experimentu je vyžadována určitá analýza, zatímco jiná analýza je provedena poté, co se formálně zjistí, že změny faktorů způsobují statisticky významné změny v odpovědích. Protože experimentování je iterativní, výsledky jednoho experimentu mění plány pro následující experimenty.

Přípravná analýza

Počet experimentálních jednotek

Při návrhu experimentu je plánován počet experimentálních jednotek, aby byly splněny cíle experimentu. Experimentování je často sekvenční.

Počáteční experimenty jsou často navrženy tak, aby poskytovaly průměrné a nestranné odhady účinků léčby a experimentální chyby. Pozdější experimenty jsou často navrženy tak, aby ověřily hypotézu, že účinek léčby má důležitou velikost; v tomto případě je počet experimentálních jednotek zvolen tak, aby byl experiment mimo rozpočet a měl dostatečnou sílu, mimo jiné cíle.

Hlášení analýzy velikosti vzorku je v psychologii obecně vyžadováno. „Poskytněte informace o velikosti vzorku a procesu, který vedl k rozhodování o velikosti vzorku.“ Analýza, která je zapsána v experimentálním protokolu před provedením experimentu, je zkoumána v žádostech o grant a v administrativních revizních komisích.

Kromě výkonové analýzy existují méně formální metody pro výběr počtu experimentálních jednotek. Patří sem grafické metody založené na omezení pravděpodobnosti falešně negativních chyb, grafické metody založené na očekávaném nárůstu variací (nad zbytky) a metody založené na dosažení požadovaného intervalu spolehlivosti.

Analýza výkonu

Mocenská analýza se často používá v kontextu ANOVA za účelem posouzení pravděpodobnosti úspěšného odmítnutí nulové hypotézy, pokud předpokládáme určitý návrh ANOVA, velikost efektu v populaci, velikost vzorku a úroveň významnosti. Výkonová analýza může pomoci při návrhu studie tím, že určí, jaká velikost vzorku by byla požadována, aby měla přiměřenou šanci odmítnout nulovou hypotézu, pokud je alternativní hypotéza pravdivá.

Velikost efektu

Pro ANOVA bylo navrženo několik standardizovaných opatření účinku ke shrnutí síly asociace mezi prediktorem (y) a závislou proměnnou nebo celkovým standardizovaným rozdílem kompletního modelu. Standardizované odhady velikosti účinku usnadňují srovnání zjištění napříč studiemi a obory. Ačkoli jsou ve velké části odborné literatury běžně používány standardizované velikosti efektů, pro účely vykazování může být vhodnější nestandardizované měřítko velikosti účinku, které má okamžitě „smysluplné“ jednotky.

Potvrzení modelu

Někdy jsou prováděny testy k určení, zda se zdá, že předpoklady ANOVA jsou porušeny. Zbytky jsou zkoumány nebo analyzovány za účelem potvrzení homoscedasticity a hrubé normality. Zbytky by měly mít vzhled šumu (nulové průměrné normální rozdělení), pokud jsou vyneseny jako funkce čehokoli, včetně času a modelovaných hodnot dat. Trendy naznačují interakce mezi faktory nebo mezi pozorováními.

Následné testy

Po statisticky významném účinku v ANOVA často následují další testy. To lze provést za účelem posouzení, které skupiny se liší od kterých jiných skupin, nebo pro testování různých dalších zaměřených hypotéz. Následné testy se často rozlišují podle toho, zda jsou „plánované“ ( a priori ) nebo „post hoc “. Plánované testy jsou stanoveny před prohlížením dat a post hoc testy jsou koncipovány až po nahlédnutí do dat (ačkoli termín „post hoc“ je nekonzistentně používán).

Následné testy mohou být "jednoduché" párové srovnání jednotlivých skupinových průměrů nebo mohou být "složené" srovnání (např. Porovnání průměrného sdružování mezi skupinami A, B a C s průměrem skupiny D). Porovnání se také může podívat na testy trendu, jako jsou lineární a kvadratické vztahy, když nezávislá proměnná zahrnuje uspořádané úrovně. Následné testy často obsahují způsob úpravy pro problém vícenásobného srovnání .

Studijní návrhy

Existuje několik typů ANOVA. Mnoho statistiků vychází z ANOVA z návrhu experimentu , zejména z protokolu, který specifikuje náhodné přiřazování ošetření subjektům; popis protokolu přiřazovacího mechanismu by měl zahrnovat specifikaci struktury ošetření a případného blokování . Je také běžné aplikovat ANOVA na pozorovací data pomocí vhodného statistického modelu.

Některé populární designy používají následující typy ANOVA:

  • Jednosměrná ANOVA se používá k testování rozdílů mezi dvěma nebo více nezávislými skupinami (prostředky), např. Různé úrovně aplikace močoviny v plodině nebo různé úrovně účinku antibiotik na několik různých bakteriálních druhů nebo různé úrovně účinku některých léků na skupinách pacientů. Pokud by však tyto skupiny nebyly nezávislé a existuje pořadí ve skupinách (jako je mírné, středně těžké a těžké onemocnění) nebo v dávce léčiva (například 5 mg/ml, 10 mg/ml, 20 mg) /ml) podané stejné skupině pacientů, pak by měl být použit odhad lineárního trendu . Obvykle se však k testování rozdílů mezi alespoň třemi skupinami používá jednosměrná ANOVA, protože případ se dvěma skupinami lze pokrýt t-testem . Pokud existují pouze dva prostředky ke srovnání, t -test a F -test ANOVA jsou ekvivalentní; vztah mezi ANOVA a t je dán F  =  t 2 .

Upozornění

Vyvážené experimenty (experimenty se stejnou velikostí vzorku pro každé ošetření) lze poměrně snadno interpretovat; nevyvážené experimenty nabízejí větší složitost. U jednofaktorových (jednosměrných) ANOVA je úprava pro nevyvážená data snadná, ale nevyvážené analýze chybí robustnost i síla. U složitějších návrhů vede nerovnováha k dalším komplikacím. "Vlastnost ortogonality hlavních efektů a interakcí přítomných ve vyvážených datech se do nevyváženého případu nepřenáší. To znamená, že obvyklá analýza technik rozptylu neplatí. V důsledku toho je analýza nevyvážených faktoriálů mnohem obtížnější než u vyvážených designy. " V obecném případě „Analýza rozptylu může být také použita na nevyvážená data, ale pak součty druhých mocnin, středních čtverců a poměrů F budou záviset na pořadí, ve kterém jsou uvažovány zdroje variací“.

ANOVA je (částečně) testem statistické významnosti. Americká psychologická asociace (a mnoho dalších organizací) zastává názor, že pouhé vykazování statistické významnosti je nedostatečné a že je upřednostňováno ohlašování mezí spolehlivosti.

Zobecnění

ANOVA je považována za speciální případ lineární regrese, což je zvláštní případ obecného lineárního modelu . Všichni považují pozorování za součet modelu (přizpůsobení) a zbytkové (chyby), které mají být minimalizovány.

Kruskal-Wallisův test a Friedman testy jsou neparametrické testy, které se nespoléhají na předpokladu normality.

Připojení k lineární regresi

Níže objasňujeme spojení mezi vícecestnou ANOVA a lineární regresí.

Lineárně přeuspořádejte data tak, aby pozorování bylo spojeno s odpovědí a faktory, kde označuje různé faktory a je celkový počet faktorů. V jednosměrné ANOVĚ a ve dvoucestné ANOVĚ . Dále předpokládáme, že faktor má úrovně, jmenovitě . Nyní můžeme jeden-hot kódování faktory do trojrozměrného vektoru .

Funkce kódování one-hot je definována tak, že zadání je

Vektor je zřetězení všech výše uvedených vektorů pro všechny . Tak . Abychom získali plně obecnou interakční ANOVA, musíme také zřetězit každý další interakční člen ve vektoru a poté přidat zachycovací člen. Nech ten vektor být .

S touto notací na místě máme nyní přesné spojení s lineární regresí. Jednoduše regresujeme odpověď proti vektoru . Existuje však obava z identifikovatelnosti . Abychom takové problémy překonali, předpokládáme, že součet parametrů v rámci každé sady interakcí se rovná nule. Odtud lze použít F -statistiku nebo jiné metody k určení relevance jednotlivých faktorů.

Příklad

Můžeme uvažovat o příkladu 2-cestné interakce, kde předpokládáme, že první faktor má 2 úrovně a druhý faktor má 3 úrovně.

Definujte, zda a zda , tj. Kódování jednoho faktoru prvního faktoru a kódování druhého cyklu druhého cyklu.

S tím,

kde poslední výraz je zachycovací výraz. Pro konkrétnější příklad předpokládejme, že
Pak,

Viz také

Poznámky pod čarou

Poznámky

Reference

Další čtení

externí odkazy