Lineární regrese - Linear regression

V statistiky , lineární regrese je lineární přístup pro modelování vztah mezi skalární reakci a jedné nebo více vysvětlujících proměnných (také známý jako závislé a nezávislé proměnné ). Případ jedné vysvětlující proměnné se nazývá jednoduchá lineární regrese ; pro více než jeden se tento proces nazývá vícenásobná lineární regrese . Tento termín je odlišný od vícerozměrné lineární regrese , kde se předpovídá více korelovaných závislých proměnných, spíše než jedna skalární proměnná.

V lineární regresi jsou vztahy modelovány pomocí funkcí lineárního prediktoru, jejichž neznámé parametry modelu jsou odhadnuty z dat . Takové modely se nazývají lineární . Nejčastěji se předpokládá , že podmíněný průměr odpovědi s ohledem na hodnoty vysvětlujících proměnných (nebo prediktorů) je afinní funkcí těchto hodnot; méně často se používá podmíněný medián nebo jiný kvantil . Stejně jako všechny formy regresní analýzy se lineární regrese zaměřuje spíše na podmíněné rozdělení pravděpodobnosti odpovědi vzhledem k hodnotám prediktorů, než na společné rozdělení pravděpodobnosti všech těchto proměnných, což je doménou vícerozměrné analýzy .

Lineární regrese byla prvním typem regresní analýzy, který byl důkladně studován a byl široce používán v praktických aplikacích. Důvodem je to, že modely, které závisejí lineárně na svých neznámých parametrech, se snáze přizpůsobí modelům, které s jejich parametry nelineárně souvisejí, a protože statistické vlastnosti výsledných odhadů lze snáze určit.

Lineární regrese má mnoho praktických využití. Většina aplikací spadá do jedné z následujících dvou širokých kategorií:

  • Pokud je cílem predikce , prognóza nebo redukce chyb, lze použít lineární regresi, aby se prediktivní model přizpůsobil pozorovanému datovému souboru hodnot odezvy a vysvětlujících proměnných. Po vývoji takového modelu, pokud jsou shromážděny další hodnoty vysvětlujících proměnných bez doprovodné hodnoty odezvy, lze použit vhodný model k predikci odpovědi.
  • Pokud je cílem vysvětlit variace v proměnné odpovědi, které lze připsat variacím ve vysvětlujících proměnných, lze použít lineární regresní analýzu ke kvantifikaci síly vztahu mezi odpovědí a vysvětlujícími proměnnými, a zejména určit, zda některé vysvětlující proměnné nemusí mít vůbec lineární vztah k odpovědi, nebo k identifikaci, které podskupiny vysvětlujících proměnných mohou obsahovat nadbytečné informace o odpovědi.

Lineární regresní modely jsou často osazeny pomocí přístupu nejmenších čtverců , ale mohou být také osazeny jinými způsoby, například minimalizací „nedostatku přizpůsobení“ v jiné normě (jako regrese s nejmenšími absolutními odchylkami ) nebo minimalizací penalizovaných verze nejmenších čtverců nákladové funkce jako v hřebenové regrese ( L 2 -norm trest) a Lasso ( L 1 -norm trest). Naopak přístup nejmenších čtverců lze použít pro modely, které nejsou lineárními modely. Přestože tedy termíny „nejmenší čtverce“ a „lineární model“ spolu úzce souvisí, nejsou synonymní.

Formulace

Při lineární regresi se předpokládá, že pozorování ( červená ) je výsledkem náhodných odchylek ( zelená ) od základního vztahu ( modrá ) mezi závislou proměnnou ( y ) a nezávislou proměnnou ( x ).

Vzhledem k tomu, datový soubor z n statistické jednotky , lineární regresní model předpokládá, že vztah mezi závislou proměnnou y a p -vector regresorů x je lineární . Tento vztah je modelován pomocí poruchového termínu nebo chybové proměnné ε - nepozorované náhodné veličiny, která přidává „šum“ do lineárního vztahu mezi závislou proměnnou a regresory. Model tedy dostává formu

kde T označuje transpozici , takže x i T β je vnitřní součin mezi vektory x i a β .

Tyto n rovnice se často skládají dohromady a zapisují se do maticového zápisu jako

kde

Zápis a terminologie

  • je vektor pozorovaných hodnot proměnné nazývané regresní , endogenní proměnná , proměnná odezvy , měřená proměnná , proměnná kritéria nebo závislá proměnná . Tato proměnná je také někdy známá jako predikovaná proměnná , ale to by nemělo být zaměňováno s predikovanými hodnotami , které jsou označeny . Rozhodnutí o tom, která proměnná v datové sadě je modelována jako závislá proměnná a které jsou modelovány jako nezávislé proměnné, může být založeno na předpokladu, že hodnota jedné z proměnných je způsobena nebo přímo ovlivněna jinými proměnnými. Alternativně může existovat provozní důvod modelovat jednu z proměnných z hlediska ostatních, přičemž v takovém případě nemusí být žádný předpoklad kauzality.
  • mohou být viděny jako matice řádkových vektorů nebo n- rozměrných sloupcových vektorů , které jsou známé jako regresory , exogenní proměnné , vysvětlující proměnné , kovariáty , vstupní proměnné , prediktorové proměnné nebo nezávislé proměnné (nezaměňovat s konceptem z nezávislých náhodných proměnných ). Matici se někdy říká designová matice .
    • Obvykle je jedním z regresorů konstanta. Zejména pro . Odpovídající prvek
    β se nazývá intercept . Mnoho statistických inferenčních postupů pro lineární modely vyžaduje, aby byl přítomen intercept, takže je často zahrnut, i když teoretické úvahy naznačují, že jeho hodnota by měla být nulová.
  • Někdy může být jeden z regresorů nelineární funkcí jiného regresoru nebo dat, jako u polynomické regrese a segmentované regrese . Model zůstává lineární, pokud je lineární ve vektoru parametrů β .
  • Hodnoty x ij lze považovat buď jako pozorovaných hodnot náhodných proměnných X j , nebo jako pevné hodnoty vybraných před pozorováním závislou proměnnou. Obě interpretace mohou být vhodné v různých případech a obecně vedou ke stejným postupům odhadu; v těchto dvou situacích se však používají různé přístupy k asymptotické analýze.
  • je vektor -dimenzionálních parametrů , kde je zachycovací člen (pokud je v modelu zahrnut -jinak je p -dimenzionální). Jeho prvky jsou známé jako efekty nebo regresní koeficienty (i když druhý termín je někdy vyhrazen pro odhadované efekty). V jednoduché lineární regresi je p = 1 a koeficient je znám jako regresní sklon. Statistické odhady a inference v lineární regresi se zaměřují na β . Prvky tohoto vektoru parametrů jsou interpretovány jako parciální derivace závislé proměnné s ohledem na různé nezávislé proměnné.
  • je vektor hodnot . Tato část modelu se nazývá chybový termín , rušivý termín nebo někdy šum (na rozdíl od „signálu“ poskytovaného zbytkem modelu). Tato proměnná zachycuje všechny ostatní faktory, které ovlivňují závislou proměnnou y jinou než regresory x . Vztah mezi chybovým termínem a regresory, například jejich korelace , je klíčovým faktorem při formulování lineárního regresního modelu, protože bude určovat vhodnou metodu odhadu.
  • Přizpůsobení lineárního modelu k danému souboru dat obvykle vyžaduje odhad regresních koeficientů tak, aby byl minimalizován chybový člen . Například je běžné používat součet čtvercových chyb jako měřítko minimalizace.

    Příklad

    Uvažujme o situaci, kdy je malá koule vyhozena do vzduchu a poté změříme její výšky stoupání h i v různých okamžicích času t i . Fyzika nám říká, že ignorováním tahu lze vztah modelovat jako

    kde β 1 určuje počáteční rychlost koule, β 2 je úměrné standardní gravitaci a ε i je způsobeno chybami měření. Lineární regresi lze použít k odhadu hodnot β 1 a β 2 z naměřených dat. Tento model je nelineární v časové proměnné, ale je lineární v parametrech β 1 a β 2 ; pokud vezmeme regresory x i  = ( x i 1 , x i 2 ) = ( t i , t i 2 ), model získá standardní podobu

    Předpoklady

    Standardní lineární regresní modely se standardními technikami odhadu vytvářejí řadu předpokladů o prediktorových proměnných, proměnných odezvy a jejich vztahu. Byla vyvinuta řada rozšíření, která umožňují každý z těchto předpokladů uvolnit (tj. Redukovat na slabší formu) a v některých případech zcela odstranit. Tato rozšíření obecně činí postup odhadu složitějším a časově náročnějším a mohou také vyžadovat více dat, aby bylo možné vytvořit stejně přesný model.

    Příklad kubické polynomické regrese, což je typ lineární regrese. Přestože polynomiální regrese odpovídá datům nelineárním modelem, jako problém statistického odhadu je lineární, v tom smyslu, že regresní funkce E ( y | x ) je lineární v neznámých parametrech, které jsou odhadovány z dat . Z tohoto důvodu je polynomiální regrese považována za speciální případ vícenásobné lineární regrese .

    Níže jsou uvedeny hlavní předpoklady standardních lineárních regresních modelů se standardními technikami odhadu (např. Obyčejné nejmenší čtverce ):

    • Slabá exogenita . To v podstatě znamená, že s prediktorovými proměnnými x lze zacházet jako s pevnými hodnotami, a nikoli s náhodnými proměnnými . To například znamená, že proměnné prediktoru jsou považovány za bezchybné-to znamená, že nejsou kontaminovány chybami měření. Ačkoli tento předpoklad není v mnoha nastaveních realistický, jeho zrušení vede k výrazně obtížnějším modelům chyb ve proměnných .
    • Linearita . To znamená, že průměr proměnné odezvy je lineární kombinací parametrů (regresní koeficienty) a prediktorových proměnných. Všimněte si, že tento předpoklad je mnohem méně omezující, než se na první pohled může zdát. Protože proměnné prediktoru jsou považovány za pevné hodnoty (viz výše), linearita je ve skutečnosti pouze omezením parametrů. Samotné prediktorové proměnné lze libovolně transformovat a ve skutečnosti lze přidat více kopií stejné základní prediktorové proměnné, každá transformovaná jinak. Tato technika se používá například v polynomiální regresi , která využívá lineární regresi k přizpůsobení proměnné odezvy jako libovolné polynomiální funkci (do dané pozice) prediktorové proměnné. S touto velkou flexibilitou mají modely, jako je polynomiální regrese, často „příliš mnoho síly“ v tom smyslu, že mají tendenci přeplňovat data. V důsledku toho musí být typicky použit nějaký druh regularizace, aby se zabránilo nepřiměřenému řešení vycházejícímu z procesu odhadu. Běžnými příklady jsou hřebenová regrese a laso regrese . Lze také použít Bayesovskou lineární regresi , která je ze své podstaty vůči problému nadměrného vybavení víceméně imunní. (Ve skutečnosti lze hřebenovou regresi a lasovou regresi považovat za speciální případy Bayesovské lineární regrese, přičemž konkrétní typy předchozích distribucí jsou umístěny na regresních koeficientech.)
    • Konstantní rozptyl (aka homoscedasticita ). To znamená, že rozptyl chyb nezávisí na hodnotách proměnných prediktoru. Variabilita odpovědí pro dané pevné hodnoty prediktorů je tedy stejná bez ohledu na to, jak velké nebo malé jsou reakce. To často neplatí, protože proměnná, jejíž průměr je velký, bude mít obvykle větší rozptyl než ten, jehož průměr je malý. Například osoba, jejíž příjem je předpovězen na 100 000 USD, může snadno mít skutečný příjem 80 000 USD nebo 120 000 USD - tj. Standardní odchylku přibližně 20 000 USD - zatímco jiná osoba s předpokládaným příjmem 10 000 USD pravděpodobně nebude mít stejnou standardní odchylku 20 000 USD , protože to by znamenalo, že jejich skutečný příjem se může pohybovat kdekoli mezi - 10 000 a 30 000 dolary. (Ve skutečnosti, jak ukazuje, v mnoha případech - často stejných případech, kdy předpoklad normálně distribuovaných chyb selže - by měla být předpovězena odchylka nebo standardní odchylka spíše úměrně průměru než konstantně.) Absence homoscedasticity je nazývá se heteroscedasticita . Abychom tento předpoklad zkontrolovali, lze graf reziduí versus predikované hodnoty (nebo hodnoty každého jednotlivého prediktoru) prozkoumat na „vějířkový efekt“ (tj. Zvýšení nebo snížení vertikálního rozpětí při pohybu zleva doprava na grafu) . Graf absolutních nebo čtvercových zbytků proti predikovaným hodnotám (nebo každému prediktoru) lze také prozkoumat na trend nebo zakřivení. Lze také použít formální testy; viz Heteroscedasticita . Přítomnost heteroscedasticity bude mít za následek, že bude použit celkový „průměrný“ odhad rozptylu místo odhadu, který bere v úvahu skutečnou strukturu rozptylu. To vede k méně přesným (ale v případě běžných nejmenších čtverců nikoli předpojatým) odhadům parametrů a zkresleným standardním chybám, což má za následek zavádějící testy a intervalové odhady. Střední kvadratické chyby na modelu bude také špatně. Různé techniky odhadu, včetně vážených nejmenších čtverců a použití standardních chyb konzistentních s heteroscedasticitou, mohou heteroscedasticitu zvládnout docela obecným způsobem. Bayesovské lineární regresní techniky lze také použít, když se předpokládá, že rozptyl je funkcí průměru. V některých případech je také možné problém vyřešit aplikací transformace na proměnnou odezvy (např. Přizpůsobení logaritmu proměnné odezvy pomocí lineárního regresního modelu, což znamená, že samotná proměnná odezvy má spíše log-normální rozdělení než normální rozdělení ).
    • Aby se zkontrolovala porušení předpokladů linearity, konstantního rozptylu a nezávislosti chyb v rámci lineárního regresního modelu, jsou zbytky obvykle vyneseny proti predikovaným hodnotám (nebo každému z jednotlivých prediktorů). Zjevně náhodný rozptyl bodů kolem vodorovné střední čáry v 0 je ideální, ale nemůže vyloučit určité druhy porušení, jako je autokorelace v chybách nebo jejich korelace s jednou nebo více kovariáty.
      Nezávislost chyb . To předpokládá, že chyby proměnných odezvy spolu navzájem nesouvisí. (Skutečná statistická nezávislost je silnější podmínkou než pouhý nedostatek korelace a často není nutná, i když je možné ji využít, pokud je známo, že platí.) Některé metody, jako jsou generalizované nejmenší čtverce, jsou schopné zvládnout korelované chyby, i když obvykle vyžadují podstatně více dat, pokud není použit nějaký druh regularizace k vychýlení modelu směrem k předpokladu nekorelovaných chyb. Bayesovská lineární regrese je obecný způsob řešení tohoto problému.
    • Nedostatek dokonalé multikolinearity v prediktorech. Pro standardní metody odhadu nejmenších čtverců musí mít návrhová matice X úplnou sloupcovou pozici p ; jinak v prediktorových proměnných existuje dokonalá multikolinearita , což znamená, že existuje lineární vztah mezi dvěma nebo více prediktorovými proměnnými. To může být způsobeno náhodným duplikováním proměnné v datech pomocí lineární transformace proměnné společně s originálem (např. Stejná měření teploty vyjádřená ve Fahrenheite a Celsia) nebo zahrnutím lineární kombinace více proměnných do modelu, jako je jejich průměr. Může se to také stát, pokud je k dispozici příliš málo dat ve srovnání s počtem parametrů, které mají být odhadnuty (např. Méně datových bodů než regresní koeficienty). Blízké porušení tohoto předpokladu, kde prediktory jsou vysoce, ale ne dokonale korelovány, může snížit přesnost odhadů parametrů (viz Variační inflační faktor ). V případě dokonalé multikolinearity je vektor parametrů β bude bez zjistitelné -je nemá jedinečné řešení. V takovém případě lze identifikovat pouze některé parametry (tj. Jejich hodnoty lze odhadnout pouze v rámci nějakého lineárního podprostoru celého prostoru parametrů R p ). Viz částečná regrese nejmenších čtverců . Byly vyvinuty metody pro přizpůsobení lineárních modelů multikolinearitou, z nichž některé vyžadují další předpoklady, jako je „efektová řídkost“ - že velká část efektů je přesně nulová. Všimněte si, že výpočetně nákladnější iterované algoritmy pro odhad parametrů, jako jsou algoritmy používané v generalizovaných lineárních modelech , tímto problémem netrpí.

    Kromě těchto předpokladů výkon různých metod odhadu silně ovlivňuje několik dalších statistických vlastností dat:

    • Statistický vztah mezi chybovými termíny a regresory hraje důležitou roli při určování, zda postup odhadu má žádoucí vlastnosti vzorkování, jako je nezaujatý a konzistentní.
    • Uspořádání neboli rozdělení pravděpodobnosti prediktorových proměnných x má zásadní vliv na přesnost odhadů β . Vzorkování a návrh experimentů jsou vysoce rozvinutá pole statistik, která poskytují vodítka pro sběr dat takovým způsobem, aby bylo dosaženo přesného odhadu β .

    Výklad

    Datové soubory v Anscombeho kvartetu jsou navrženy tak, aby měly přibližně stejnou lineární regresní přímku (stejně jako téměř identické průměry, standardní odchylky a korelace), ale jsou graficky velmi odlišné. To ilustruje úskalí spoléhání se výhradně na přizpůsobený model k pochopení vztahu mezi proměnnými.

    Osazený lineární regresní model může být použit pro určení vztahu mezi jedním prediktorem x j a variabilní odpověď y , pokud jsou všechny ostatní prognostických proměnných v modelu jsou „fixován“. Konkrétně se jedná o výklad p j je očekávané změny v y pro změnu jednoho celku v x j , když jsou ostatní kovariáty fixován to je, očekávanou hodnotu parciální derivace z y s ohledem na x j . Toto je někdy nazýván jedinečný účinek na x j o y . Naproti tomu okrajový účinek na x j v y může být hodnocena za použití korelačního koeficientu nebo jednoduchý lineární regresní model, týkající se pouze x j k y ; tento účinek je celková derivát z y s ohledem na x j .

    Při interpretaci regresních výsledků je třeba postupovat opatrně, protože někteří regresoři nemusí umožňovat okrajové změny (například fiktivní proměnné nebo zachycovací výraz), zatímco jiné nelze držet pevně (připomeňme si příklad z úvodu: bylo by to nemožné „držet t i fix“ a současně změnit hodnotu t i 2 ).

    Je možné, že jedinečný efekt může být téměř nulový, i když je okrajový efekt velký. To může znamenat, že nějaká jiná kovarianta zachycuje všechny informace v x j , takže jakmile je tato proměnná v modelu, neexistuje žádný příspěvek x j ke změně v y . Naopak jedinečný efekt x j může být velký, zatímco jeho okrajový efekt je téměř nulový. To by se stalo, kdyby ostatní kovarianty vysvětlovaly velkou část variace y , ale variace vysvětlovaly hlavně způsobem, který je komplementární k tomu, co je zachyceno x j . V tomto případě zahrnutí dalších proměnných do modelu snižuje část variability y, která nesouvisí s x j , čímž se posiluje zjevný vztah s x j .

    Význam výrazu „drženo pevně“ může záviset na tom, jak hodnoty proměnných prediktoru vznikají. Pokud experimentátor přímo nastaví hodnoty prediktorových proměnných podle návrhu studie, může zajímavé srovnání doslova odpovídat srovnání mezi jednotkami, jejichž experimentální proměnné prediktoru byly „drženy pevně“. Alternativně může výraz "drženo pevně" odkazovat na výběr, který probíhá v kontextu analýzy dat. V tomto případě „držíme proměnnou pevně“ omezením naší pozornosti na podmnožiny dat, která mají shodnou hodnotu pro danou proměnnou prediktoru. Toto je jediná interpretace „drženého fixu“, kterou lze použít v observační studii.

    Pojem „jedinečného efektu“ je přitažlivý při studiu komplexního systému, kde proměnnou odezvy ovlivňuje více vzájemně souvisejících složek. V některých případech může být doslovně interpretován jako kauzální účinek intervence, který je spojen s hodnotou proměnné prediktoru. Bylo však argumentováno, že v mnoha případech vícenásobná regresní analýza nedokáže objasnit vztahy mezi prediktorovými proměnnými a proměnnou odezvy, když jsou prediktory vzájemně korelovány a nejsou přiřazeny podle návrhu studie.

    Rozšíření

    Byla vyvinuta řada rozšíření lineární regrese, která umožňují uvolnění některých nebo všech předpokladů, které jsou základem základního modelu.

    Jednoduchá a vícenásobná lineární regrese

    Příklad jednoduché lineární regrese , která má jednu nezávislou proměnnou

    Nejjednodušší případ jedné skalární prediktorové proměnné x a jediné proměnné y skalární odezvy je znám jako jednoduchá lineární regrese . Rozšíření na více a/nebo vektorově hodnocených prediktorových proměnných (označených velkým X ) je známé jako vícenásobná lineární regrese , také známá jako vícerozměrná lineární regrese (nezaměňovat s vícerozměrnou lineární regresí ).

    Vícenásobná lineární regrese je zobecněním jednoduché lineární regrese na případ více než jedné nezávislé proměnné a zvláštním případem obecných lineárních modelů omezených na jednu závislou proměnnou. Základní model pro vícenásobnou lineární regresi je

    pro každé pozorování i = 1, ..., n .

    Ve výše uvedeném vzorci uvažujeme n pozorování jedné závislé proměnné a p nezávislých proměnných. Tak, Y i je i th pozorování závislé proměnné, X ij je i th pozorování j -té nezávislé proměnné, J = 1, 2, ..., p . Hodnoty β j představují parametry, které se mají odhadnout, a ε i je i ta nezávislá identicky rozložená normální chyba.

    V obecnější vícerozměrné lineární regresi existuje jedna rovnice výše uvedeného tvaru pro každou z m > 1 závislých proměnných, které sdílejí stejnou sadu vysvětlujících proměnných, a proto se odhadují současně navzájem:

    pro všechna pozorování indexovaná jako i = 1, ..., n a pro všechny závislé proměnné indexovaná jako j = 1, ..., m .

    Téměř všechny regresní modely v reálném světě zahrnují více prediktorů a základní popisy lineární regrese jsou často formulovány ve smyslu modelu vícenásobné regrese. Všimněte si však, že v těchto případech je proměnná odpovědi y stále skalární. Jiný termín, vícerozměrná lineární regrese , označuje případy, kde y je vektor, tj. Stejné jako obecná lineární regrese .

    Obecné lineární modely

    Obecný lineární model považuje situaci, když je proměnná odezvy není skalární (pro každé pozorování), ale vektor, y i . Stále se předpokládá podmíněná linearita , přičemž matice B nahrazuje vektor β klasického lineárního regresního modelu. Byly vyvinuty vícerozměrné analogy obyčejných nejmenších čtverců (OLS) a generalizovaných nejmenších čtverců (GLS). „Obecné lineární modely“ se také nazývají „vícerozměrné lineární modely“. Nejsou totožné s více proměnnými lineárními modely (také se jim říká „více lineárních modelů“).

    Heteroscedastické modely

    Byly vytvořeny různé modely, které umožňují heteroscedasticitu , tj. Chyby pro různé proměnné odezvy mohou mít různé odchylky . Například vážené nejmenší čtverce jsou metodou pro odhad lineárních regresních modelů, když proměnné odezvy mohou mít různé odchylky chyb, případně s korelovanými chybami. (Viz také Vážené lineární nejmenší čtverce a Generalizované nejmenší čtverce .) Standardní chyby konzistentní s heteroscedasticitou jsou vylepšenou metodou pro použití s ​​nekorelovanými, ale potenciálně heteroscedastickými chybami.

    Zobecněné lineární modely

    Zobecněné lineární modely (GLM) jsou rámcem pro modelování proměnných odezvy, které jsou ohraničené nebo diskrétní. Používá se například:

    • při modelování kladných veličin (např. cen nebo populací), které se mění ve velkém měřítku-které lze lépe popsat pomocí zkosené distribuce , jako je log-normální distribuce nebo Poissonova distribuce (ačkoli GLM se pro log-normální data nepoužívají, místo odpovědi proměnná je jednoduše transformována pomocí funkce logaritmu);
    • při modelování kategorických dat , jako je volba daného kandidáta ve volbách (což je lépe popsáno pomocí Bernoulliho distribuce / binomické distribuce pro binární volby nebo kategorické distribuce / multinomiální distribuce pro vícesměrné volby), kde existují pevný počet voleb, které nelze smysluplně uspořádat;
    • při modelování řadových dat , např. hodnocení na stupnici od 0 do 5, kde lze různé výsledky uspořádat, ale kde samotné množství nemusí mít žádný absolutní význam (např. hodnocení 4 nemusí být „dvakrát tak dobré“ v jakémkoli cíli smysl jako hodnocení 2, ale jednoduše naznačuje, že je lepší než 2 nebo 3, ale ne tak dobré jako 5).

    Zobecněné lineární modely umožňují libovolné funkce spoje , g ,, že do vztahu střední proměnné odezvy (y), ke prediktorů: . Odkazová funkce často souvisí s distribucí odezvy a zejména má obvykle účinek transformace mezi rozsahem lineárního prediktoru a rozsahem proměnné odezvy.

    Mezi běžné příklady GLM patří:

    Modely s jedním indexem umožňují určitý stupeň nelinearity ve vztahu mezi x a y , přičemž zachovávají ústřední roli lineárního prediktoru βx jako v klasickém lineárním regresním modelu. Za určitých podmínek bude pouhá aplikace OLS na data z modelu s jedním indexem konzistentně odhadovat β až do konstanty proporcionality.

    Hierarchické lineární modely

    Hierarchické lineární modely (nebo víceúrovňové regrese ) organizuje dat do hierarchie regresí, například tam, kde je znovunavrací na B , a B je ustoupila na C . Často se používá tam, kde mají zájmové proměnné přirozenou hierarchickou strukturu, například ve vzdělávacích statistikách, kde jsou studenti vnořeni do tříd, třídy jsou vnořeny do škol a školy jsou vnořeny do některých administrativních skupin, jako je například školní čtvrť. Proměnná reakce může být měřítkem prospěchu žáka, například testovým skóre, a různé úrovně se shromažďují na úrovni třídy, školy a školního okresu.

    Chyby v proměnných

    Modely chyb v proměnných (nebo „modely chyb měření“) rozšiřují tradiční lineární regresní model, aby bylo možné prediktorové proměnné X pozorovat s chybou. Tato chyba způsobí zkreslení standardních odhadů β . Obecně je forma zaujatosti útlum, což znamená, že efekty jsou zkreslené směrem k nule.

    Ostatní

    • V Dempsterově -Shaferově teorii nebo zejména v lineární funkci víry může být lineární regresní model reprezentován jako částečně vymetená matice, kterou lze kombinovat s podobnými maticemi představujícími pozorování a další předpokládané normální rozdělení a stavové rovnice. Kombinace tažených nebo nesmetaných matic poskytuje alternativní metodu pro odhad lineárních regresních modelů.

    Metody odhadu

    Bylo vyvinuto velké množství postupů pro odhad parametrů a inference v lineární regresi. Tyto metody se liší výpočetní jednoduchostí algoritmů, přítomností řešení v uzavřené formě, robustností s ohledem na distribuce s těžkým ocasem a teoretickými předpoklady potřebnými k ověření žádoucích statistických vlastností, jako je konzistence a asymptotická účinnost .

    Některé z běžnějších odhadovacích technik pro lineární regresi jsou shrnuty níže.

    Odhad nejmenších čtverců a související techniky

    Francis Galtonova 1886 ilustrace korelace mezi výškami dospělých a jejich rodičů. Pozorování, že výšky dospělých dětí mají tendenci se odchýlit méně od průměrné výšky, než jejich rodiče, naznačovalo koncept „ regrese směrem k průměru “, což dalo regresi název. Dále jen „locus horizontálních tangenciální body“, které procházejí leftmost a nejvíce vpravo bodů na elipse (což je křivka úroveň z bivariate normálního rozdělení odhadnout z údajů), je OLS odhad regrese výšky rodičů o dětské výšek, zatímco „lokus svislých tangenciálních bodů“ je odhad OLS regrese dětských výšek na rodičovské výšky. Hlavní osou elipsy je odhad TLS .

    Za předpokladu, že nezávislá proměnná je a parametry modelu jsou , pak by předpověď modelu byla

    .

    Pokud je rozšířen na, pak by se stal bodovým součinem parametru a nezávislé proměnné, tzn

    .

    V nastavení nejmenších čtverců je optimální parametr definován tak, že minimalizuje součet průměrných čtvercových ztrát:

    Nyní vložením nezávislých a závislých proměnných do matic a respektive ztrátovou funkci lze přepsat jako:

    Jelikož je ztráta konvexní, leží optimální řešení na gradientu nula. Gradient ztrátové funkce je (pomocí konvence rozložení jmenovatele ):

    Nastavení přechodu na nulu vytvoří optimální parametr:

    Poznámka: Abychom dokázali, že získané je skutečně lokální minimum, je třeba ještě jednou rozlišit, abychom získali hesenskou matici a ukázali, že je pozitivní definitivní. To zajišťuje Gaussova – Markovova věta .

    Metody lineárních nejmenších čtverců zahrnují hlavně:

    Odhad maximální pravděpodobnosti a související techniky

    • Maximální odhad pravděpodobnosti lze provést, když je známo rozdělení chybových podmínek, které patří do určité parametrické rodina ƒ t Vstup z rozdělení pravděpodobnosti . Když f θ je normální rozdělení s nulovým průměrem a rozptylem θ, výsledný odhad je identický s odhadem OLS. Odhady GLS jsou odhady maximální pravděpodobnosti, když ε následuje vícerozměrné normální rozdělení se známou kovarianční maticí .
    • Hřebenová regrese a jiné formy penalizovaného odhadu, jako je Lasso regrese , záměrně zavádějí zkreslení do odhadu β, aby se snížila variabilita odhadu. Výsledné odhady mají obecně nižší střední kvadratickou chybu než odhady OLS, zvláště kdyžje přítomna multikolinearita neboje problém s nadměrným vybavením . Obvykle se používají, když je cílem předpovědět hodnotu proměnné odezvy y pro hodnoty prediktorů x , které ještě nebyly pozorovány. Tyto metody se běžně nepoužívají, pokud je cílem odvození, protože je obtížné vysvětlit předpojatost.
    • Regrese s nejmenší absolutní odchylkou (LAD) je robustní odhadovací technika v tom, že je méně citlivá na přítomnost odlehlých hodnot než OLS (ale je méně účinná než OLS, pokud nejsou přítomny žádné odlehlé hodnoty). Je ekvivalentní odhadu maximální pravděpodobnosti podle Laplaceova distribučního modelu pro ε .
    • Adaptivní odhad . Pokud předpokládáme, že chybové členy jsou nezávislé na regresorech, pak je optimálním odhadcem 2krokový MLE, kde je prvním krokem použit neparametrický odhad rozdělení chybového členu.

    Jiné odhadovací techniky

    Porovnání Theil – Senova odhadu (černé) a jednoduché lineární regrese (modré) pro sadu bodů s odlehlými hodnotami.
    • Bayesovská lineární regrese aplikuje rámec Bayesovské statistiky na lineární regresi. (Viz také Bayesovská vícerozměrná lineární regrese .) Zejména se regresní koeficienty β považují za náhodné proměnné se specifikovaným předchozím rozložením . Předchozí distribuce může zkreslit řešení pro regresní koeficienty, podobným způsobem (ale obecnějším než) hřebenovou regresí nebo laso regresí . Bayesovský odhadovací proces navíc nevytváří jediný bodový odhad pro „nejlepší“ hodnoty regresních koeficientů, ale celé pozdější rozdělení , které zcela popisuje nejistotu obklopující veličinu. Toho lze použít k odhadu „nejlepších“ koeficientů pomocí průměru, režimu, mediánu, jakéhokoli kvantilu (viz kvantilní regrese ) nebo jakékoli jiné funkce pozdější distribuce.
    • Kvantil regrese se zaměřuje na podmíněných kvantily y vzhledem k X, spíše než podmíněné střední hodnoty y vzhledem k X . Lineární kvantilní regrese modeluje konkrétní podmíněný kvantil, například podmíněný medián, jako lineární funkci β T x prediktorů.
    • Smíšené modely se široce používají k analýze vztahů lineární regrese zahrnujících závislá data, pokud mají závislosti známou strukturu. Běžné aplikace smíšených modelů zahrnují analýzu dat zahrnujících opakovaná měření, jako jsou podélná data, nebo data získaná z klastrového vzorkování. Obecně jsou vhodné jako parametrické modely s maximální pravděpodobností nebo Bayesovským odhadem. V případě, že jsou chyby modelovány jako normální náhodné proměnné, existuje úzké spojení mezi smíšenými modely a zobecněnými nejmenšími čtverci. Odhad pevných efektů je alternativním přístupem k analýze tohoto typu dat.
    • Regrese hlavních komponent (PCR) se používá, pokud je počet prediktorových proměnných velký, nebo pokud mezi prediktorovými proměnnými existuje silná korelace. Tato dvoustupňová procedura nejprve redukuje prediktorové proměnné pomocí analýzy hlavních komponent a poté používá redukované proměnné v regresním přizpůsobení OLS. I když to v praxi často funguje dobře, neexistuje žádný obecný teoretický důvod, že by nejinformativnější lineární funkce prediktorových proměnných měla ležet mezi dominantními hlavními složkami vícerozměrné distribuce prediktorových proměnných. Částečná regrese nejmenších čtverců je rozšíření metody PCR, které netrpí uvedených nedostatku.
    • Regrese s nejmenším úhlem je postup odhadu pro lineární regresní modely, který byl vyvinut pro zpracování vysoce dimenzionálních kovariantních vektorů, potenciálně s více kovariáty než pozorování.
    • Theil-Sen odhadce je jednoduchý robustní odhad technika, která se rozhodne sklon linky fit být medián svazích linek prostřednictvím dvojic vzorkových bodů. Má podobné vlastnosti statistické účinnosti jako jednoduchá lineární regrese, ale je mnohem méně citlivý na odlehlé hodnoty .
    • Byly zavedeny další robustní odhadovací techniky, včetně průměrného přístupu upraveného pomocí α a odhadů L-, M-, S- a R.

    Aplikace

    Lineární regrese je široce používána v biologických, behaviorálních a sociálních vědách k popisu možných vztahů mezi proměnnými. Řadí se jako jeden z nejdůležitějších nástrojů používaných v těchto disciplínách.

    Trendová linie

    Trendu představuje trend, dlouhodobý pohyb v časové řady dat po ostatních složek byly vyúčtovány. Udává, zda se určitý soubor dat (řekněme HDP, ceny ropy nebo ceny akcií) během daného období zvýšil nebo snížil. Trendovou čáru lze jednoduše nakreslit okem prostřednictvím sady datových bodů, ale vhodněji se jejich poloha a sklon vypočítávají pomocí statistických technik, jako je lineární regrese. Trendové čáry jsou typicky přímky, i když některé variace používají polynomy vyššího stupně v závislosti na požadovaném stupni zakřivení v linii.

    Trendy se někdy používají v obchodní analytice k zobrazení změn v datech v průběhu času. To má tu výhodu, že je to jednoduché. Trendové linie se často používají k tvrzení, že určitá akce nebo událost (například školení nebo reklamní kampaň) způsobila v určitém časovém okamžiku pozorované změny. Jedná se o jednoduchou techniku, která nevyžaduje kontrolní skupinu, experimentální návrh ani sofistikovanou analytickou techniku. Trpí však nedostatkem vědecké platnosti v případech, kdy mohou data ovlivnit jiné potenciální změny.

    Epidemiologie

    Časné důkazy týkající se kouření tabáku s úmrtností a chorobností pocházely z observačních studií využívajících regresní analýzu. Aby se snížila falešná korelace při analýze pozorovacích dat, výzkumníci obvykle kromě proměnné primárního zájmu zahrnují do svých regresních modelů také několik proměnných. Například v regresním modelu, ve kterém je kouření cigaret nezávislou proměnnou primárního zájmu a závislou proměnnou je délka života měřená v letech, mohou výzkumníci zahrnout vzdělání a příjem jako další nezávislé proměnné, aby zajistili, že jakýkoli pozorovaný účinek kouření na délku života bude ne kvůli těmto dalším socioekonomickým faktorům . Do empirické analýzy však nikdy není možné zahrnout všechny možné matoucí proměnné. Například hypotetický gen může zvýšit úmrtnost a také způsobit, že lidé budou více kouřit. Z tohoto důvodu jsou randomizované kontrolované studie často schopné generovat přesvědčivější důkazy o příčinných vztazích, než jaké lze získat pomocí regresních analýz pozorovacích dat. Pokud kontrolované experimenty nejsou proveditelné, lze k pokusu o odhad kauzálních vztahů z pozorovacích dat použít varianty regresní analýzy, jako je regrese instrumentálních proměnných .

    Finance

    Model oceňování kapitálových aktiv využívá lineární regresi a koncept beta pro analýzu a kvantifikaci systematického rizika investice. To pochází přímo z koeficientu beta lineárního regresního modelu, který spojuje návratnost investice s návratností všech rizikových aktiv.

    Ekonomika

    Lineární regrese je převládajícím empirickým nástrojem v ekonomii . Používá se například k predikci výdajů na spotřebu , fixních investičních výdajů, investic do zásob , nákupů vývozu země , výdajů na dovoz , poptávky po držení likvidních aktiv , poptávky po práci a nabídky práce .

    Věda o životním prostředí

    Lineární regrese nachází uplatnění v celé řadě aplikací environmentální vědy. V Kanadě Program monitorování vlivů na životní prostředí využívá statistické analýzy na rybách a bentické průzkumy k měření účinků odpadních vod z celulózky nebo kovových dolů na vodní ekosystém.

    Strojové učení

    Lineární regrese hraje důležitou roli v podoblasti umělé inteligence známé jako strojové učení . Algoritmus lineární regrese je díky své relativní jednoduchosti a dobře známým vlastnostem jedním ze základních algoritmů supervizovaného strojového učení .

    Dějiny

    Legendre (1805) a Gauss (1809) pro predikci planetárního pohybu provedli lineární regresi nejmenších čtverců jako způsob nalezení dobrého hrubého lineárního přizpůsobení sadě bodů . Quetelet byl zodpovědný za to, že se tento postup stal známým a že ho hojně používal v sociálních vědách.

    Viz také

    Reference

    Citace

    Prameny

    • Cohen, J., Cohen P., West, SG a Aiken, LS (2003). Aplikovaná vícenásobná regresní/korelační analýza pro behaviorální vědy . (2. vyd.) Hillsdale, New Jersey: Lawrence Erlbaum Associates
    • Charles Darwin . Variace zvířat a rostlin pod domestikací . (1868) (Kapitola XIII popisuje, co bylo známo o reverzi v Galtonově době. Darwin používá termín „reverze“.)
    • Draper, NR; Smith, H. (1998). Aplikovaná regresní analýza (3. vydání). John Wiley. ISBN 978-0-471-17082-2.
    • Francis Galton. „Regrese směrem k průměrnosti v dědičném stavu,“ Journal of the Anthropological Institute , 15: 246-263 (1886). (Fax na: [1] )
    • Robert S. Pindyck a Daniel L. Rubinfeld (1998, 4h ed.). Ekonometrické modely a ekonomické prognózy , kap. 1 (Úvod, vč. Příloh Σ operátorů a odvození odhadu parametrů) & Příloha 4.3 (multiregrese ve formě matice).

    Další čtení

    externí odkazy