Gauss – Markovova věta - Gauss–Markov theorem

Ve statistice je věta Gauss-Markov (nebo jednoduše Gaussova věta u některých autorů) se uvádí, že běžní nejmenších čtverců (OLS) odhadce má nejnižší vzorkovací variabilitu uvnitř skupiny z lineárních nezkreslených odhadů , pokud jsou chyby v lineárním regresním modelu jsou nekorelované , mají stejné odchylky a očekávanou hodnotu nula. Chyby nemusí být normální , ani nemusí být nezávislé a identicky distribuované (pouze nekorelované se střední nulou a homoscedastické s konečnou odchylkou). Nelze upustit od požadavku, aby byl odhad nezaujatý, protože existují zkreslené odhady s nižší odchylkou. Viz například James – Steinův odhad (který také snižuje linearitu), hřebenovou regresi nebo jednoduše jakýkoli zvrhlý odhad.

Věta byla pojmenována po Carlu Friedrichovi Gaussovi a Andrey Markovovi , ačkoli Gaussova práce významně předchází Markovovu. Ale zatímco Gauss odvodil výsledek za předpokladu nezávislosti a normality, Markov omezil předpoklady na formu uvedenou výše. Další zobecnění nesférických chyb podal Alexander Aitken .

Prohlášení

Předpokládejme, že máme maticovou notaci,

rozšiřuje se na

kde nejsou náhodné, ale un pozorovatelné parametry, nejsou náhodné a pozorovatelné (volal „vysvětlující proměnné“), jsou náhodné, a proto jsou náhodné. Náhodné proměnné se nazývají „rušení“, „šum“ nebo jednoduše „chyba“ (v kontrastu s „reziduálními“ dále v článku; viz chyby a rezidua ve statistikách ). Všimněte si, že pro zahrnutí konstanty do výše uvedeného modelu lze zvolit zavedení konstanty jako proměnné, přičemž nově zavedený poslední sloupec X je jednota, tj. Pro všechny . Všimněte si, že i když jsou ukázkové odpovědi pozorovatelné, následující tvrzení a argumenty, včetně předpokladů, důkazů a dalších, se předpokládají za jediné podmínky vědět, ale nikoli

Tyto Gauss-Markov předpoklady se týkají sady chybových náhodných veličin, :

  • Mají průměrnou nulu:
  • Jsou homoscedastické , to znamená, že všechny mají stejnou konečnou odchylku: pro všechny a
  • Výrazné chybové výrazy nesouvisejí:

Lineární odhad z je lineární kombinací

ve kterých koeficienty nesmí záviset na podkladových koeficientech , protože ty nejsou pozorovatelné, ale mohou záviset na hodnotách , protože tyto údaje jsou pozorovatelné. (Závislost koeficientů na každém z nich je obvykle nelineární; odhad je lineární v každém a tudíž v každém náhodném, což je důvod, proč se jedná o „lineární“ regresi .) Odhaduje se, že je nestranný, právě když

bez ohledu na hodnoty . Nyní je lineární kombinace koeficientů. Pak je střední kvadratická chyba odpovídajícího odhadu

jinými slovy, je třeba odhadnout druhou mocninu váženého součtu (napříč parametry) rozdílů mezi odhady a odpovídajícími parametry. (Protože uvažujeme případ, kdy jsou všechny odhady parametrů nestranné, je tato střední kvadratická chyba stejná jako rozptyl lineární kombinace.) Nejlepší lineární nestranný odhad (MODRÝ) vektoru parametrů je ten s nejmenší střední čtvercová chyba pro každý vektor parametrů lineární kombinace. To odpovídá podmínce, že

je pozitivní semitečná matice pro všechny ostatní lineární nezaujaté odhady .

Obyčejný odhad nejmenších čtverců (OLS) je funkce

z a (kde označuje transpozici a ), která minimalizuje součet čtverců zbytků (misprediction částky):

Věta nyní uvádí, že odhad OLS je MODRÝ. Hlavní myšlenkou důkazu je, že odhadce nejmenších čtverců není korelována s každým lineárním nezaujatým odhadcem nuly, tj. S každou lineární kombinací, jejíž koeficienty nezávisí na nepozorovatelném, ale jejichž očekávaná hodnota je vždy nulová.

Poznámka

Důkaz, že OLS skutečně MINIMALIZUJE součet čtverců reziduí, může pokračovat následujícím způsobem s výpočtem hesenské matice a ukázáním, že je kladně definitivní.

Funkce MSE, kterou chceme minimalizovat, je

pro vícenásobný regresní model s proměnnými p . První derivace je
kde X je návrhová matice

Pytloviny matice druhých derivátů

Za předpokladu, že sloupce jsou lineárně nezávislé, takže je nezvratné, ať pak

Nyní buďme vlastním vektorem .

Z hlediska násobení vektorů to znamená

kde je vlastní číslo odpovídající . Navíc,

Nakonec, protože vlastní vektor byl libovolný, znamená to, že všechna vlastní čísla jsou kladná, proto jsou kladná určitá. Tím pádem,

je skutečně místní minimum.

Důkaz

Dovolme být dalším lineárním odhadcem s tím, kde je nenulová matice. Protože se omezujeme na nezaujaté odhady, minimální střední kvadratická chyba znamená minimální rozptyl. Cílem je tedy ukázat, že takový odhad má rozptyl, který není menší než rozptyl odhadce OLS. Počítáme:

Vzhledem k tomu, je un pozorovatelný, je objektivní tehdy a jen tehdy, jestliže . Pak:

Protože DD ' je kladná semidefinitová matice, překračuje kladná semidefinitová matice.

Poznámky k důkazu

Jak již bylo uvedeno výše, stav je pozitivně semidefinitní matice je ekvivalentní vlastnosti, že nejlepší lineární nezaujatý odhadce je (nejlépe v tom smyslu, že má minimální rozptyl). Chcete-li to vidět, nechte jiného lineárního nezaujatého odhadce .

Rovnost navíc platí tehdy a jen tehdy . Počítáme

To dokazuje, že rovnost platí právě tehdy, když dává jedinečnost odhadce OLS jako MODRÉ.

Zobecněný odhad nejmenších čtverců

Tyto všeobecné nejmenších čtverců (GLS), vyvinuté Aitken , rozšiřuje Gauss-Markov teorém na případ, kde je chyba vektor má kovarianční-skalární non matice. Aitkenův odhad je také MODRÝ.

Gauss – Markovova věta, jak je uvedeno v ekonometrii

U většiny ošetření OLS se předpokládá, že regresory (sledované parametry) v návrhové matici jsou fixovány v opakovaných vzorcích. Tento předpoklad je považován za nevhodný pro převážně neexperimentální vědu, jako je ekonometrie . Místo toho jsou předpoklady Gauss-Markovovy věty podmíněny .

Linearita

Závislá proměnná se považuje za lineární funkci proměnných specifikovaných v modelu. Specifikace musí být ve svých parametrech lineární. To neznamená, že mezi nezávislými a závislými proměnnými musí existovat lineární vztah. Nezávislé proměnné mohou mít nelineární podobu, pokud jsou parametry lineární. Rovnice se kvalifikuje jako lineární, zatímco ji lze transformovat na lineární nahrazením jiným parametrem, řekněme . Rovnice s parametrem závislým na nezávislé proměnné se nekvalifikuje jako lineární, například kde je funkce .

Transformace dat se často používají k převodu rovnice do lineární formy. Například Cobb-Douglasova funkce - často používaná v ekonomii - je nelineární:

Lze jej však vyjádřit lineárně pomocí přirozeného logaritmu obou stran:

Tento předpoklad zahrnuje také problémy se specifikacemi: za předpokladu, že byla vybrána správná funkční forma a neexistují žádné vynechané proměnné .

Měli bychom si však být vědomi, že parametry, které minimalizují rezidua transformované rovnice, nemusí nutně minimalizovat rezidua původní rovnice.

Přísná exogenita

U všech pozorování je očekávání - podmíněné regresory - chybového termínu nulové:

kde je datový vektor regresorů pro i- té pozorování a následně je datová matice nebo matice návrhu.

Geometricky tento předpoklad naznačuje, že a jsou navzájem kolmé , takže jejich vnitřní součin (tj. Jejich křížový moment) je nulový.

Tento předpoklad je porušen, pokud jsou vysvětlující proměnné stochastické, například když jsou měřeny s chybou , nebo jsou endogenní . Endogenita může být výsledkem simultánnosti , kdy kauzalita proudí tam a zpět mezi závislou i nezávislou proměnnou. K řešení tohoto problému se běžně používají techniky instrumentálních proměnných .

Plná pozice

Matice vzorových dat musí mít celé pořadí sloupců .

Jinak není invertovatelný a odhad OLS nelze vypočítat.

Porušení tohoto předpokladu je dokonalá multicollinearita , tj. Některé vysvětlující proměnné jsou lineárně závislé. Jeden scénář, ve kterém k tomu dojde, se nazývá „trapná proměnná“, když není vynechána základní fiktivní proměnná, což vede k dokonalé korelaci mezi fiktivními proměnnými a konstantním výrazem.

Může být přítomna multicollinearita (pokud není „dokonalá“), což vede k méně efektivnímu, ale přesto nezaujatému odhadu. Odhady budou méně přesné a vysoce citlivé na konkrétní soubory dat. Multicollinearita může být detekována mimo jiné z počtu podmínek nebo faktoru rozptylu inflace .

Sférické chyby

Vnější produkt chybové vektoru musí být kulatý.

To znamená, že chybový člen má jednotnou odchylku ( homoscedasticitu ) a žádnou sériovou závislost. Pokud je tento předpoklad porušen, OLS je stále nezaujatý, ale neúčinný. Termín „sférické chyby“ bude popisovat vícerozměrné normální rozdělení: pokud je ve vícerozměrné normální hustotě, pak rovnice je vzorec pro míč se středem v μ s poloměrem σ v n-dimenzionálním prostoru.

Heteroskedasticita nastává, když je velikost chyby korelována s nezávislou proměnnou. Například v regresi výdajů a příjmů potravin chyba koreluje s příjmem. Lidé s nízkými příjmy obvykle utrácejí podobnou částku za jídlo, zatímco lidé s vysokými příjmy mohou utrácet velmi velké částky nebo jen málo lidí. Heteroskedastic může být také způsoben změnami v postupech měření. Například když statistické úřady zlepšují svá data, chyba měření klesá, takže chybový termín časem klesá.

Tento předpoklad je porušen, pokud existuje autokorelace . Autokorelace může být zobrazena na datovém grafu, když je pravděpodobnější, že dané pozorování leží nad osazenou čarou, pokud sousední pozorování leží také nad osazenou regresní přímkou. Autokorelace je běžná v datech časových řad, kde u datových řad může dojít k „setrvačnosti“. Pokud závislé proměnné nějakou dobu trvá, než plně absorbuje šok. Může také dojít k prostorové autokorelaci, přičemž zeměpisné oblasti pravděpodobně budou mít podobné chyby. Autokorelace může být výsledkem nesprávné specifikace, jako je například výběr nesprávné funkční formy. V těchto případech je oprava specifikace jedním z možných způsobů řešení autokorelace.

Za přítomnosti sférických chyb lze odhadnout, že generalizovaný odhad nejmenších čtverců je MODRÝ.

Viz také

Další nestranné statistiky

Reference

Další čtení

externí odkazy