Nejméně absolutní odchylky - Least absolute deviations

Nejmenší absolutní odchylky ( LAD ), známé také jako nejmenší absolutní chyby ( LAE ), nejmenší absolutní hodnota ( LAV ), nejmenší absolutní zbytky ( LAR ), součet absolutních odchylek nebo podmínka normy L 1 , jsou kritériem statistické optimality a technika statistické optimalizace, která se na to spoléhá. Podobně jako u metody nejmenších čtverců se pokouší najít funkci, která se blíží souboru dat. V jednoduchém případě množiny dat ( x , y ) je aproximační funkcí jednoduchá „trendová čára“ v dvojrozměrných karteziánských souřadnicích . Metoda minimalizuje součet absolutních chyb (SAE) (součet absolutních hodnot svislých „zbytků“ mezi body generovanými funkcí a odpovídajícími body v datech). Odhad nejmenších absolutních odchylek také vzniká jako odhad maximální pravděpodobnosti, pokud mají chyby Laplaceovo rozdělení . Byl představen v roce 1757 Rogerem Josephem Boscovichem .

Formulace

Předpokládejme, že soubor dat se skládá z bodů ( x i , y i ) s i = 1, 2, ..., n . Chceme najít funkci f taková, že

Abychom tohoto cíle dosáhli, předpokládáme, že funkce f má konkrétní formu obsahující některé parametry, které je třeba určit. Například nejjednodušší forma by byla lineární: f ( x ) = bx + c , kde b a c jsou parametry, jejichž hodnoty nejsou známy, ale které bychom chtěli odhadnout. Méně jednoduše předpokládejme, že f ( x ) je kvadratický , což znamená, že f ( x ) = ax 2 + bx + c , kde a , b a c ještě nejsou známy. (Obecněji může existovat nejen jeden vysvětlovač x , ale spíše více vysvětlivek, všechny se jeví jako argumenty funkce f .)

Nyní hledáme odhadované hodnoty neznámých parametrů, které minimalizují součet absolutních hodnot zbytků:

Řešení

Ačkoli myšlenka regrese nejmenších absolutních odchylek je stejně přímočará jako regrese nejmenších čtverců, linie nejmenších absolutních odchylek není tak jednoduchá pro efektivní výpočet. Na rozdíl od regrese nejmenších čtverců regrese s nejmenšími absolutními odchylkami nemá analytickou metodu řešení. Proto je nutný iterativní přístup. Následuje výčet některých metod řešení nejmenších absolutních odchylek.

  • Jednoduše založené metody (například algoritmus Barrodale-Roberts)
    • Protože problémem je lineární program , lze použít kteroukoli z mnoha technik lineárního programování (včetně simplexové metody i dalších).
  • Iterativně znovu zvážené nejmenší čtverce
  • Wesolowského metoda přímého sestupu
  • Přístup maximální pravděpodobnosti Li-Arce
  • Rekurzivní redukce přístupu dimenzionality
  • Zkontrolujte všechny kombinace čar bod-bod, zda neobsahují minimální součet chyb

Jednoduše založené metody jsou „preferovaným“ způsobem řešení problému s nejmenšími absolutními odchylkami. Simplexní metoda je metoda pro řešení problému v lineárním programování. Nejoblíbenějším algoritmem je modifikovaný Simplexův algoritmus Barrodale-Roberts. Algoritmy pro IRLS, Wesolowského metodu a Liovu metodu lze nalézt v příloze A jiných metod. Kontrola všech kombinací čar procházejících libovolnými dvěma (x, y) datovými body je další metodou nalezení linie nejmenších absolutních odchylek. Protože je známo, že alespoň jedna linie absolutních odchylek prochází alespoň dvěma datovými body, tato metoda najde řádek porovnáním SAE (nejmenší absolutní chyba nad datovými body) každého řádku a výběrem řádku s nejmenším SAE. Kromě toho, pokud má více řádků stejný, nejmenší SAE, pak řádky načrtnou oblast více řešení. Ačkoli je tato konečná metoda jednoduchá, je pro velké sady dat neefektivní.

Pomocí lineárního programování

Problém lze vyřešit pomocí jakékoli lineární programovací techniky podle následující specifikace problému. Přejeme si

s ohledem na výběr hodnot parametrů , kde y i je hodnota i -tého pozorování závislé proměnné a x ij je hodnota i -tého pozorování j -té nezávislé proměnné ( j = 1, ..., k ). Tento problém přepíšeme z hlediska umělých proměnných u i jako

s ohledem na a
podléhá

Tato omezení mají za následek, že jsou po minimalizaci nuceny se vyrovnat , takže objektivní funkce je ekvivalentní původní objektivní funkci. Protože tato verze příkazu problem neobsahuje operátor absolutní hodnoty, je ve formátu, který lze vyřešit pomocí libovolného lineárního programovacího balíčku.

Vlastnosti

Existují další jedinečné vlastnosti linie nejmenších absolutních odchylek. V případě sady dat ( x , y ) čára nejmenších absolutních odchylek projde vždy alespoň dvěma datovými body, pokud neexistuje více řešení. Pokud existuje více řešení, bude oblast platných řešení s nejmenšími absolutními odchylkami ohraničena alespoň dvěma čarami, z nichž každá prochází alespoň dvěma datovými body. Obecněji platí, že pokud existuje k regresorů (včetně konstanty), pak alespoň jedna optimální regresní plocha projde k datových bodů.

Toto „zacvaknutí“ čáry k datovým bodům může pomoci porozumět vlastnosti „nestability“: pokud se čára vždy zafixuje alespoň do dvou bodů, bude čára při změně datových bodů přeskakovat mezi různými sadami bodů. „Západka“ také pomáhá porozumět vlastnosti „robustnosti“: pokud existuje odlehlá hodnota a čára nejmenších absolutních odchylek musí zapadnout do dvou datových bodů, odlehlá hodnota pravděpodobně nebude jedním z těchto dvou bodů, protože to nebude minimalizovat součet absolutních odchylek ve většině případů.

Jeden známý případ, ve kterém existuje více řešení, je sada bodů symetrických kolem vodorovné čáry, jak je znázorněno na obrázku A níže.

Obrázek A: Sada datových bodů s odrazovou symetrií a řešeními s nejmenšími absolutními odchylkami. „Oblast řešení“ je zobrazena zeleně. Svislé modré čáry představují absolutní chyby od růžové čáry ke každému datovému bodu. Růžová čára je jedním z nekonečně mnoha řešení v zelené oblasti.

Abychom pochopili, proč v případě uvedeném na obrázku A existuje více řešení, zvažte růžovou čáru v zelené oblasti. Jeho součet absolutních chyb je nějaká hodnota S. Pokud by člověk linii mírně naklonil nahoru a přitom ji stále udržel v zelené oblasti, součet chyb by byl stále S. Neměnilo by se to, protože vzdálenost od každého bodu k čára roste na jedné straně čáry, zatímco vzdálenost ke každému bodu na opačné straně čáry se zmenšuje přesně o stejnou hodnotu. Součet absolutních chyb tedy zůstává stejný. Protože lze linii naklánět v nekonečně malých přírůstcích, ukazuje to také, že pokud existuje více než jedno řešení, existuje nekonečně mnoho řešení.

Výhody a nevýhody

Následuje tabulka porovnávající některé vlastnosti metody nejmenších absolutních odchylek s vlastnostmi metody nejmenších čtverců (pro nesingulární problémy).

Obyčejná regrese nejmenších čtverců Regrese nejmenších absolutních odchylek
Není příliš robustní Robustní
Stabilní řešení Nestabilní řešení
Jedno řešení* Možná více řešení

*Za předpokladu, že počet datových bodů je větší nebo roven počtu funkcí.

Metoda nejmenších absolutních odchylek nachází uplatnění v mnoha oblastech díky své robustnosti ve srovnání s metodou nejmenších čtverců. Nejméně absolutní odchylky jsou robustní v tom, že jsou odolné vůči odlehlým hodnotám v datech. LAD klade stejný důraz na všechna pozorování, na rozdíl od běžných nejmenších čtverců (OLS), která kvadraturou zbytků dává větší váhu velkým zbytkům, tj. Odlehlým hodnotám, ve kterých jsou predikované hodnoty daleko od skutečných pozorování. To může být užitečné ve studiích, kde odlehlé hodnoty nemusí mít větší váhu než jiná pozorování. Pokud je důležité dát odlehlé hodnotě větší váhu, je metoda nejmenších čtverců lepší volbou.

Variace, rozšíření, specializace

Pokud v součtu absolutních hodnot zbytků zobecníme funkci absolutní hodnoty na nakloněnou funkci absolutní hodnoty, která na levé polopřímce má sklon a na pravé polopřímce má sklon , kde se získá kvantilní regrese . Případ udává standardní regresi s nejmenšími absolutními odchylkami a je také znám jako medián regrese.

Problém s nejmenší absolutní odchylkou lze rozšířit tak, aby zahrnoval více vysvětlivek, omezení a regularizaci , např. Lineární model s lineárními omezeními:

minimalizovat
podléhá např.

kde je sloupcový vektor koeficientů, které se mají odhadnout, b je intercept, který se má odhadovat, x i je sloupcový vektor i -tých pozorování na různých vysvětlujících faktorech, y i je i -tý pozorování závislé proměnné, a k je známá konstanta.

Regularizaci pomocí LASSO lze také kombinovat s LAD.

Viz také

Reference

Další čtení