Odlehlé - Outlier

Obrázek 1. Krabicový graf dat z experimentu Michelson – Morley zobrazující čtyři odlehlé hodnoty ve středním sloupci a jednu odlehlou hodnotu v prvním sloupci.

V statistik , An odlehlé se o údaje ukazují , že se významně liší od jiných pozorování. Mimořádná hodnota může být způsobena variabilitou měření nebo může indikovat experimentální chybu; ty posledně jmenované jsou někdy ze souboru dat vyloučeny . Odlehlá hodnota může způsobit vážné problémy ve statistických analýzách.

Odlehlé hodnoty se mohou vyskytnout náhodou v jakékoli distribuci, ale často ukazují buď na chybu měření, nebo na to, že populace má silně ocasované rozdělení . V prvním případě je chcete zahodit nebo použít statistiky, které jsou robustní vůči odlehlým hodnotám, zatímco v druhém případě naznačují, že distribuce má vysokou šikmost a že by měl být velmi opatrný při používání nástrojů nebo intuic, které předpokládají normální rozdělení . Častou příčinou odlehlých hodnot je směs dvou distribucí, které mohou být dvěma odlišnými subpopulacemi, nebo mohou indikovat „správnou studii“ versus „chybu měření“; toto je modelováno smíšeným modelem .

Ve většině větších vzorkování dat budou některé datové body dále od průměru vzorku, než je považováno za rozumné. To může být způsobeno náhodnou systematickou chybou nebo nedostatky v teorii, která generovala předpokládanou rodinu rozdělení pravděpodobnosti , nebo to může být tím, že některá pozorování jsou daleko od středu dat. Odlehlé body mohou proto indikovat chybná data, chybné postupy nebo oblasti, kde určitá teorie nemusí být platná. U velkých vzorků se však dá očekávat malý počet odlehlých hodnot (a ne kvůli nějaké anomální situaci).

Extrémní hodnoty, které jsou nejextrémnějšími pozorováními, mohou zahrnovat maximum vzorku nebo minimum vzorku nebo obojí, v závislosti na tom, zda jsou extrémně vysoké nebo nízké. Maximum a minimum vzorku však nejsou vždy odlehlé, protože nemusí být neobvykle daleko od jiných pozorování.

Naivní interpretace statistik odvozených ze souborů dat, které zahrnují odlehlé hodnoty, může být zavádějící. Pokud například někdo vypočítává průměrnou teplotu 10 předmětů v místnosti a devět z nich má teplotu mezi 20 a 25 stupni Celsia , ale trouba má teplotu 175 ° C, medián dat bude mezi 20 a 25 ° C, ale průměrná teplota se bude pohybovat mezi 35,5 a 40 ° C. V tomto případě medián lépe odráží teplotu náhodně vzorkovaného předmětu (nikoli však teplotu v místnosti) než průměr; naivně interpretovat průměr jako „typický vzorek“, ekvivalent mediánu, je nesprávné. Jak je znázorněno v tomto případě, odlehlé hodnoty mohou indikovat datové body, které patří do jiné populace než zbytek sady vzorků .

Odhady schopné vyrovnat se s odlehlými hodnotami jsou údajně robustní: medián je robustní statistikou centrální tendence , zatímco průměr není. Průměr je však obecně přesnějším odhadem.

Výskyt a příčiny

Relativní pravděpodobnosti v normálním rozdělení

V případě normálně distribuovaných dat znamená pravidlo tří sigma, že zhruba 1 z 22 pozorování se bude lišit od standardní odchylky dvakrát nebo více a průměr od 1 z 370 se odchyluje od trojnásobku standardní odchylky. Ve vzorku 1000 pozorování je přítomnost až pěti pozorování odchylujících se od průměru více než trojnásobkem standardní odchylky v rozsahu toho, co lze očekávat, přičemž je to méně než dvojnásobek očekávaného počtu, a tedy v rámci 1 standardní odchylky očekávané číslo - viz Poissonova distribuce - a neoznačuje anomálii. Pokud je velikost vzorku pouze 100, jsou však důvodem k obavám již jen tři takové odlehlé hodnoty, což je více než 11násobek očekávaného počtu.

Obecně platí, že pokud je a priori známa povaha distribuce populace , je možné testovat, zda se počet odlehlých hodnot výrazně liší od toho, co lze očekávat: pro dané mezní hodnoty (vzorky tedy překračují mezní hodnotu s pravděpodobností p ) při dané distribuci bude počet odlehlých hodnot sledovat binomické rozdělení s parametrem p , které lze obecně dobře aproximovat Poissonovou distribucí s λ = pn . Pokud tedy vezmeme normální rozdělení s mezními 3 standardními odchylkami od průměru, p je přibližně 0,3%, a tak pro 1000 pokusů lze aproximovat počet vzorků, jejichž odchylka přesahuje 3 sigma, podle Poissonova rozdělení s λ = 3.

Příčiny

Odlehlé hodnoty mohou mít mnoho anomálních příčin. Fyzický přístroj pro měření mohl utrpět přechodnou poruchu. Pravděpodobně došlo k chybě při přenosu dat nebo přepisu. Odlehlé hodnoty vznikají v důsledku změn v chování systému, podvodného chování, lidské chyby, chyby přístroje nebo jednoduše přirozenými odchylkami v populacích. Vzorek mohl být kontaminován prvky mimo zkoumanou populaci. Alternativně může být odchylka výsledkem chyby v předpokládané teorii, která vyžaduje další zkoumání výzkumným pracovníkem. Patologický vzhled odlehlých hodnot určité formy se navíc objevuje v různých datových sadách, což naznačuje, že příčinný mechanismus pro data se může na extrémním konci lišit ( Kingův efekt ).

Definice a detekce

Neexistuje žádná rigidní matematická definice toho, co představuje mimořádnou hodnotu; určení, zda je pozorování odlehlý nebo ne, je v konečném důsledku subjektivní cvičení. Existují různé metody detekce odlehlých hodnot. Některé jsou grafické, jako jsou běžné grafy pravděpodobnosti . Jiné jsou založené na modelech. Krabicové pozemky jsou hybridní.

Metody založené na modelech, které se běžně používají k identifikaci, předpokládají, že data pocházejí z normální distribuce, a identifikují pozorování, která jsou považována za „nepravděpodobná“ na základě průměru a standardní odchylky:

Peirceovo kritérium

Navrhuje se určit v sérii pozorování mez chyby, za jejímž překročením lze odmítnout všechna pozorování zahrnující tak velkou chybu za předpokladu, že jich bude tolik . Princip, na kterém se navrhuje vyřešit tento problém, je, že navrhovaná pozorování by měla být odmítnuta, pokud je pravděpodobnost systému chyb získaných jejich zadržením menší než pravděpodobnost systému chyb získaných jejich odmítnutím vynásobeného pravděpodobností dělat tolik, a už ne, neobvyklá pozorování. (Citováno v redakční poznámce na straně 516 Peirce (vydání 1982) z příručky A Manual of Astronomy 2: 558 od Chauvenet.)

Tukeyho ploty

Jiné metody označují pozorování na základě opatření, jako je mezikvartilní rozsah . Například pokud a jsou dolní a horní kvartily , pak by bylo možné definovat odlehlou hodnotu jako jakékoli pozorování mimo rozsah:

pro nějakou nezápornou konstantu . John Tukey navrhl tento test, kde označuje „odlehlou hodnotu“ a označuje data, která jsou „daleko“.

Při detekci anomálií

V různých oblastech, jako jsou, ale bez omezení na statistiky , zpracování signálu , finance , ekonometrie , výroba , vytváření sítí a dolování dat , může úkol detekce anomálií přijmout jiné přístupy. Některé z nich mohou být založeny na vzdálenosti a hustotě, například Local Outlier Factor (LOF). Některé přístupy mohou použít vzdálenost k k-nejbližším sousedům k označení pozorování jako odlehlých hodnot nebo odlehlých hodnot.

Upravený test Thompson Tau

Upravený test Thompson Tau je metoda používaná k určení, zda v datové sadě existuje odlehlá hodnota. Síla této metody spočívá v tom, že bere v úvahu standardní odchylku souboru dat, průměr a poskytuje statisticky určenou zónu odmítnutí; poskytuje tedy objektivní metodu k určení, zda je datový bod mimořádný. Jak to funguje: Nejprve se určí průměr souboru dat. Dále je určena absolutní odchylka mezi každým datovým bodem a průměrem. Za třetí, oblast odmítnutí je určena pomocí vzorce:

;

kde je kritická hodnota z Student t rozdělení s n -2 stupni volnosti, n je velikost vzorku, a s je směrodatná odchylka vzorku. Chcete -li zjistit, zda je hodnota odlehlá: Vypočítejte . Pokud δ > Region odmítnutí, je datový bod odlehlou hodnotou. Pokud δ ≤ oblast odmítnutí, datový bod není mimořádný.

Upravený test Thompson Tau slouží k nalezení vždy jedné odlehlé hodnoty (největší hodnota δ se odstraní, pokud se jedná o odlehlou hodnotu). To znamená, že pokud se zjistí, že datový bod je odlehlý, odstraní se ze sady dat a test se znovu použije s novou průměrnou a odmítnutou oblastí. Tento proces pokračuje, dokud v sadě dat nezůstanou žádné odlehlé hodnoty.

Některé práce také zkoumaly odlehlé hodnoty pro nominální (nebo kategorická) data. V kontextu sady příkladů (nebo instancí) v datové sadě měří tvrdost instance pravděpodobnost, že instance bude chybně klasifikována ( kde y je označení přiřazené třídy a x představuje hodnotu vstupního atributu pro instanci v tréninkové sadě t ). V ideálním případě by se tvrdost instance počítala součtem všech možných hypotéz H :

Prakticky je tato formulace neproveditelná, protože H je potenciálně nekonečný a výpočet není pro mnoho algoritmů znám. Tvrdost instance lze tedy aproximovat pomocí rozmanité podmnožiny :

kde je hypotéza vyvolaná algoritmem učení natrénovaným na tréninkové sadě t s hyperparametry . Tvrdost instance poskytuje spojitou hodnotu pro určení, zda je instance mimořádnou instancí.

Práce s odlehlými hodnotami

Volba způsobu řešení odlehlých hodnot by měla záviset na příčině. Někteří odhadci jsou velmi citliví na odlehlé hodnoty, zejména na odhad kovariančních matic .

Uchování

I když je pro analyzovaná data vhodný normální distribuční model, u velkých vzorků se očekávají odlehlé hodnoty a v takovém případě by neměly být automaticky vyřazeny. Aplikace by měla používat klasifikační algoritmus, který je robustní vůči odlehlým hodnotám, k modelování dat s přirozeně se vyskytujícími odlehlými body.

Vyloučení

Vymazání odlehlých dat je kontroverzní praktikou, na kterou se ohání mnoho vědců a vědeckých instruktorů; zatímco matematická kritéria poskytují objektivní a kvantitativní metodu pro odmítnutí dat, nedělají tuto praxi vědecky ani metodologicky vhodnější, zejména v malých sadách nebo tam, kde nelze předpokládat normální rozdělení. Odmítnutí odlehlých hodnot je přijatelnější v oblastech praxe, kde je spolehlivě znám základní model měřeného procesu a obvyklé rozdělení chyby měření. Odlehlá hodnota vyplývající z chyby čtení nástroje může být vyloučena, ale je žádoucí, aby byla hodnota alespoň ověřena.

Dva běžné přístupy k vyloučení odlehlých hodnot jsou zkrácení (nebo oříznutí) a Winsorising . Ořezávání zahodí odlehlé hodnoty, zatímco Winsorising nahradí odlehlé hodnoty nejbližšími „nepodezřelými“ daty. Vyloučení může být také důsledkem procesu měření, například když experiment není zcela schopen měřit takové extrémní hodnoty, což má za následek cenzurovaná data.

V regresních problémech může být alternativním přístupem pouze vyloučení bodů, které vykazují velký stupeň vlivu na odhadované koeficienty, pomocí míry, jako je Cookova vzdálenost .

Pokud je datový bod (nebo body) vyloučen z analýzy dat , mělo by to být jasně uvedeno v každé další zprávě.

Nestandardní distribuce

Je třeba vzít v úvahu, že základní distribuce dat není přibližně normální a má „ tlusté ocasy “. Například při odběru vzorků z Cauchyho distribuce se rozptyl vzorku zvyšuje s velikostí vzorku, střední hodnota vzorku se s rostoucí velikostí vzorku nesbližuje a odlehlé hodnoty se očekávají při mnohem vyšších rychlostech než u normální distribuce. I nepatrný rozdíl v tučnosti ocasů může znamenat velký rozdíl v očekávaném počtu extrémních hodnot.

Nastavené nejistoty členství

Přístup množinového členství předpokládá, že nejistota odpovídající i -tému měření neznámého náhodného vektoru x je reprezentována množinou X i (namísto funkce hustoty pravděpodobnosti). Pokud nedojde k odlehlým hodnotám, x by mělo patřit průsečíku všech X i . Když se vyskytnou odlehlé hodnoty, tato křižovatka by mohla být prázdná a měli bychom uvolnit malý počet sad X i (co nejmenších), abychom se vyhnuli nekonzistentnosti. To lze provést pomocí pojmu q - uvolněná křižovatka . Jak je znázorněno na obrázku, průsečík q -relaxovaný odpovídá množině všech x, které patří do všech množin kromě q z nich. Sady X i , které neprotínají průsečík s Q -uvolněním, by mohly být podezřelé jako odlehlé hodnoty.

Obrázek 5. q -uvolněný průnik 6 sad pro q = 2 (červená), q = 3 (zelená), q = 4 (modrá), q = 5 (žlutá).

Alternativní modely

V případech, kdy je známa příčina odlehlých hodnot, může být možné začlenit tento účinek do struktury modelu, například pomocí hierarchického Bayesova modelu nebo smíšeného modelu .

Viz také

Reference

externí odkazy