Detekce anomálií - Anomaly detection

V analýze dat , detekci anomálií (také odlehlá hodnota detekce ) je identifikace vzácných položek, událostí nebo pozorování, které zvyšují podezření tím, že výrazně liší od většiny dat. Anomální položky se obvykle přenesou do nějakého druhu problému, jako je bankovní podvod , strukturální vada, zdravotní problémy nebo chyby v textu. Anomáliím se také říká odlehlé hodnoty , novinky, hluk, odchylky a výjimky.

Zejména v kontextu detekce zneužívání a narušení sítě často nejde o vzácné objekty, ale o neočekávané výbuchy činnosti. Tento vzorec nedodržuje společnou statistickou definici odlehlé hodnoty jako vzácného objektu a mnoho metod odhalování odlehlých hodnot (zejména metody bez dohledu) na těchto datech selže, pokud nebyly vhodně agregovány. Místo toho, shluková analýza algoritmus může být schopen detekovat mikro shluky vytvořené těmito vzory.

Existují tři široké kategorie technik detekce anomálií. Techniky detekce anomálií bez dozoru detekují anomálie v neoznačené testovací datové sadě za předpokladu, že většina instancí v datové sadě je normální hledáním instancí, které se zdají nejméně odpovídat zbývající části datové sady. Techniky detekce anomálií pod dohledem vyžadují soubor dat, který byl označen jako „normální“ a „abnormální“ a zahrnuje vyškolení klasifikátoru (klíčovým rozdílem v mnoha dalších problémech se statistickou klasifikací je inherentní nevyvážená povaha detekce odlehlých hodnot). Techniky detekce anomálií s částečným dohledem sestrojí model představující normální chování z dané sady normálních tréninkových dat a poté otestují pravděpodobnost generování testovací instance použitým modelem.

Aplikace

Detekce anomálií je použitelný v různých oblastech, jako je například detekce narušení , detekce podvodů , zjišťování poruch, sledování zdravotního stavu systému, detekci událostí v senzorové sítě, detekční poruchy ekosystémů, a zjištění vady v obrazech za použití stroje vidění . Často se používá při předzpracování k odstranění anomálních dat z datové sady. Při supervizovaném učení má odstranění anomálních dat z datové sady často za následek statisticky významné zvýšení přesnosti.

Oblíbené techniky

V literatuře bylo navrženo několik technik detekce anomálií. Mezi oblíbené techniky patří:

Techniky založené na hustotě ( k-nejbližší soused , místní odlehlý faktor , izolační lesy a mnoho dalších variací tohoto konceptu).
Podprostorová, korelační a tenzorová odlehlá detekce odlehlých hodnot pro vysokodimenzionální data.
Jednosměrné podpůrné vektorové stroje .
Neuronové sítě replikátorů , autoenkodéry , variační autoenkodéry, neuronové sítě s dlouhodobou krátkodobou pamětí
Bayesovské sítě .
Skryté Markovovy modely (HMM).
Minimální kovarianční determinant
Klastrová analýza založená na odlehlé detekci.
Odchylky od pravidel přidružení a časté sady položek.
Fuzzy logická detekce odlehlých hodnot.
Techniky sestavování pomocí sběru funkcí , normalizace skóre a různých zdrojů rozmanitosti.

Výkon různých metod závisí hodně na datové sadě a parametrech a metody mají oproti jiným datovým sadám a parametrům jen málo systémových výhod.

Aplikace na zabezpečení dat

Detekce anomálií byla navržena pro systémy detekce narušení (IDS) Dorothy Denningovou v roce 1986. Detekce anomálií pro IDS se obvykle provádí pomocí prahových hodnot a statistik, ale lze ji také provést pomocí soft computingu a induktivního učení. Typy statistik navržené v roce 1999 zahrnovaly profily uživatelů, pracovních stanic, sítí, vzdálených hostitelů, skupin uživatelů a programů založených na frekvencích, průměrech, odchylkách, kovariancích a standardních odchylkách. Protějškem detekce anomálií při detekci narušení je detekce zneužití .

V předzpracování dat

V supervizovaném učení je detekce anomálií často důležitým krokem v předzpracování dat, aby byl algoritmu učení poskytnut správný soubor dat, na kterém se lze učit. Toto je také známé jako čištění dat . Po detekci anomálních klasifikátorů vzorků je odstraňte, ale někdy mohou poškozená data stále poskytovat užitečné vzorky pro učení. Běžnou metodou pro hledání vhodných vzorků k použití je identifikace hlučných dat . Jedním z přístupů k nalezení hlučných hodnot je vytvoření pravděpodobnostního modelu z dat pomocí modelů nezkorumpovaných a poškozených dat.

Níže je uveden příklad datové sady květů Iris s přidanou anomálií. S zahrnutou anomálií může mít klasifikační algoritmus potíže se správným nalezením vzorů nebo může dojít k chybám.

Fischerova data Iris s anomálií
Pořadí datových sad	Samostatná délka	Samostatná šířka	Délka okvětního lístku	Šířka okvětního lístku	Druh
1	5.1	3.5	1.4	0,2	I. setosa
2	4.9	3,0	1.4	0,2	I. setosa
3	4.7	3.2	1.3	0,2	I. setosa
4	4.6	3.1	1.5	0,2	I. setosa
5	5,0	NULA	1.4	NULA	I. setosa

Odstraněním anomálie bude školení umožněno snáze najít vzory v klasifikacích.

Při těžbě dat budou vysokodimenzionální data také navrhovat velké výpočetní výzvy s intenzivně velkými sadami dat. Odstraněním mnoha vzorků, které se mohou považovat za irelevantní pro klasifikátor nebo detekční algoritmus, lze dobu běhu výrazně zkrátit i u těch největších souborů dat.

Software

ELKI je open-source sada nástrojů pro těžbu dat Java, která obsahuje několik algoritmů pro detekci anomálií a také akceleraci indexu.
Scikit-Learn je open source knihovna Pythonu, která má vestavěné funkce, které poskytují detekci anomálií bez dozoru.

Datové sady

Úložiště referenčních údajů pro detekci anomálií s pečlivě vybranými datovými soubory Ludwig-Maximilians-Universität München ; Zrcadlo na univerzitě v São Paulu .
ODDS - ODDS: Velká sbírka veřejně dostupných datových sad pro detekci odlehlých hodnot s pozemní pravdou v různých doménách.
Benchmark detekce anomálií bez dohledu na Harvardu Dataverse: Datové sady pro detekci anomálií bez dohledu se základní pravdou.
Úložiště dat KMASH ve společnosti Research Data Australia s více než 12 000 soubory dat o detekci anomálií se základní pravdou.

Languages

In other projects