Vzdálenost Bhattacharyya - Bhattacharyya distance

Ve statistice je vzdálenost Bhattacharyya měří podobnost dvou rozdělení pravděpodobnosti . Úzce souvisí s koeficientem Bhattacharyya, který je měřítkem míry překrývání mezi dvěma statistickými vzorky nebo populacemi. Obě opatření jsou pojmenována po Anilu Kumarovi Bhattacharyyovi , statistikovi, který pracoval ve třicátých letech v indickém statistickém institutu . Vyvinul metodu pro měření vzdálenosti mezi dvěma nenormálními distribucemi a ilustroval to na klasických multinomických populacích i distribucích pravděpodobnosti, které jsou s ohledem na Lebesgueovu míru absolutně spojité. Posledně jmenované dílo se objevilo částečně v roce 1943 ve Věstníku matematické společnosti Kalkaty [sv. 35, s. 99-109], zatímco dřívější část, přestože byla předložena k vydání v roce 1941, se objevila téměř o pět let později v Sankhya [sv. 7, 1946, s. 401-406].

Koeficient lze použít k určení relativní blízkosti dvou uvažovaných vzorků. Používá se k měření oddělitelnosti tříd při klasifikaci a je považován za spolehlivější než vzdálenost Mahalanobis , protože vzdálenost Mahalanobis je konkrétním případem vzdálenosti Bhattacharyya, když jsou standardní odchylky obou tříd stejné. V důsledku toho, když dvě třídy mají podobné prostředky, ale různé standardní odchylky, vzdálenost Mahalanobis by měla tendenci k nule, zatímco vzdálenost Bhattacharyya roste v závislosti na rozdílu mezi standardními odchylkami.

Definice

Pro rozdělení pravděpodobnosti p a q ve stejné doméně X je vzdálenost Bhattacharyya definována jako

kde

je koeficient Bhattacharyya pro diskrétní rozdělení pravděpodobnosti .

Pro spojitá rozdělení pravděpodobnosti je Bhattacharyya koeficient definován jako

V obou případech a . nerespektuje nerovnost trojúhelníku , ale Hellingerovu vzdálenost , která je dána , dodržuje nerovnost trojúhelníku.

Ve své nejjednodušší formulaci lze Bhattacharyyovu vzdálenost mezi dvěma třídami za normálního rozdělení vypočítat tak, že se extrahuje průměr a rozptyly dvou oddělených distribucí nebo tříd:

kde:

  je rozptyl p -tého rozdělení,
  je průměr p -tého rozdělení a
  jsou dvě různé distribuce.

Mahalanobisova vzdálenost použitý v Fisherova lineární diskriminační analýzy je zvláštní případ Bhattacharyya Vzdálenost.

Pro vícerozměrné normální rozdělení ,

kde a kde jsou prostředky a kovarianty distribucí, a

Všimněte si, že v tomto případě první termín ve vzdálenosti Bhattacharyya souvisí s Mahalanobisovou vzdáleností .

Bhattacharyya koeficient

Koeficient Bhattacharyya je přibližné měření množství překrytí mezi dvěma statistických vzorků. Koeficient lze použít k určení relativní podobnosti obou uvažovaných vzorků.

Výpočet koeficientu Bhattacharyya zahrnuje rudimentární formu integrace překrývání dvou vzorků. Interval hodnot dvou vzorků je rozdělen na zvolený počet oddílů a počet členů každého vzorku v každém oddílu je použit v následujícím vzorci,

kde, s ohledem na vzorky p a q , n je počet oddílů, a , jsou počty členů vzorků p a q v i -té oblasti.

Tento vzorec je tedy větší s každým oddílem, který má členy z obou vzorků, a větší s každým oddílem, který má v sobě velké překrývání členů dvou vzorků. Volba počtu oddílů závisí na počtu členů v každém vzorku; příliš málo oddílů ztratí přesnost nadhodnocením oblasti překrytí a příliš mnoho oddílů ztratí přesnost vytvořením jednotlivých oddílů bez členů, přestože jsou v hustě osídleném prostoru vzorku.

Koeficient Bhattacharyya bude 0, pokud nedojde k žádnému překrývání v důsledku násobení nulou v každém oddílu. To znamená, že vzdálenost mezi plně oddělenými vzorky nebude vystavena pouze tímto koeficientem.

Koeficient Bhattacharyya se používá při konstrukci polárních kódů .

Aplikace

Vzdálenost Bhattacharyya je široce používána při výzkumu extrakce a výběru funkcí, zpracování obrazu, rozpoznávání reproduktorů a seskupování telefonů.

„Bhattacharyya prostor“ byl navržen jako technika výběru funkcí, kterou lze použít na segmentaci textur.

Viz také

Reference

  • Kailath, T. (1967). „Divergenční a Bhattacharyya vzdálenosti opatření při výběru signálu“. Transakce IEEE na komunikační technologii . 15 (1): 52–60. doi : 10.1109/TCOM.1967.1089532 .

externí odkazy