Vzdálenost Bhattacharyya - Bhattacharyya distance

Ve statistice je vzdálenost Bhattacharyya měří podobnost dvou rozdělení pravděpodobnosti . Úzce souvisí s koeficientem Bhattacharyya, který je měřítkem míry překrývání mezi dvěma statistickými vzorky nebo populacemi. Obě opatření jsou pojmenována po Anilu Kumarovi Bhattacharyyovi , statistikovi, který pracoval ve třicátých letech v indickém statistickém institutu . Vyvinul metodu pro měření vzdálenosti mezi dvěma nenormálními distribucemi a ilustroval to na klasických multinomických populacích i distribucích pravděpodobnosti, které jsou s ohledem na Lebesgueovu míru absolutně spojité. Posledně jmenované dílo se objevilo částečně v roce 1943 ve Věstníku matematické společnosti Kalkaty [sv. 35, s. 99-109], zatímco dřívější část, přestože byla předložena k vydání v roce 1941, se objevila téměř o pět let později v Sankhya [sv. 7, 1946, s. 401-406].

Koeficient lze použít k určení relativní blízkosti dvou uvažovaných vzorků. Používá se k měření oddělitelnosti tříd při klasifikaci a je považován za spolehlivější než vzdálenost Mahalanobis , protože vzdálenost Mahalanobis je konkrétním případem vzdálenosti Bhattacharyya, když jsou standardní odchylky obou tříd stejné. V důsledku toho, když dvě třídy mají podobné prostředky, ale různé standardní odchylky, vzdálenost Mahalanobis by měla tendenci k nule, zatímco vzdálenost Bhattacharyya roste v závislosti na rozdílu mezi standardními odchylkami.

Definice

Pro rozdělení pravděpodobnosti p a q ve stejné doméně X je vzdálenost Bhattacharyya definována jako

{\ Displaystyle D_ {B} (p, q) =-\ ln \ left (BC (p, q) \ right)}

kde

{\ Displaystyle BC (p, q) = \ sum _ {x \ in X} {\ sqrt {p (x) q (x)}}}}

je koeficient Bhattacharyya pro diskrétní rozdělení pravděpodobnosti .

Pro spojitá rozdělení pravděpodobnosti je Bhattacharyya koeficient definován jako

{\ Displaystyle BC (p, q) = \ int {\ sqrt {p (x) q (x)}} \, dx}

V obou případech a . nerespektuje nerovnost trojúhelníku , ale Hellingerovu vzdálenost , která je dána , dodržuje nerovnost trojúhelníku. ${\ Displaystyle 0 \ leq BC \ leq 1}$ ${\ Displaystyle 0 \ leq D_ {B} \ leq \ infty}$ ${\ displaystyle D_ {B}}$ ${\ displaystyle {\ sqrt {1-BC (p, q)}}}$

Ve své nejjednodušší formulaci lze Bhattacharyyovu vzdálenost mezi dvěma třídami za normálního rozdělení vypočítat tak, že se extrahuje průměr a rozptyly dvou oddělených distribucí nebo tříd:

{\ Displaystyle D_ {B} (p, q) = {\ frac {1} {4}} \ ln \ left ({\ frac {1} {4}} \ left ({\ frac {\ sigma _ {p }^{2}} {\ sigma _ {q}^{2}}}+{\ frac {\ sigma _ {q}^{2}} {\ sigma _ {p}^{2}}}+2 \ right) \ right)+{\ frac {1} {4}} \ left ({\ frac {(\ mu _ {p}-\ mu _ {q})^{2}} {\ sigma _ {p }^{2}+\ sigma _ {q}^{2}}} \ vpravo)}

kde:

${\ Displaystyle \ sigma _ {p}^{2}}$	je rozptyl p -tého rozdělení,
${\ displaystyle \ mu _ {p}}$	je průměr p -tého rozdělení a
${\ displaystyle p, q}$	jsou dvě různé distribuce.

Mahalanobisova vzdálenost použitý v Fisherova lineární diskriminační analýzy je zvláštní případ Bhattacharyya Vzdálenost.

Pro vícerozměrné normální rozdělení , ${\ displaystyle p_ {i} = {\ mathcal {N}} ({\ boldsymbol {\ mu}} _ {i}, \, {\ boldsymbol {\ Sigma}} _ {i})}$

{\ displaystyle D_ {B} = {1 \ over 8} ({\ boldsymbol {\ mu}} _ {1}-{\ boldsymbol {\ mu}} _ {2})^{T} {\ boldsymbol {\ Sigma}}^{-1} ({\ boldsymbol {\ mu}} _ {1}-{\ boldsymbol {\ mu}} _ {2})+{1 \ over 2} \ ln \, \ left ({ \ det {\ boldsymbol {\ Sigma}} \ over {\ sqrt {\ det {\ boldsymbol {\ Sigma}} _ {1} \, \ det {\ boldsymbol {\ Sigma}} _ {2}}}} \ že jo),}

kde a kde jsou prostředky a kovarianty distribucí, a ${\ displaystyle {\ boldsymbol {\ mu}} _ {i}}$ ${\ displaystyle {\ boldsymbol {\ Sigma}} _ {i}}$

{\ displaystyle {\ boldsymbol {\ Sigma}} = {{\ boldsymbol {\ Sigma}} _ {1}+{\ boldsymbol {\ Sigma}} _ {2} \ over 2}.}

Všimněte si, že v tomto případě první termín ve vzdálenosti Bhattacharyya souvisí s Mahalanobisovou vzdáleností .

Bhattacharyya koeficient

Koeficient Bhattacharyya je přibližné měření množství překrytí mezi dvěma statistických vzorků. Koeficient lze použít k určení relativní podobnosti obou uvažovaných vzorků.

Výpočet koeficientu Bhattacharyya zahrnuje rudimentární formu integrace překrývání dvou vzorků. Interval hodnot dvou vzorků je rozdělen na zvolený počet oddílů a počet členů každého vzorku v každém oddílu je použit v následujícím vzorci,

{\ Displaystyle BC (\ mathbf {p}, \ mathbf {q}) = \ sum _ {i = 1}^{n} {\ sqrt {p_ {i} q_ {i}}},}

kde, s ohledem na vzorky p a q , n je počet oddílů, a , jsou počty členů vzorků p a q v i -té oblasti. ${\ displaystyle p_ {i}}$ ${\ displaystyle q_ {i}}$

Tento vzorec je tedy větší s každým oddílem, který má členy z obou vzorků, a větší s každým oddílem, který má v sobě velké překrývání členů dvou vzorků. Volba počtu oddílů závisí na počtu členů v každém vzorku; příliš málo oddílů ztratí přesnost nadhodnocením oblasti překrytí a příliš mnoho oddílů ztratí přesnost vytvořením jednotlivých oddílů bez členů, přestože jsou v hustě osídleném prostoru vzorku.

Koeficient Bhattacharyya bude 0, pokud nedojde k žádnému překrývání v důsledku násobení nulou v každém oddílu. To znamená, že vzdálenost mezi plně oddělenými vzorky nebude vystavena pouze tímto koeficientem.

Koeficient Bhattacharyya se používá při konstrukci polárních kódů .

Aplikace

Vzdálenost Bhattacharyya je široce používána při výzkumu extrakce a výběru funkcí, zpracování obrazu, rozpoznávání reproduktorů a seskupování telefonů.

„Bhattacharyya prostor“ byl navržen jako technika výběru funkcí, kterou lze použít na segmentaci textur.

Viz také

Reference

Nielsen, F .; Boltz, S. (2010). „Centroidy Burbea – Rao a Bhattacharyya“. IEEE transakce na informační teorii . 57 (8): 5455–5466. arXiv : 1004,5049 . doi : 10.1109/TIT.2011.2159046 .

Kailath, T. (1967). „Divergenční a Bhattacharyya vzdálenosti opatření při výběru signálu“. Transakce IEEE na komunikační technologii . 15 (1): 52–60. doi : 10.1109/TCOM.1967.1089532 .

Djouadi, A .; Snorrason, O .; Garber, F. (1990). „Kvalita odhadů školení-ukázka koeficientu Bhattacharyya“. IEEE transakce na analýze vzorů a strojové inteligenci . 12 (1): 92–97. doi : 10,1109/34,41388 .

Krátký seznam vlastností viz: http://www.mtm.ufsc.br/~taneja/book/node20.html

externí odkazy

„Vzdálenost Bhattacharyya“ , Encyklopedie matematiky , EMS Press , 2001 [1994]
Bhattacharyyaova vzdálenostní vzdálenost jako předchůdce genetických měřítek vzdálenosti , Journal of Biosciences , 2004

Languages

In other projects