Wassersteinova metrika - Wasserstein metric
V matematiky se Wasserstein vzdálenost nebo Kantorovich - Rubinstein metrika je funkce vzdálenosti definován mezi rozdělení pravděpodobnosti na daném metrickém prostoru .
Intuitivně, pokud je každá distribuce považována za jednotkové množství hromady Země (půdy) , je metrika minimální „cenou“ přeměny jedné hromádky na druhou, což se předpokládá jako množství Země, které je třeba přesunout střední vzdálenost, kterou musí být přesunuta. Díky této analogii je metrika v počítačové vědě známá jako vzdálenost pohybu země .
Název „Wassersteinova vzdálenost“ vytvořil RL Dobrushin v roce 1970, poté, co se o něm dozvěděl v práci ruského matematika Leonida Vaseršteĭna 1969, nicméně metriku poprvé definoval Leonid Kantorovich v Matematická metoda plánování výroby a organizace (ruský originál 1939) ) v kontextu optimálního plánování dopravy zboží a materiálu. Někteří vědci proto podporují používání termínů „metrika Kantorovich“ a „vzdálenost Kantorovich“. Většina publikací v anglickém jazyce používá německý pravopis „Wasserstein“ (přisuzovaný jménu „Vaseršteĭn“ německého původu).
Definice
Dovolit být metrický prostor , u nichž každá míra pravděpodobnosti Borel na je opatření Radon (tzv Radon prostor ). Neboť , označme shromažďování všech pravděpodobnostních měr na s konečným okamžikem . Pak existuje nějaký v taková, že:
Wasserstein vzdálenost mezi dvěma opatřeními pravděpodobnostními a v je definována jako
kde označuje shromažďování všech opatření s mezními hodnotami a prvního a druhého faktoru. (Sada je také nazýván množinu všech spojek z a ).
Výše uvedená vzdálenost je obvykle označována (typicky mezi autory, kteří dávají přednost hláskování „Wasserstein“) nebo (obvykle mezi autory, kteří dávají přednost hláskování „Vaserstein“). Zbývající část tohoto článku bude používat notaci.
Wassersteinovu metriku lze ekvivalentně definovat pomocí
kde označuje očekávanou hodnotu o náhodné proměnné a infimum je převzata všech společných distribucí náhodných proměnných a s marginální a resp.
Intuice a připojení k optimální přepravě
Jedním ze způsobů, jak porozumět výše uvedené definici, je zvážit optimální dopravní problém . To znamená, že pro distribuci hmoty v prostoru si přejeme transportovat hmotu takovým způsobem, aby byla transformována do distribuce ve stejném prostoru; transformace „hromady země“ na hromadu . Tento problém má smysl pouze v případě, že hromádka, která má být vytvořena, má stejnou hmotnost jako hromada, která má být přesunuta; Proto bez újmy na obecnosti předpokládat, že a jsou rozdělení pravděpodobnosti, které obsahují celkové hmotnosti 1. Předpokládejme také, že je vzhledem k některým funkce náklady
to dává náklady na přepravu jednotkové hmotnosti z bodu do bodu . Dopravní plán postupu do mohou být popsány funkce , která udává množství hmoty přejít od do . Úkol si můžete představit jako potřebu přesunout hromadu zeminy tvaru do otvoru v zemi tvaru tak, aby na konci hromada země i díra v zemi úplně zmizely. Aby byl tento plán smysluplný, musí splňovat následující vlastnosti
To znamená, že celková hmotnost přesunutá z nekonečně malé oblasti kolem musí být stejná a celková hmotnost přesunutá do oblasti kolem musí být . To je ekvivalentní požadavku, aby byla společná distribuce pravděpodobnosti s mezními a . Nekonečně malá hmota transportovaná z do je tedy a náklady na pohyb se řídí definicí nákladové funkce. Celkové náklady na dopravní plán jsou tedy
Plán není jedinečný; optimální přepravní plán je plán s minimálními náklady ze všech možných přepravních plánů. Jak již bylo zmíněno, podmínkou platnosti plánu je, aby se jednalo o společnou distribuci s okrajovými a ; nechat označit soubor všech takových opatření jako v první části, náklady na optimální plán jsou
Pokud jsou náklady na tah jednoduše vzdáleností mezi dvěma body, pak je optimální cena identická s definicí vzdálenosti.
Příklady
Bodové masy (degenerované rozdělení)
Nechť jsou a jsou dvě degenerované distribuce (tj. Diracovy delta distribuce ) umístěné v bodech a v . Existuje pouze jedno možné spojení těchto dvou měr, a to hmota bodu umístěná na . Tak s použitím obvyklého absolutní hodnoty funkci jako funkce vzdálenosti na , pro všechny je -Wasserstein vzdálenost mezi a je
Podobným úvahy, je-li a jsou hmotné body umístěné v bodech a v , a používáme obvyklou Euklidova normu na jako funkce vzdálenosti, potom
Normální rozdělení
Nechť jsou a jsou dvě nedegenerované Gaussovy míry (tj. Normální distribuce ) na , s příslušnými očekávanými hodnotami a a symetrickými kladnými semi-určitými kovariančními maticemi a . Potom, s ohledem na obvyklou euklidovskou normu na , 2-Wassersteinova vzdálenost mezi a je
Tento výsledek zobecňuje dřívější příklad Wassersteinovy vzdálenosti mezi dvěma bodovými hmotami (alespoň v tomto případě ), protože bodovou hmotnost lze považovat za normální rozdělení s kovarianční maticí rovnou nule, v takovém případě stopový člen zmizí a pouze termín zahrnující euklidovskou vzdálenost mezi prostředky zůstává.
Aplikace
Wassersteinova metrika je přirozeným způsobem srovnání rozdělení pravděpodobnosti dvou proměnných X a Y , kde jedna proměnná je od druhé odvozena malými, nejednotnými odchylkami (náhodnými nebo deterministickými).
Ve vědě o počítačích, například metrika W 1 je široce používán pro porovnání diskrétní distribuce, například na barevný histogram dvou digitálních obrazů ; více podrobností najdete ve vzdálenosti Země .
Ve svém příspěvku 'Wasserstein GAN', Arjovsky et al. použijte metriku Wasserstein-1 jako způsob, jak vylepšit původní rámec Generative Adversarial Networks (GAN), zmírnit problémy s mizivým přechodem a kolapsem režimu. Zvláštní případ normálních distribucí je použit ve Frechet Počáteční vzdálenosti .
Metoda Wasserstein má formální spojení s Procrustesovou analýzou , s aplikací na opatření chirality a na analýzu tvarů.
Vlastnosti
Metrická struktura
To může být prokázáno, že W p splňuje všechny axiomy hotelového metrika na P p ( M ). Navíc konvergence s ohledem na W p je ekvivalentní obvyklé slabé konvergenci opatření plus konvergence prvních p th momentů.
Duální reprezentace W 1
Následující dvojí zastoupení W 1 je zvláštní případ duality věta Kantorovich a Rubinstein (1958): když μ a ν mají ohraničený podporu ,
kde Lip ( f ) označuje minimální Lipschitzovu konstantu pro f .
Porovnejte to s definicí metriky radonu :
Pokud je metrika d ohraničena nějakou konstantou C , pak
a tak konvergence v radonové metrice (shodná s celkovou variační konvergencí, když M je polský prostor ) znamená konvergenci ve Wassersteinově metrice, ale ne naopak.
Ekvivalence W 2 a Sobolevova norma negativního řádu
Za vhodných předpokladů je Wassersteinova vzdálenost řádu dva Lipschitz ekvivalentní homogenní Sobolevově normě negativního řádu . Přesněji řečeno, vezmeme -li být propojený Riemannovský rozdělovač vybavený pozitivním měřítkem , pak můžeme definovat pro seminorm
a za podepsané opatření o dvojí normě
Pak jakákoli dvě pravděpodobnostní opatření a on splňují horní hranici
V opačném směru, pokud a každý má hustotu vzhledem ke standardnímu objemu, na které jsou oba ohraničeny nad některými a mají nezáporné Ricciho zakřivení , pak
Oddělitelnost a úplnost
Pro jakékoli p ≥ 1 je metrický prostor ( P p ( M ), W p ) oddělitelný a je úplný, pokud ( M , d ) je oddělitelný a úplný.
Viz také
- Lévyho metrika
- Metrika Lévy – Prochorov
- Celková variační vzdálenost měr pravděpodobnosti
- Dopravní teorie
- Vzdálenost stěhováku Země
Reference
- Villani, Cédric (2008). Optimální doprava, stará i nová . Springer. ISBN 978-3-540-71050-9.
- Ambrosio, L., Gigli, N. & Savaré, G. (2005). Gradientní toky v metrických prostorech a v prostoru pravděpodobnostních opatření . Basilej: ETH Zürich, Birkhäuser Verlag. ISBN 3-7643-2428-7.Správa CS1: více jmen: seznam autorů ( odkaz )
- Jordan, Richard; Kinderlehrer, David; Otto, Felix (1998). „Variační formulace Fokker -Planckovy rovnice“. SIAM J. Math. Anální . 29 (1): 1–17 (elektronický). CiteSeerX 10.1.1.6.8815 . doi : 10,1137/S0036141096303359 . ISSN 0036-1410 . MR 1617171 .
- Rüschendorf, L. (2001) [1994], „Wassersteinova metrika“ , encyklopedie matematiky , EMS Press