Wassersteinova metrika - Wasserstein metric

V matematiky se Wasserstein vzdálenost nebo Kantorovich - Rubinstein metrika je funkce vzdálenosti definován mezi rozdělení pravděpodobnosti na daném metrickém prostoru .

Intuitivně, pokud je každá distribuce považována za jednotkové množství hromady Země (půdy) , je metrika minimální „cenou“ přeměny jedné hromádky na druhou, což se předpokládá jako množství Země, které je třeba přesunout střední vzdálenost, kterou musí být přesunuta. Díky této analogii je metrika v počítačové vědě známá jako vzdálenost pohybu země .

Název „Wassersteinova vzdálenost“ vytvořil RL Dobrushin v roce 1970, poté, co se o něm dozvěděl v práci ruského matematika Leonida Vaseršteĭna 1969, nicméně metriku poprvé definoval Leonid Kantorovich v Matematická metoda plánování výroby a organizace (ruský originál 1939) ) v kontextu optimálního plánování dopravy zboží a materiálu. Někteří vědci proto podporují používání termínů „metrika Kantorovich“ a „vzdálenost Kantorovich“. Většina publikací v anglickém jazyce používá německý pravopis „Wasserstein“ (přisuzovaný jménu „Vaseršteĭn“ německého původu).

Definice

Dovolit být metrický prostor , u nichž každá míra pravděpodobnosti Borel na je opatření Radon (tzv Radon prostor ). Neboť , označme shromažďování všech pravděpodobnostních měr na s konečným okamžikem . Pak existuje nějaký v taková, že:

Wasserstein vzdálenost mezi dvěma opatřeními pravděpodobnostními a v je definována jako

kde označuje shromažďování všech opatření s mezními hodnotami a prvního a druhého faktoru. (Sada je také nazýván množinu všech spojek z a ).

Výše uvedená vzdálenost je obvykle označována (typicky mezi autory, kteří dávají přednost hláskování „Wasserstein“) nebo (obvykle mezi autory, kteří dávají přednost hláskování „Vaserstein“). Zbývající část tohoto článku bude používat notaci.

Wassersteinovu metriku lze ekvivalentně definovat pomocí

kde označuje očekávanou hodnotu o náhodné proměnné a infimum je převzata všech společných distribucí náhodných proměnných a s marginální a resp.

Intuice a připojení k optimální přepravě

Dvě jednorozměrná rozdělení a vynesená na osách x a y a jedno možné společné rozdělení, které definuje transportní plán mezi nimi. Plán společné distribuce/přepravy není jedinečný

Jedním ze způsobů, jak porozumět výše uvedené definici, je zvážit optimální dopravní problém . To znamená, že pro distribuci hmoty v prostoru si přejeme transportovat hmotu takovým způsobem, aby byla transformována do distribuce ve stejném prostoru; transformace „hromady země“ na hromadu . Tento problém má smysl pouze v případě, že hromádka, která má být vytvořena, má stejnou hmotnost jako hromada, která má být přesunuta; Proto bez újmy na obecnosti předpokládat, že a jsou rozdělení pravděpodobnosti, které obsahují celkové hmotnosti 1. Předpokládejme také, že je vzhledem k některým funkce náklady

to dává náklady na přepravu jednotkové hmotnosti z bodu do bodu . Dopravní plán postupu do mohou být popsány funkce , která udává množství hmoty přejít od do . Úkol si můžete představit jako potřebu přesunout hromadu zeminy tvaru do otvoru v zemi tvaru tak, aby na konci hromada země i díra v zemi úplně zmizely. Aby byl tento plán smysluplný, musí splňovat následující vlastnosti

To znamená, že celková hmotnost přesunutá z nekonečně malé oblasti kolem musí být stejná a celková hmotnost přesunutá do oblasti kolem musí být . To je ekvivalentní požadavku, aby byla společná distribuce pravděpodobnosti s mezními a . Nekonečně malá hmota transportovaná z do je tedy a náklady na pohyb se řídí definicí nákladové funkce. Celkové náklady na dopravní plán jsou tedy

Plán není jedinečný; optimální přepravní plán je plán s minimálními náklady ze všech možných přepravních plánů. Jak již bylo zmíněno, podmínkou platnosti plánu je, aby se jednalo o společnou distribuci s okrajovými a ; nechat označit soubor všech takových opatření jako v první části, náklady na optimální plán jsou

Pokud jsou náklady na tah jednoduše vzdáleností mezi dvěma body, pak je optimální cena identická s definicí vzdálenosti.

Příklady

Bodové masy (degenerované rozdělení)

Nechť jsou a jsou dvě degenerované distribuce (tj. Diracovy delta distribuce ) umístěné v bodech a v . Existuje pouze jedno možné spojení těchto dvou měr, a to hmota bodu umístěná na . Tak s použitím obvyklého absolutní hodnoty funkci jako funkce vzdálenosti na , pro všechny je -Wasserstein vzdálenost mezi a je

Podobným úvahy, je-li a jsou hmotné body umístěné v bodech a v , a používáme obvyklou Euklidova normu na jako funkce vzdálenosti, potom

Normální rozdělení

Nechť jsou a jsou dvě nedegenerované Gaussovy míry (tj. Normální distribuce ) na , s příslušnými očekávanými hodnotami a a symetrickými kladnými semi-určitými kovariančními maticemi a . Potom, s ohledem na obvyklou euklidovskou normu na , 2-Wassersteinova vzdálenost mezi a je

Tento výsledek zobecňuje dřívější příklad Wassersteinovy ​​vzdálenosti mezi dvěma bodovými hmotami (alespoň v tomto případě ), protože bodovou hmotnost lze považovat za normální rozdělení s kovarianční maticí rovnou nule, v takovém případě stopový člen zmizí a pouze termín zahrnující euklidovskou vzdálenost mezi prostředky zůstává.

Aplikace

Wassersteinova metrika je přirozeným způsobem srovnání rozdělení pravděpodobnosti dvou proměnných X a Y , kde jedna proměnná je od druhé odvozena malými, nejednotnými odchylkami (náhodnými nebo deterministickými).

Ve vědě o počítačích, například metrika W 1 je široce používán pro porovnání diskrétní distribuce, například na barevný histogram dvou digitálních obrazů ; více podrobností najdete ve vzdálenosti Země .

Ve svém příspěvku 'Wasserstein GAN', Arjovsky et al. použijte metriku Wasserstein-1 jako způsob, jak vylepšit původní rámec Generative Adversarial Networks (GAN), zmírnit problémy s mizivým přechodem a kolapsem režimu. Zvláštní případ normálních distribucí je použit ve Frechet Počáteční vzdálenosti .

Metoda Wasserstein má formální spojení s Procrustesovou analýzou , s aplikací na opatření chirality a na analýzu tvarů.

Vlastnosti

Metrická struktura

To může být prokázáno, že W p splňuje všechny axiomy hotelového metrika na P p ( M ). Navíc konvergence s ohledem na W p je ekvivalentní obvyklé slabé konvergenci opatření plus konvergence prvních p th momentů.

Duální reprezentace W 1

Následující dvojí zastoupení W 1 je zvláštní případ duality věta Kantorovich a Rubinstein (1958): když μ a ν mají ohraničený podporu ,

kde Lip ( f ) označuje minimální Lipschitzovu konstantu pro f .

Porovnejte to s definicí metriky radonu :

Pokud je metrika d ohraničena nějakou konstantou C , pak

a tak konvergence v radonové metrice (shodná s celkovou variační konvergencí, když M je polský prostor ) znamená konvergenci ve Wassersteinově metrice, ale ne naopak.

Ekvivalence W 2 a Sobolevova norma negativního řádu

Za vhodných předpokladů je Wassersteinova vzdálenost řádu dva Lipschitz ekvivalentní homogenní Sobolevově normě negativního řádu . Přesněji řečeno, vezmeme -li být propojený Riemannovský rozdělovač vybavený pozitivním měřítkem , pak můžeme definovat pro seminorm

a za podepsané opatření o dvojí normě

Pak jakákoli dvě pravděpodobnostní opatření a on splňují horní hranici

V opačném směru, pokud a každý má hustotu vzhledem ke standardnímu objemu, na které jsou oba ohraničeny nad některými a mají nezáporné Ricciho zakřivení , pak

Oddělitelnost a úplnost

Pro jakékoli p ≥ 1 je metrický prostor ( P p ( M ), W p ) oddělitelný a je úplný, pokud ( M , d ) je oddělitelný a úplný.

Viz také

Reference

externí odkazy