Informace o Fisherovi - Fisher information

V matematické statistiky se informace Fisher (někdy jednoduše nazvaný informace ) je způsob měření množství informací , že pozorovatelný náhodná proměnná X nese o neznámém parametru t Vstup pro rozdělení zisku, který modeluje X . Formálně je rozptyl na skóre , nebo očekávaná hodnota tohoto pozorovaného informací . V statistik Bayesian se asymptotická rozdělení na zadní režim závisí na informaci o Fisher a nikoli na předchozí (podle Bernstein-von Mises teorém , který se očekávalo podle Laplaceova pro exponenciální rodiny ). Roli Fisherových informací v asymptotické teorii odhadu maximální pravděpodobnosti zdůraznil statistik Ronald Fisher (po několika počátečních výsledcích Francis Ysidro Edgeworth ). Informace Fishera se také používají při výpočtu předchozího Jeffreys , který se používá v Bayesovské statistice.

Informační matice Fisher se používá k výpočtu kovariančních matic spojených s odhady maximální pravděpodobnosti . Může být také použit při formulaci testovacích statistik, jako je Waldův test .

Ukázalo se, že statistické systémy vědecké povahy (fyzikální, biologické atd.), Jejichž pravděpodobnostní funkce podléhají invariance směny, dodržují maximální Fisherovu informaci. Úroveň maxima závisí na povaze omezení systému.

Definice

Fisherova informace je způsob měření množství informací, které pozorovatelná náhodná proměnná X nese o neznámém parametru θ, na kterém závisí pravděpodobnost X. Nechť f ( X ; θ ) je funkce hustoty pravděpodobnosti (nebo funkce pravděpodobnostní hmotnosti ) pro X podmíněná hodnotou θ . Popisuje pravděpodobnost, že pozorujeme určitý výsledek X , vzhledem k známým hodnota t Vstup . Pokud je f s ohledem na změny v θ prudce špičkové , je snadné z dat určit „správnou“ hodnotu θ nebo ekvivalentně, že data X poskytují mnoho informací o parametru θ . Pokud je pravděpodobnost f plochá a rozložená, pak by bylo potřeba mnoho vzorků X k odhadnutí skutečné „skutečné“ hodnoty θ, která by byla získána s použitím celé populace, ze které se odebírá vzorek. To naznačuje studovat nějaký druh rozptylu vzhledem k θ .

Formálně je parciální derivace vzhledem k t Vstup z přirozeného logaritmu funkce pravděpodobnosti se nazývá skóre . Za určitých podmínek pravidelnosti, pokud θ je skutečný parametr (tj. X je ve skutečnosti distribuováno jako f ( X ; θ )), lze ukázat, že očekávaná hodnota (první okamžik ) skóre, hodnocená na skutečné hodnotě parametru , je 0:

Rozptyl partitury je definována jako informace Fisher :

Všimněte si toho . Náhodná proměnná nesoucí vysokou Fisherovu informaci znamená, že absolutní hodnota skóre je často vysoká. Fisherova informace není funkcí konkrétního pozorování, protože náhodná proměnná X byla zprůměrována.

Pokud je log  f ( x ; θ ) dvakrát diferencovatelný s ohledem na θ a za určitých podmínek pravidelnosti, pak informace Fishera mohou být také zapsány jako

od té doby

a

Na Fisherovu informaci tedy lze pohlížet jako na zakřivení podpůrné křivky (graf log-pravděpodobnosti). Blízko odhadu maximální pravděpodobnosti , nízké Fisherovy informace proto naznačují, že maximum vypadá „tupě“, to znamená, že maximum je mělké a v okolí je mnoho hodnot s podobnou pravděpodobností logu. Naopak vysoké informace Fishera naznačují, že maximum je ostré.

Podmínky pravidelnosti

Podmínky pravidelnosti jsou následující:

  1. Parciální derivace f ( X ; θ ) vzhledem k θ existuje téměř všude . (Může existovat na nulové sadě, pokud tato sada nezávisí na θ .)
  2. Integrál f ( X ; θ ) lze rozlišit pod znaménkem integrálu vzhledem k θ .
  3. Podpora z f ( X , θ ) nezávisí na t Vstup .

Pokud θ je vektor, pak podmínky pravidelnosti musí platit pro každou složku θ . Je snadné najít příklad hustoty, která nesplňuje podmínky pravidelnosti: Hustota proměnné Uniform (0, θ ) nesplňuje podmínky 1 a 3. V tomto případě, i když lze Fisherovu informaci vypočítat z definice, nebude mít vlastnosti, jak se obvykle předpokládá.

Z hlediska pravděpodobnosti

Protože pravděpodobnost z t Vstup vzhledem X je vždy úměrný pravděpodobnosti f ( x , t Vstup ), jejich logaritmy nezbytně lišit konstanta, která je nezávislá na t Vstup a deriváty těchto logaritmů s ohledem na t Vstup být nutně stejné. V definicích Fisherových informací je tedy možné nahradit log s pravděpodobností l ( θ ; X ) namísto log f ( X ; θ ) .

Vzorky jakékoli velikosti

Hodnota X může představovat jeden vzorek odebraný z jedné distribuce nebo může představovat kolekci vzorků odebraných ze sbírky distribucí. Pokud existuje n vzorků a odpovídající n distribucí je statisticky nezávislých, pak Fisherova informace bude nutně součtem informačních hodnot jednoho vzorku Fishera, jeden pro každý jednotlivý vzorek z jeho distribuce. Zejména pokud jsou n distribuce nezávislé a identicky distribuované, pak Fisherova informace bude nutně n násobná Fisherova informace jednoho vzorku ze společné distribuce.

Neformální odvození vazby Cramér – Rao

Cramérova-Rao vázané stavy, že inverzní informací Fisher je nižší přiléhat k rozptylu jakéhokoli nezaujatého odhadce z t Vstup . HL Van Trees (1968) a B. Roy Frieden (2004) poskytují následující metodu odvození vazby Cramér – Rao , což je výsledek, který popisuje použití informací Fishera.

Neformálně začneme zvážením nezaujatého odhadce . Matematicky to znamená „nezaujatý“

Tento výraz je nula nezávislý na θ , takže jeho parciální derivace vzhledem k θ musí být také nula. Podle pravidla součinu se tato parciální derivace také rovná

Pro každé θ je funkce pravděpodobnosti funkcí hustoty pravděpodobnosti, a proto . Z toho vyplývá základní výpočet

Pomocí těchto dvou faktů ve výše uvedeném získáme

Rozdělení integrandu dává

Srovnáním výrazu v integrálu vzniká nerovnost Cauchy -Schwarz

Druhý faktor v závorkách je definován jako Fisherova informace, zatímco první faktor v závorkách je očekávaná průměrná kvadratická chyba odhadce . Přesměrováním nám to nerovnost říká

Jinými slovy, přesnost, na kterou můžeme odhadnout θ, je zásadně omezena Fisherovou informací o funkci pravděpodobnosti.

Jednoparametrový Bernoulliho experiment

Zkouška Bernoulli je náhodná proměnná se dvěma možnými výsledky, „úspěch“ a „neúspěch“, přičemž úspěch má pravděpodobnost θ . Výsledek lze považovat za určený hodem mincí, přičemž pravděpodobnost hlav je θ a pravděpodobnost ocasu je 1 - θ .

Nechť X je Bernoulliho zkouška. Informace Fishera obsažené v X lze vypočítat jako

Protože informace Fisher jsou aditivní, informace Fisher obsažené v n nezávislých Bernoulliho pokusech proto jsou

Toto je převrácenost rozptylu průměrného počtu úspěchů v pokusech n Bernoulliho , takže v tomto případě je vazba Cramér – Rao rovností.

Maticová forma

Když existuje N parametrů, takže θ je vektor N × 1, pak Fisherova informace má formu N × N matice . Tato matice se nazývá Fisherova informační matice (FIM) a má typický prvek

FIM je N × N pozitivní semidefinitová matice . Pokud je kladně určitý, pak definuje riemannianskou metriku na N - dimenzionálním parametrickém prostoru . Informační geometrie tématu používá toto k propojení informací Fishera s diferenciální geometrií a v tomto kontextu je tato metrika známá jako informační metrika Fishera .

Za určitých podmínek pravidelnosti může být informační matice Fisher také zapsána jako

Výsledek je zajímavý několika způsoby:

  • To lze odvodit jako pytloviny na relativní entropii .
  • Může být použit jako riemannianská metrika pro definování Fisher-Rao geometrie, pokud je kladně-definitivní.
  • Lze jej chápat jako metriku indukovanou z euklidovské metriky , po příslušné změně proměnné.
  • Ve své komplexní hodnotě je to metrika Fubini – studie .
  • Je to klíčová část důkazu Wilksovy věty , která umožňuje odhady oblasti spolehlivosti pro odhad maximální pravděpodobnosti (pro ty podmínky, pro které platí), aniž by byl nutný princip pravděpodobnosti .
  • V případech, kdy jsou analytické výpočty FIM výše obtížné, je možné jako odhad FIM vytvořit průměr jednoduchých Monte Carlových odhadů pytloviny negativní log-pravděpodobnostní funkce. Odhady mohou být založeny na hodnotách negativní funkce log-pravděpodobnosti nebo gradientu negativní log-pravděpodobnostní funkce; není zapotřebí analytický výpočet pytloviny negativní log-pravděpodobnostní funkce.

Ortogonální parametry

Říkáme, že dva parametry θ i a θ j jsou ortogonální, pokud je prvek i tého řádku a j. Sloupce Fisherovy informační matice nula. S ortogonálními parametry se lze snadno vypořádat v tom smyslu, že jejich odhady maximální pravděpodobnosti jsou nezávislé a lze je vypočítat samostatně. Při řešení výzkumných problémů je velmi běžné, že výzkumník věnuje nějaký čas hledání ortogonální parametrizace hustot zahrnutých v problému.

Singulární statistický model

Pokud je Fisherova informační matice kladně určitá pro všechny θ , pak je odpovídající statistický model považován za pravidelný ; jinak je statistický model údajně singulární . Mezi příklady singulárních statistických modelů patří následující: normální směsi, binomické směsi, multinomiální směsi, bayesovské sítě, neurální sítě, funkce radiálních bází, skryté Markovovy modely, stochastické bezkontextové gramatiky, regrese se sníženou hodností, Boltzmannovy stroje.

Pokud je ve strojovém učení statistický model navržen tak, že extrahuje skrytou strukturu z náhodného jevu, pak se přirozeně stává singulárním.

Vícerozměrná normální distribuce

FIM pro A N -variate vícerozměrného normálního rozdělení , má zvláštní tvar. Nechť je K -dimenzionální vektor parametrů a vektor náhodných normálních proměnných . Předpokládejme, že průměrné hodnoty těchto náhodných proměnných jsou a nechme být kovarianční maticí . Potom pro ( m , n ) vstup FIM je:

kde označuje transpozici vektoru, označuje stopu o čtvercové matice , a:

Všimněte si, že zvláštní, ale velmi běžný případ je ten, kde je konstanta. Pak

V tomto případě může být Fisher informace matice označena koeficientu matrici normálních rovnic z nejmenších čtverců teorie odhadu.

Další speciální případ nastává, když průměr a kovariance závisí na dvou různých vektorových parametrech, řekněme β a θ . To je obzvláště populární při analýze prostorových dat, která často používá lineární model s korelovanými zbytky. V tomto případě,

kde

Vlastnosti

Řetězové pravidlo

Podobně jako u entropie nebo vzájemných informací má Fisherova informace také rozklad řetězového pravidla . Zejména pokud jsou X a Y společně distribuované náhodné proměnné, vyplývá z toho, že:

kde a je Fisherova informace Y vzhledem k vypočtené s ohledem na podmíněné hustotě Y dané konkrétní hodnotě  X  =  x .

Jako zvláštní případ, pokud jsou dvě náhodné proměnné nezávislé , jsou informace získané těmito dvěma náhodnými proměnnými součtem informací z každé náhodné proměnné samostatně:

V důsledku toho jsou informace v náhodném vzorku n nezávislých a identicky distribuovaných pozorování nkrát vyšší než informace ve vzorku velikosti 1.

Dostatečná statistika

Informace poskytované v dostatečné statistiky je stejná jako u vzorku X . To lze zjistit použitím Neymanova faktorizačního kritéria pro dostatečnou statistiku. Pokud T ( X ) stačí pro θ , pak

u některých funkcí g a h . Nezávislost h ( X ) na θ znamená

a rovnost informací pak vyplývá z definice Fisherových informací. Obecněji platí, že pokud T = t ( X ) je statistika , pak

rovnost , právě když T je postačující statistika .

Reparametrizace

Informace Fishera závisí na parametrizaci problému. Pokud θ a η jsou dvě skalární parametrizace úlohy odhadu a θ je spojitě diferencovatelná funkce η , pak

kde a jsou informační opatření Fishera η a θ .

Ve vektoru případě předpokládat, a jsou K -vectors které parametrizovat problém s odhadu, a předpokládejme, že je spojitě diferencovatelná funkce , tedy

kde ( i , j ) th prvek k  ×  k Jacobian matice je definován

a kde je matice transponována

V informační geometrii je to považováno za změnu souřadnic na riemannianském rozdělovači a vnitřní vlastnosti zakřivení se při různých parametrizacích nemění. Informační matice Fisher obecně poskytuje Riemannovu metriku (přesněji Fisher-Rao metrika) pro řadu termodynamických stavů a ​​lze ji použít jako měřítko informační a geometrické složitosti pro klasifikaci fázových přechodů , např. Skalární zakřivení termodynamického metrického tenzoru se rozbíhá v (a pouze v) bodě fázového přechodu.

V termodynamickém kontextu je Fisherova informační matice přímo úměrná rychlosti změny odpovídajících parametrů objednávky . Tyto vztahy zejména identifikují fázové přechody druhého řádu prostřednictvím divergencí jednotlivých prvků Fisherovy informační matice.

Izoperimetrická nerovnost

Informační matice Fisher hraje roli v nerovnosti, jako je izoperimetrická nerovnost . Ze všech rozdělení pravděpodobnosti s danou entropií je Gaussovské rozdělení to, jehož Fisherova informační matice má nejmenší stopu. Podobně jako má koule ze všech ohraničených množin s daným objemem nejmenší povrch.

Důkaz zahrnuje převzetí vícerozměrné náhodné proměnné s funkcí hustoty a přidání parametru umístění k vytvoření rodiny hustot . Potom, analogicky s Minkowski -Steinerovým vzorcem , je „povrchová plocha“ definována jako

kde je Gaussova proměnná s kovarianční maticí . Název „povrchová plocha“ je výstižný, protože síla entropie je objem „efektivní sady podpor“, stejně jako „derivace“ objemu sady účinné podpory, podobně jako Minkowski-Steinerův vzorec. Zbývající část důkazu používá entropickou nerovnost sil , která je jako Brunn – Minkowského nerovnost . Bylo zjištěno, že stopa Fisherovy informační matice je faktorem .

Aplikace

Optimální návrh experimentů

Informace Fishera jsou široce používány v optimálním experimentálním designu . Vzhledem k reciprocity odhadové-rozptylu a Fisher informací, minimalizuje se rozptylu odpovídá maximální na informace .

Pokud má lineární (nebo linearizovaný ) statistický model několik parametrů , průměr odhadovače parametrů je vektor a jeho rozptyl je matice . Inverze matice rozptylu se nazývá „informační matice“. Protože rozptyl odhadu vektoru parametrů je matice, je problém „minimalizace rozptylu“ komplikovaný. Statistici pomocí statistické teorie komprimují informační matici pomocí souhrnné statistiky reálných hodnot ; protože jde o funkce s reálnou hodnotou, lze tato „informační kritéria“ maximalizovat.

Statistici tradičně hodnotili odhady a návrhy tím, že zvažovali nějakou souhrnnou statistiku kovarianční matice (nezaujatého odhadce), obvykle s kladnými reálnými hodnotami (jako determinant nebo maticová stopa ). Práce s kladnými reálnými čísly přináší několik výhod: Pokud má odhad jednoho parametru kladný rozptyl, pak rozptyl a informace Fishera jsou kladná reálná čísla; proto jsou členy konvexního kuželu nezáporných reálných čísel (jejichž nenulové členy mají ve stejném kuželu převrácené hodnoty).

Pro několik parametrů jsou kovarianční matice a informační matice prvky konvexního kuželu nezáporně definovaných symetrických matic v částečně uspořádaném vektorovém prostoru , podle pořadí Loewner (Löwner). Tento kužel je uzavřen při sčítání a inverzi matice, stejně jako při násobení kladných reálných čísel a matic. Expozice teorie matic a řádu Loewnerů se objevuje v Pukelsheimu.

Tradičními kritérii optimality jsou invarianty informační matice ve smyslu invariantní teorie ; algebraicky, tradiční kritéria optimality jsou funkcionály těchto čísel z (Fisher) informace matice (viz optimální návrh ).

Jeffreys před Bayesovskou statistikou

V Bayesovské statistice se Fisherovy informace používají k výpočtu předchůdce Jeffreyho , což je standardní, neinformativní priorita pro parametry spojité distribuce.

Výpočetní neurověda

Informace Fishera byly použity k nalezení hranic přesnosti neurálních kódů. V takovém případě je X typicky společnou reakcí mnoha neuronů představujících nízko dimenzionální proměnnou θ (jako je například parametr stimulu). Zejména byla studována role korelací v šumu nervových reakcí.

Odvození fyzikálních zákonů

Informace Fishera hrají ústřední roli v kontroverzním principu, který Frieden předložil jako základ fyzikálních zákonů, což je tvrzení, které bylo zpochybněno.

Strojové učení

Informace Fishera se používají v technikách strojového učení, jako je elastická konsolidace hmotnosti , která snižuje katastrofické zapomínání v umělých neuronových sítích .

Vztah k relativní entropii

Informace Fishera souvisí s relativní entropií . Relativní entropie nebo Kullback-Leibler divergence mezi dvěma distribucemi a může být zapsán jako

Nyní zvažte rodinu rozdělení pravděpodobnosti parametrizovanou . Potom lze Kullback – Leiblerovu divergenci mezi dvěma distribucemi v rodině zapsat jako

Pokud je fixní, pak je relativní entropie mezi dvěma distribucemi stejné rodiny minimalizována na . V blízkosti se dá rozšířit předchozí výraz v řadě až do druhého řádu:

Ale derivát druhého řádu lze zapsat jako

Fisherova informace tedy představuje zakřivení relativní entropie.

Dějiny

Informace o Fisherovi prodiskutovalo několik raných statistiků, zejména FY Edgeworth . Savage například říká: „V něm [Fisherova informace] byl [Fisher] do určité míry očekáván (Edgeworth 1908–9 esp. 502, 507–8, 662, 677–8, 82–5 a odkazy na něj [Edgeworth) ] cituje včetně Pearsona a Filona 1898 [...]). “ Existuje řada raných historických pramenů a řada recenzí na toto rané dílo.

Viz také

Další opatření používaná v teorii informací :

Poznámky

Reference