Funkce pravděpodobnosti - Likelihood function

Funkce pravděpodobnosti (často jednoduše nazýván pravděpodobnost ) popisuje společné pravděpodobnost z pozorovaných dat v závislosti na parametrech zvoleného statistického modelu . Pro každou hodnotu parametru specifické v prostoru parametru , je funkce pravděpodobnosti tedy přiřadí pravděpodobnostní predikce na pozorovaných dat . Protože je to v zásadě produkt hustoty vzorkování , pravděpodobnost obecně zapouzdřuje jak proces generování dat, tak mechanismus chybějících dat, který vytvořil pozorovaný vzorek.

Zdůraznit, že je pravděpodobné, není pdf parametrů, to je často psáno jako . Při odhadu maximální pravděpodobnosti je funkce pravděpodobnosti maximalizována, aby se získala konkrétní hodnota, která s největší pravděpodobností vygenerovala pozorovaná data. Mezitím v Bayesovské statistice slouží funkce pravděpodobnosti jako kanál, kterým ovlivňují informace o vzorku , pozdější pravděpodobnost parametru.

Případ pro použití pravděpodobnosti poprvé vytvořil RA Fisher , který věřil, že jde o samostatný rámec pro statistické modelování a odvozování. Později Barnard a Birnbaum vedli myšlenkový směr, který prosazoval princip pravděpodobnosti , přičemž předpokládali, že všechny relevantní informace pro odvození jsou obsaženy ve funkci pravděpodobnosti. Ale v častých i bayesovských statistikách hraje funkce pravděpodobnosti zásadní roli.

Definice

Funkce pravděpodobnosti je obvykle definována odlišně pro diskrétní a spojitá rozdělení pravděpodobnosti. Je také možná obecná definice, jak je popsáno níže.

Diskrétní rozdělení pravděpodobnosti

Nechť je diskrétní náhodná veličina s funkcí pravděpodobnostní hmotnosti v závislosti na parametru . Pak funkce

považována za funkci , je pravděpodobnostní funkce , vzhledem k výsledku náhodné proměnné . Někdy je pravděpodobnost „hodnoty z pro hodnotu parametru “ je napsán jako P ( X = x | t Vstup ) nebo P ( X = x , θ ) . nesmí být zaměňováno s ; pravděpodobnost se rovná pravděpodobnosti, že je konkrétní výsledek pozorován, když je skutečná hodnota parametru , a proto se rovná hustotě pravděpodobnosti nad výsledkem , nikoli nad parametrem .  

Vzhledem k žádné události (žádná data) je pravděpodobnost a tedy pravděpodobnost 1; jakákoli netriviální událost bude mít nižší pravděpodobnost.

Příklad

Obrázek 1. Funkce pravděpodobnosti ( ) pro pravděpodobnost heads-upu při přistání mince (bez předchozí znalosti férovosti mince), vzhledem k tomu, že jsme pozorovali HH.
Obrázek 2. Funkce pravděpodobnosti ( ) pro pravděpodobnost heads-upu při přistání mince (bez předchozí znalosti férovosti mince), vzhledem k tomu, že jsme pozorovali HHT.

Zvažte jednoduchý statistický model převrácení mince: jediný parametr, který vyjadřuje „férovost“ mince. Parametr je pravděpodobnost, že mince při hodu padne hlavou nahoru („H“). může nabývat libovolné hodnoty v rozsahu 0,0 až 1,0. Pro dokonale spravedlivý mince , .

Představte si, že dvakrát hodíte poctivou mincí a budete sledovat následující data: dvě hlavy ve dvou hodech („HH“). Za předpokladu, že každý následující mincí je iid , pak je pravděpodobnost pozorování HH

Vzhledem k pozorovaným údajům HH je tedy pravděpodobnost, že se modelový parametr rovná 0,5, 0,25. Matematicky je toto napsáno jako

Není to stejné jako tvrdit, že pravděpodobnost, která je vzhledem k pozorování HH 0,25. (K tomu bychom mohli použít Bayesovu větu , která znamená , že pozdější pravděpodobnost je úměrná pravděpodobnosti krát předchozí pravděpodobnosti.)

Předpokládejme, že mince není férová mince, ale místo toho ano . Pak je pravděpodobnost získání dvou hlav

Proto

Obecněji řečeno, pro každou hodnotu můžeme vypočítat odpovídající pravděpodobnost. Výsledek těchto výpočtů je zobrazen na obrázku 1.

Na obrázku 1 je integrál pravděpodobnosti v intervalu [0, 1] 1/3. To ilustruje důležitý aspekt pravděpodobností: pravděpodobnosti se nemusí integrovat (nebo součet) na 1, na rozdíl od pravděpodobností.

Spojité rozdělení pravděpodobnosti

Nechť je náhodná veličina po absolutně souvislém rozdělení pravděpodobnosti s funkcí hustoty (funkce ), která závisí na parametru . Pak funkce

považována jako funkce , je funkce pravděpodobnosti (z , s ohledem na výsledek z ). Někdy funkce hustoty pro „hodnotu z dané hodnoty parametru “ je psán jako . Funkce pravděpodobnosti , by neměla být zaměňována s ; pravděpodobnost se rovná hustotě pravděpodobnosti pozorovaného výsledku, když je skutečná hodnota parametru , a proto se rovná hustotě pravděpodobnosti nad výsledkem , tj. funkce pravděpodobnosti není hustotou nad parametrem . Jednoduše řečeno, jde o testování hypotéz (zjištění pravděpodobnosti měnících se výsledků s ohledem na sadu parametrů definovaných v nulové hypotéze ) stejně jako pro odvozování (nalezení pravděpodobných parametrů s konkrétním výsledkem).  

Obecně

V opatření-teoretická teorie pravděpodobnosti je funkce hustoty je definována jako Radon-Nikodymova derivátu rozdělení pravděpodobnosti vzhledem ke společné opatření dominantní. Funkce pravděpodobnosti spočívá v tom, že hustota je interpretována jako funkce parametru (možná vektoru), nikoli jako možné výsledky. To poskytuje pravděpodobnostní funkci pro jakýkoli statistický model se všemi distribucemi, ať už diskrétními, absolutně spojitými, směsí nebo něčím jiným. (Pravděpodobnosti budou srovnatelné, např. Pro odhad parametrů, pouze pokud jde o deriváty Radon – Nikodym s ohledem na stejnou dominantní míru.)

Výše uvedená diskuse o pravděpodobnosti s diskrétními pravděpodobnostmi je zvláštním případem s využitím počítání , které činí hustotu pravděpodobnosti v každém výsledku rovnou pravděpodobnosti tohoto jediného výsledku.

Funkce pravděpodobnosti parametrizovaného modelu

Mezi mnoha aplikacemi zde považujeme jeden ze širokého teoretického a praktického významu. Vzhledem k tomu, parametrizované rodinu z funkcí hustoty pravděpodobnosti (nebo hromadných funkcí pravděpodobnosti v případě diskrétních rozdělení)

kde je parametr, funkce pravděpodobnosti je

psaný

kde je pozorovaný výsledek experimentu. Jinými slovy, když je vnímána jako funkce s fixem, je to funkce hustoty pravděpodobnosti a když je vnímána jako funkce s fixem, je to funkce pravděpodobnosti.

To není totéž jako pravděpodobnost, že tyto parametry jsou správné, vzhledem k pozorovanému vzorku. Pokus o interpretaci pravděpodobnosti hypotézy na základě pozorovaných důkazů jako pravděpodobnosti hypotézy je běžnou chybou s potenciálně katastrofálními důsledky. Podívejte se na příklad prokurátorského omylu .

Pokud z geometrického hlediska uvažujeme jako funkci dvou proměnných, pak na rodinu rozdělení pravděpodobnosti lze pohlížet jako na rodinu křivek rovnoběžných s -osou, zatímco rodinu funkcí pravděpodobnosti tvoří ortogonální křivky rovnoběžné s -osou.

Pravděpodobnosti pro kontinuální distribuce

Použití hustoty pravděpodobnosti při specifikaci výše uvedené funkce pravděpodobnosti je odůvodněno následovně. Vzhledem k pozorování je pravděpodobnost intervalu , kde je konstanta, dána vztahem . Dodržujte to

,

protože je pozitivní a konstantní. Protože

kde je funkce hustoty pravděpodobnosti, z toho vyplývá

.

První základní věta o počtu a l'Hôpitalovo pravidlo to dohromady zajišťují

Pak

Proto,

a tak maximalizace hustoty pravděpodobnosti na množství maximalizující pravděpodobnost specifického pozorování .

Pravděpodobnosti pro smíšené spojité -diskrétní distribuce

Výše uvedené lze jednoduchým způsobem rozšířit, aby bylo možné zvážit distribuce, které obsahují jak diskrétní, tak spojité složky. Předpokládejme, že rozdělení se skládá z několika diskrétních pravděpodobnostních hmot a hustoty , kde součet všech přidaných k integrálu je vždy jedna. Za předpokladu, že je možné odlišit pozorování odpovídající jedné z diskrétních hmot pravděpodobnosti od pozorování, které odpovídá složce hustoty, lze pravděpodobnostní funkci pro pozorování z kontinuální složky řešit výše uvedeným způsobem. Pro pozorování z diskrétní složky je funkce pravděpodobnosti pro pozorování z diskrétní složky jednoduše

kde je index diskrétní hmotnosti pravděpodobnosti odpovídající pozorování , protože maximalizace hmotnosti pravděpodobnosti (nebo pravděpodobnosti) ve výši maximalizace pravděpodobnosti konkrétního pozorování.

Skutečnost, že funkci pravděpodobnosti lze definovat způsobem, který zahrnuje příspěvky, které nejsou úměrné (hustota a hmotnost pravděpodobnosti), vyplývá ze způsobu, jakým je funkce pravděpodobnosti definována až do konstanty proporcionality, kde tato „konstanta“ se může změnit s pozorováním , ale ne s parametrem .

Podmínky pravidelnosti

V kontextu odhadu parametrů se obvykle předpokládá, že funkce pravděpodobnosti splňuje určité podmínky, známé jako podmínky pravidelnosti. Tyto podmínky se předpokládají v různých důkazech zahrnujících pravděpodobnostní funkce a je třeba je ověřit v každé konkrétní aplikaci. Pro odhad maximální pravděpodobnosti je nanejvýš důležitá existence globálního maxima funkce pravděpodobnosti. Podle věty o extrémních hodnotách stačí, aby funkce pravděpodobnosti byla spojitá v kompaktním prostoru parametrů, aby mohl existovat odhad maximální pravděpodobnosti. Zatímco předpoklad kontinuity je obvykle splněn, předpoklad kompaktnosti prostoru parametrů často není, protože hranice skutečných hodnot parametrů nejsou známy. V takovém případě hraje klíčovou roli konkávnost funkce pravděpodobnosti.

Přesněji řečeno, pokud je pravděpodobnostní funkce dvakrát spojitě diferencovatelná na k -dimenzionálním prostoru parametrů, o kterém se předpokládá, že je otevřenou připojenou podmnožinou , existuje jedinečné maximum, pokud

je negativní definitivní v každém, pro které gradient zmizí, a
, tj. funkce pravděpodobnosti se blíží konstantě na hranici prostoru parametrů, který může zahrnovat body v nekonečnu, pokud je neomezený.

Mäkeläinen a kol. prokázat tento výsledek pomocí Morseovy teorie a přitom neformálně přitahovat majetek horského průsmyku. Mascarenhas potvrzuje svůj důkaz pomocí věty o horském průsmyku .

V důkazech konzistence a asymptotické normality odhadu maximální pravděpodobnosti jsou učiněny další předpoklady o hustotách pravděpodobnosti, které tvoří základ konkrétní funkce pravděpodobnosti. Tyto podmínky poprvé stanovil Chanda. Zejména pro téměř všechny a pro všechny ,

existovat pro všechny , aby byla zajištěna existence Taylorovy expanze . Za druhé, téměř pro všechny a pro každého to musí být

kde je to tak ? Tato ohraničenost derivací je potřebná k tomu, aby bylo možné rozlišovat pod integrálním znaménkem . A konečně se předpokládá, že informační matice ,

je pozitivní definitivní a je konečný. Tím je zajištěno, že skóre má konečný rozptyl.

Výše uvedené podmínky jsou dostatečné, ale nejsou nutné. To znamená, že model, který nesplňuje tyto podmínky pravidelnosti, může, ale nemusí mít odhad maximální pravděpodobnosti výše uvedených vlastností. Dále v případě ne-nezávisle nebo ne identicky distribuovaných pozorování může být nutné předpokládat další vlastnosti.

V Bayesian statistiky, jsou uloženy téměř identické pravidelnost podmínky na funkci pravděpodobnosti s cílem ospravedlnit Laplaceova aproximace na pozdější pravděpodobnosti .

Poměr pravděpodobnosti a relativní pravděpodobnost

Míra pravděpodobnosti

Poměr pravděpodobnosti je poměr jakýchkoli dvou stanovených pravděpodobností, často zapsat jako:

Poměr pravděpodobnosti je ústředním prvkem statistik pravděpodobnosti : zákon pravděpodobnosti uvádí, že míra, do jaké data (považovaná za důkaz) podporují jednu hodnotu parametru oproti jiné, se měří poměrem pravděpodobnosti.

V častých závěrech je poměr pravděpodobnosti základem statistiky testu , takzvaného testu poměru pravděpodobnosti . Podle Neyman – Pearsonova lemmatu je to nejsilnější test pro srovnání dvou jednoduchých hypotéz na dané hladině významnosti . Na řadu dalších testů lze pohlížet jako na testy pravděpodobnostního poměru nebo na jejich aproximace. Asymptotická distribuce log-pravděpodobnostního poměru, považovaná za testovací statistiku, je dána Wilksovou větou .

Poměr pravděpodobnosti má také zásadní význam v Bayesově závěru , kde je znám jako Bayesův faktor , a používá se v Bayesově pravidle . Z hlediska šancí Bayesovo pravidlo uvádí, že pozdější šance na dvě alternativy a , vzhledem k události , jsou předchozí šance, krát poměr pravděpodobnosti. Jako rovnice:

Poměr pravděpodobnosti se přímo nepoužívá ve statistikách založených na AIC. Místo toho se používá relativní pravděpodobnost modelů (viz níže).

Poměr rozlišování k pravděpodobnosti

Poměr pravděpodobnosti dvou modelů, daný stejnou událostí, může být v kontrastu s pravděpodobností dvou událostí, daný stejný model. Pokud jde o parametrickou funkci pravděpodobnostní hmotnosti , poměr pravděpodobnosti dvou hodnot parametru a vzhledem k výsledku je:

zatímco šance na dva výsledky a vzhledem k hodnotě parametru je:

To zdůrazňuje rozdíl mezi pravděpodobností a šancí: v pravděpodobnosti se porovnávají modely (parametry), přičemž data jsou fixována; zatímco v kurzu, člověk porovnává události (výsledky, data), drží model pevně.

Poměr šancí je poměr dvou podmíněných šancí (na událost, vzhledem k přítomnosti nebo nepřítomnosti jiné události). Poměr šancí však lze také interpretovat jako poměr dvou poměrů pravděpodobnosti, pokud jeden považuje jednu z událostí za snáze pozorovatelnou než druhou. Viz poměr diagnostických šancí , kde je výsledek diagnostického testu snáze pozorovatelný než přítomnost nebo nepřítomnost základního zdravotního stavu .

Funkce relativní pravděpodobnosti

Protože skutečná hodnota pravděpodobnostní funkce závisí na vzorku, je často vhodné pracovat se standardizovaným měřením. Předpokládejme, že maximální odhad pravděpodobnosti pro parametr θ je . Relativní věrohodnost jiných hodnot θ lze zjistit porovnáním pravděpodobnosti těchto jiných hodnot s pravděpodobností . Relativní pravděpodobnost of t Vstup je definován jako

Relativní pravděpodobnost je tedy poměr pravděpodobnosti (diskutovaný výše) s pevným jmenovatelem . To odpovídá standardizaci pravděpodobnosti mít maximálně 1.

Pravděpodobnostní region

Pravděpodobnost oblast je množina všech hodnot t Vstup jejichž relativní pravděpodobnost je větší než nebo rovný určité výše. Pokud jde o procenta, oblast p % pravděpodobnosti pro θ je definována jako

Pokud θ je jeden skutečný parametr, oblast pravděpodobnosti p % bude obvykle zahrnovat interval skutečných hodnot. Pokud oblast obsahuje interval, pak se tomu říká interval pravděpodobnosti .

Intervaly pravděpodobnosti a obecněji oblasti pravděpodobnosti se používají pro odhad intervalů v rámci statistik pravděpodobnosti: jsou podobné intervalům spolehlivosti ve statistikách častých a věrohodných intervalech v Bayesovské statistice. Intervaly pravděpodobnosti jsou interpretovány přímo z hlediska relativní pravděpodobnosti, nikoli z hlediska pravděpodobnosti pokrytí (častost) nebo pozdější pravděpodobnosti (Bayesianismus).

Vzhledem k modelu lze intervaly pravděpodobnosti porovnat s intervaly spolehlivosti. Pokud je θ jediným skutečným parametrem, pak za určitých podmínek bude interval pravděpodobnosti 14,65% (pravděpodobnost asi 1: 7) pro θ stejný jako interval spolehlivosti 95% (pravděpodobnost pokrytí 19/20). V mírně odlišné formulaci vhodné pro použití log-pravděpodobností (viz Wilksova věta ) je statistika testu dvojnásobkem rozdílu log-pravděpodobností a rozdělení pravděpodobnosti statistiky testu je přibližně chí-kvadrát distribuce se stupni -svoboda (df) rovná rozdílu v df mezi oběma modely ( interval pravděpodobnosti e −2 je tedy stejný jako interval spolehlivosti 0,954; za předpokladu, že rozdíl v df je 1).

Pravděpodobnosti, které eliminují rušivé parametry

V mnoha případech je pravděpodobnost funkcí více než jednoho parametru, ale zájem se zaměřuje na odhad pouze jednoho nebo nejvýše několika z nich, přičemž ostatní jsou považovány za obtěžující parametry . Bylo vyvinuto několik alternativních přístupů k odstranění takových obtěžujících parametrů, takže pravděpodobnost lze zapsat jako funkci pouze požadovaného parametru (nebo parametrů): hlavní přístupy jsou profilová, podmíněná a okrajová pravděpodobnost. Tyto přístupy jsou také užitečné, když je třeba redukovat povrch s vysokou dimenzionální pravděpodobností na jeden nebo dva požadované parametry, aby byl umožněn graf .

Pravděpodobnost profilu

Je možné zmenšit rozměry soustředěním funkce pravděpodobnosti pro podmnožinu parametrů vyjádřením obtěžujících parametrů jako funkcí parametrů, které nás zajímají, a jejich nahrazením ve funkci pravděpodobnosti. Obecně platí, že pro funkci pravděpodobnosti v závislosti na vektoru parametrů, do kterého lze rozdělit , a kde lze korespondenci určit explicitně, koncentrace snižuje výpočetní zátěž původního problému maximalizace.

Například v lineární regresi s normálně distribuovanými chybami by mohl být vektor koeficientů rozdělen na (a následně na návrhovou matici ). Maximalizace s ohledem na výnosy funkce optimální hodnoty . Pomocí tohoto výsledku lze potom odhadovat maximální odhad pravděpodobnosti pro

kde je projekční matice z . Tento výsledek je známý jako Frischova – Waughova – Lovellova věta .

Protože je postup koncentrace graficky ekvivalentní krájení povrchu pravděpodobnosti podél hřebene hodnot obtěžujícího parametru, který maximalizuje funkci pravděpodobnosti, čímž se vytvoří izometrický profil funkce pravděpodobnosti pro daný výsledek, výsledek tohoto postupu je také známý jako profil pravděpodobnost . Kromě grafu lze pravděpodobnost profilu použít také k výpočtu intervalů spolehlivosti, které mají často lepší vlastnosti malého vzorku než ty, které jsou založeny na asymptotických standardních chybách vypočítaných z plné pravděpodobnosti.

Podmíněná pravděpodobnost

Někdy je možné pro parametry obtěžování najít dostatečnou statistiku a podmínění touto statistikou má za následek pravděpodobnost, která nezávisí na parametrech obtěžování.

Jeden příklad se vyskytuje v tabulkách 2 × 2, kde podmínění všech čtyř mezních součtů vede k podmíněné pravděpodobnosti založené na necentrálním hypergeometrickém rozdělení . Tato forma kondicionování je také základem pro Fisherův exaktní test .

Okrajová pravděpodobnost

Někdy můžeme obtěžující parametry odstranit zvážením pravděpodobnosti založené pouze na části informací v datech, například použitím sady řad spíše než číselných hodnot. Další příklad se vyskytuje v lineárních smíšených modelech , kde uvažování pravděpodobnosti pro zbytky až po přizpůsobení fixních efektů vede k odhadu zbytkové maximální pravděpodobnosti složek rozptylu.

Částečná pravděpodobnost

Částečná pravděpodobnost je adaptací plné pravděpodobnosti tak, že se v ní vyskytuje pouze část parametrů (parametry zájmu). Je to klíčová součást modelu proporcionálních rizik : pomocí omezení funkce nebezpečí pravděpodobnost neobsahuje tvar nebezpečí v průběhu času.

Produkty pravděpodobnosti

Pravděpodobnost, daná dvěma nebo více nezávislými událostmi , je součinem pravděpodobnosti každé z jednotlivých událostí:

To vyplývá z definice nezávislosti v pravděpodobnosti: pravděpodobnosti dvou nezávislých událostí, které se stanou, daný model, jsou součinem pravděpodobností.

To je zvláště důležité, když události pocházejí z nezávislých a identicky distribuovaných náhodných proměnných , jako jsou nezávislá pozorování nebo vzorkování s náhradou . V takové situaci se pravděpodobnostní funkce rozdělí na součin jednotlivých pravděpodobnostních funkcí.

Prázdný součin má hodnotu 1, což odpovídá pravděpodobnosti, že za žádných okolností není 1: před jakýmikoli údaji je pravděpodobnost vždy 1. To je podobné jako jednotné předchozí v bayesovské statistice, ale ve statistice pravděpodobnosti to není nevhodné dříve, protože pravděpodobnosti nejsou integrovány.

Pravděpodobnost logu

Log-pravděpodobnostní funkce je logaritmická transformace pravděpodobnostní funkce, často označovaná malým l nebo , na rozdíl od velkých L nebo pro pravděpodobnost. Protože logaritmy striktně zvyšují funkce, maximalizace pravděpodobnosti je ekvivalentní maximalizaci pravděpodobnosti protokolu. Ale pro praktické účely je vhodnější pro práci s funkcí log-pravděpodobnosti v maximálním odhadu pravděpodobnosti , zejména proto, že většina běžných rozdělení pravděpodobnosti -notably exponenciální rodina • Jsou pouze logaritmické konkávní a konkávnost na cílové funkce hraje klíčovou roli v maximalizace .

Vzhledem k nezávislosti každé události se celková logická pravděpodobnost průniku rovná součtu logových pravděpodobností jednotlivých událostí. To je analogické skutečnosti, že celková log-pravděpodobnost je součtem log-pravděpodobnosti jednotlivých událostí. Kromě matematického pohodlí z toho má proces přidávání logické pravděpodobnosti intuitivní interpretaci, často vyjádřenou jako „podpora“ z dat. Když jsou parametry odhadovány pomocí log-pravděpodobnosti pro odhad maximální pravděpodobnosti , každý datový bod je použit tak, že je přidán k celkové log-pravděpodobnosti. Jelikož data lze považovat za důkaz, který podporuje odhadované parametry, lze tento proces interpretovat jako „podpora nezávislých důkazů přidává“ a logická pravděpodobnost je „váha důkazů“. Interpretace negativní log-pravděpodobnosti jako informačního obsahu nebo překvapení , podpora (pravděpodobnost logu) modelu, dané události, je negativem překvapení události, vzhledem k modelu: model je podporován událostí v rozsahu že událost není vzhledem k modelu překvapivá.

Logaritmus poměru pravděpodobnosti se rovná rozdílu pravděpodobností log:

Stejně jako pravděpodobnost, daná žádná událost, je 1, log-pravděpodobnost, daná žádná událost, je 0, což odpovídá hodnotě prázdného součtu: bez jakýchkoli dat neexistuje podpora pro žádné modely.

Rovnice pravděpodobnosti

Pokud je funkce pravděpodobnosti log hladká , její gradient vzhledem k parametru, známý jako skóre a zapsaný , existuje a umožňuje aplikaci diferenciálního počtu . Základní způsob, jak maximalizovat diferencovatelnou funkci, je najít nehybné body (body, kde je derivace nulová); protože derivace součtu je pouze součtem derivací, ale derivace produktu vyžaduje součinové pravidlo , je jednodušší vypočítat stacionární body log-pravděpodobnosti nezávislých událostí než pro pravděpodobnost nezávislých událostí.

Rovnice definované stacionárním bodem funkce skóre slouží jako odhadovací rovnice pro odhad maximální pravděpodobnosti.

V tomto smyslu je maximální pravděpodobnost odhadce je přesně definovaná hodnotou v této inverzní funkce , kde je d rozměrný Euclidean prostor , a je parametr prostor. Použití inverzní funkce větu , to může být prokázáno, že je dobře definovaný v otevřené části asi s největší pravděpodobností jít na jeden, a je konzistentní odhad . V důsledku toho existuje sekvence , která téměř jistě asymptoticky a . Podobný výsledek lze zjistit pomocí Rolleovy věty .

Druhá derivace vyhodnocená na , známá jako Fisherova informace , určuje zakřivení povrchu pravděpodobnosti, a tím indikuje přesnost odhadu.

Exponenciální rodiny

Logická pravděpodobnost je také obzvláště užitečná pro exponenciální rodiny distribucí, které zahrnují mnoho společných parametrických rozdělení pravděpodobnosti . Funkce rozdělení pravděpodobnosti (a tedy funkce pravděpodobnosti) pro exponenciální rodiny obsahuje součin faktorů zahrnujících umocňování . Logaritmus takové funkce je součtem součinů, opět snadněji odlišitelných než původní funkce.

Exponenciální rodina je taková, jejíž funkce hustoty pravděpodobnosti je ve formě (u některých funkcí zápis pro vnitřní součin ):

Každý z těchto výrazů má svou interpretaci, ale pouhé přepnutí z pravděpodobnosti na pravděpodobnost a převzetí logaritmů získá součet:

A odpovídá každá ze změny souřadnic , takže v těchto souřadnicích log-pravděpodobnost exponenciálního rodiny je dán jednoduchého vzorce:

Stručně řečeno, logická pravděpodobnost exponenciální rodiny je vnitřním součinem přirozeného parametru a dostatečné statistiky mínus normalizační faktor ( funkce log-partition ) . Tak například maximální odhad pravděpodobnosti lze vypočítat tím, že deriváty dostatečné statistiky T a funkce log-oddílu A .

Příklad: distribuce gama

Distribuce gama je exponenciální rodina se dvěma parametry a . Funkce pravděpodobnosti je

Najít odhad maximální pravděpodobnosti pro jednu pozorovanou hodnotu vypadá docela skličující. Jeho logaritmus je mnohem jednodušší pracovat s:

Abychom maximalizovali pravděpodobnost logů, nejprve vezmeme parciální derivaci s ohledem na :

Pokud existuje řada nezávislých pozorování , pak společná logická pravděpodobnost bude součtem jednotlivých logových pravděpodobností a derivace tohoto součtu bude součtem derivací každé jednotlivé logové pravděpodobnosti:

K dokončení postupu maximalizace pro společnou pravděpodobnost logu je rovnice nastavena na nulu a vyřešena pro :

Zde označuje odhad maximální pravděpodobnosti a je průměrem pozorování.

Pozadí a interpretace

Historické poznámky

Pojem „pravděpodobnost“ se v angličtině používá přinejmenším od konce střední angličtiny . Jeho formální použití pro odkaz na konkrétní funkci v matematické statistice navrhl Ronald Fisher ve dvou výzkumných dokumentech publikovaných v letech 1921 a 1922. Dokument z roku 1921 představil to, čemu se dnes říká „interval pravděpodobnosti“; papír z roku 1922 zavedl termín „ metoda maximální pravděpodobnosti “. Cituji Fishera:

[I] n 1922, navrhl jsem termín „pravděpodobnost“ s ohledem na skutečnost, že s ohledem na [parametr] to není pravděpodobnost a nerespektuje zákony pravděpodobnosti, zatímco současně nese problém racionální volby mezi možnými hodnotami [parametru] vztah podobný tomu, který pravděpodobnost nese problém předpovídání událostí v hazardních hrách. . . . Zatímco ve vztahu k psychologickému úsudku má pravděpodobnost určitou podobnost s pravděpodobností, tyto dva pojmy jsou zcela odlišné. . . . "

Sir Ronald Fisher by neměl zaměňovat koncept pravděpodobnosti s pravděpodobností

Zdůrazňuji to, protože navzdory důrazu, který jsem vždy kladl na rozdíl mezi pravděpodobností a pravděpodobností, stále existuje tendence zacházet s pravděpodobností, jako by to byla určitá pravděpodobnost. Prvním výsledkem je tedy, že existují dvě různé míry racionální víry vhodné pro různé případy. Když známe populaci, můžeme vyjádřit své neúplné znalosti nebo očekávání vzorku z hlediska pravděpodobnosti; znalost vzorku můžeme vyjádřit naše neúplné znalosti populace z hlediska pravděpodobnosti.

Fisherův vynález statistické pravděpodobnosti byl reakcí na dřívější formu uvažování nazývanou inverzní pravděpodobnost . Jeho použití výrazu „pravděpodobnost“ zafixovalo jeho význam v rámci matematické statistiky.

AWF Edwards (1972) stanovil axiomatický základ pro použití log-pravděpodobnostního poměru jako měřítka relativní podpory pro jednu hypotézu proti druhé. Funkce podpory je pak přirozeným logaritmem funkce pravděpodobnosti. Oba termíny se používají ve fylogenetice , ale nebyly přijaty v obecném zpracování tématu statistických důkazů.

Interpretace pod různými základy

Mezi statistiky neexistuje shoda v tom, jaký by měl být základ statistiky . Pro nadaci byla navržena čtyři hlavní paradigmata: frekvencionalismus , bayesianismus , věrohodnost a AIC . U každého z navrhovaných základů je interpretace pravděpodobnosti odlišná. Tyto čtyři interpretace jsou popsány v níže uvedených podsekcích.

Frekventistická interpretace

Bayesovský výklad

V Bayesově závěru , ačkoli lze hovořit o pravděpodobnosti jakéhokoli tvrzení nebo náhodné proměnné dané jiné náhodné proměnné: například pravděpodobnost hodnoty parametru nebo statistického modelu (viz mezní pravděpodobnost ), daná specifikovaná data nebo jiné důkazy, pravděpodobnost funkce zůstává stejnou entitou, s dalšími interpretacemi (i) podmíněné hustoty dat daného parametru (protože parametr je pak náhodná proměnná) a (ii) mírou nebo množstvím informací přinesených údaji o parametru hodnotu nebo dokonce model. Vzhledem k zavedení struktury pravděpodobnosti do prostoru parametrů nebo do souboru modelů je možné, že hodnota parametru nebo statistický model mají pro dané údaje velkou hodnotu pravděpodobnosti, a přesto mají nízkou pravděpodobnost , nebo naopak. To je často případ v lékařských kontextech. Podle Bayesova pravidla je pravděpodobnost, pokud je vnímána jako podmíněná hustota, vynásobena předchozí hustotou pravděpodobnosti parametru a poté normalizována, aby byla získána pozdější hustota pravděpodobnosti . Obecněji řečeno, pravděpodobnost neznámé množství dané další neznámé množství je přímo úměrná pravděpodobnosti uvedeny .

Pravděpodobnostní interpretace

V častých statistikách je pravděpodobnostní funkce sama o sobě statistikou, která shrnuje jeden vzorek z populace, jejíž vypočítaná hodnota závisí na výběru několika parametrů θ 1 ... θ p , kde p je počet parametrů v některých již vybraných statistický model . Hodnota pravděpodobnosti slouží jako hodnota zásluh pro volbu použitou pro parametry a sada parametrů s maximální pravděpodobností je nejlepší volbou, vzhledem k dostupným údajům.

Specifickým výpočtem pravděpodobnosti je pravděpodobnost, že by byl přiřazen sledovaný vzorek za předpokladu, že zvolený model a hodnoty několika parametrů θ poskytnou přesnou aproximaci frekvenčního rozložení populace, ze které byl sledovaný vzorek čerpán. Heuristicky má smysl, že dobrou volbou parametrů jsou ty, které činí vzorek skutečně pozorovaným maximální možnou post-hoc pravděpodobností , že k němu došlo. Wilksova věta kvantifikuje heuristické pravidlo tím, že ukazuje, že rozdíl v logaritmu pravděpodobnosti generované hodnotami parametrů odhadu a logaritmu pravděpodobnosti generované hodnotami „pravdivých“ (ale neznámých) parametrů populace je distribuován asymptoticky χ 2 .

Odhad maximální pravděpodobnosti každého nezávislého vzorku je samostatným odhadem „skutečné“ sady parametrů popisující populaci odebranou ze vzorku. Následné odhady z mnoha nezávislých vzorků se budou shlukovat společně s „opravdovou“ sadou hodnot parametrů populace ukrytou někde uprostřed nich. Rozdíl v logaritmech maximální pravděpodobnosti a pravděpodobnosti sousedních sad parametrů lze použít k vykreslení oblasti spolehlivosti na grafu, jehož souřadnicemi jsou parametry θ 1 ... θ p . Oblast obklopuje odhad maximální pravděpodobnosti a všechny body (sady parametrů) v této oblasti se liší log-pravděpodobností o nějakou pevnou hodnotu. Χ 2 rozdělení dán Wilks' teorém konvertuje log-pravděpodobnosti rozdíly v regionu do ‚důvěry‘, že ‚opravdové‘ parametr nastaven lži obyvatelstva uvnitř. Umění výběru fixního rozdílu pravděpodobnosti logu je dosáhnout přijatelně vysoké důvěry při zachování přijatelně malé oblasti (úzký rozsah odhadů).

Jak je pozorováno více dat, místo toho, aby byly použity k nezávislým odhadům, mohou být kombinovány s předchozími vzorky a vytvořit jeden kombinovaný vzorek a tento velký vzorek může být použit pro nový odhad maximální pravděpodobnosti. Jak se velikost kombinovaného vzorku zvyšuje, zmenšuje se velikost oblasti pravděpodobnosti se stejnou spolehlivostí. Nakonec je buď velikost oblasti spolehlivosti velmi téměř jediným bodem, nebo byla odebrána vzorek celé populace; v obou případech je odhadovaná sada parametrů v podstatě stejná jako sada parametrů souboru.

Interpretace založená na AIC

Podle paradigmatu AIC je pravděpodobnost interpretována v kontextu teorie informací .

Viz také

Poznámky

Reference

Další čtení

externí odkazy