Bayesovský závěr - Bayesian inference

Bayesovská inference je metoda statistické inference, ve které se Bayesova věta používá k aktualizaci pravděpodobnosti pro hypotézu, jakmile bude k dispozici více důkazů nebo informací . Bayesovský závěr je důležitou technikou ve statistice , a zejména v matematické statistice . Bayesovská aktualizace je zvláště důležitá v dynamické analýze sekvence dat . Bayesovská inference našla uplatnění v celé řadě aktivit, včetně vědy , strojírenství , filozofie , medicíny , sportu a práva . Ve filozofii teorie rozhodnutí je bayesovská inference úzce spojena se subjektivní pravděpodobností, často nazývanou „ bayesovská pravděpodobnost “.

Úvod do Bayesova pravidla

Geometrická vizualizace Bayesovy věty. V tabulce hodnoty 2, 3, 6 a 9 udávají relativní hmotnosti každé odpovídající podmínky a případu. Čísla označují buňky tabulky zahrnuté v každé metrice, pravděpodobnost je zlomkem každého obrázku, který je zastíněn. To ukazuje, že P (A | B) P (B) = P (B | A) P (A) tj. P (A | B) = P (B | A) P (A)/P (B). Podobné uvažování lze použít k ukázání, že P (¬A | B) =P (B | ¬A) P (¬A)/P (B) atd.

Formální vysvětlení

Kontingenční tabulka
Hypotéza


Důkaz
Uspokojuje
hypotézu
H
Porušuje
hypotéza
¬H

Celkový
Má důkaz
E
P (H | E) · P (E)
= P (E | H) · P (H)
P (¬H | E) · P (E)
= P (E | ¬H) · P (¬H)
P (E)
Žádný důkaz
¬E
P (H | ¬E) · P (¬E)
= P (¬E | H) · P (H)
P (¬H | ¬E) · P (¬E)
= P (¬E | ¬H) · P (¬H)
P (¬E) =
1 − P (E)
Celkový    P (H) P (¬H) = 1 − P (H) 1

Bayesovský závěr odvozuje pozdější pravděpodobnost v důsledku dvou předchůdců : předchozí pravděpodobnosti a „ funkce pravděpodobnosti “ odvozené ze statistického modelu pro pozorovaná data. Bayesovský závěr vypočítá pozdější pravděpodobnost podle Bayesovy věty :

kde

  • znamená jakoukoli hypotézu, jejíž pravděpodobnost může být ovlivněna údaji ( níže nazývanými důkazy ). Často existují protichůdné hypotézy a úkolem je určit, která je nejpravděpodobnější.
  • , předchozí pravděpodobnost , je odhad pravděpodobnosti hypotézy před pozorováním dat , současných důkazů.
  • Je důkaz , odpovídá nových údajů, které nebyly použity při výpočtu předem pravděpodobnost.
  • , zadní pravděpodobnost , je pravděpodobnost daného , tj. poté , co je pozorována. To je to, co chceme vědět: pravděpodobnost hypotézy vzhledem k pozorovaným důkazům.
  • je pravděpodobnost pozorování vzhledem , a nazývá se pravděpodobnost . Jako funkce s fixní indikuje kompatibilitu důkazů s danou hypotézou. Funkce pravděpodobnost je funkcí důkazů , zatímco zadní pravděpodobnost je funkcí hypotézy .
  • někdy se nazývá okrajová pravděpodobnost nebo „modelový důkaz“. Tento faktor je stejný pro všechny uvažované hypotézy (jak je patrné ze skutečnosti, že hypotéza se na rozdíl od všech ostatních faktorů nikde v symbolu neobjevuje), takže tento faktor nevstupuje do určování relativních pravděpodobností různých hypotéz.

U různých hodnot ovlivňují hodnotu pouze faktory a oba v čitateli - pozdější pravděpodobnost hypotézy je úměrná její předchozí pravděpodobnosti (její inherentní podobnosti) a nově získané pravděpodobnosti (její kompatibilitě s novými pozorovanými důkazy) ).

Bayesovo pravidlo lze také napsat takto:

protože

a

kde je „ne “ je logická negace of .

Jedním z rychlých a snadných způsobů zapamatování rovnice by bylo použití Pravidla násobení:

Alternativy k Bayesianské aktualizaci

Bayesovská aktualizace je široce používána a výpočetně pohodlná. Není to však jediné aktualizační pravidlo, které lze považovat za racionální.

Ian Hacking poznamenal, že tradiční argumenty „ holandské knihy “ nespecifikovaly bayesovskou aktualizaci: ponechali otevřenou možnost, že by se nebajesovská pravidla aktualizace mohla holandským knihám vyhnout. Hacking napsal: „A ani nizozemský knižní argument, ani žádný jiný v personalistickém arzenálu důkazů pravděpodobnostních axiomů neznamená dynamický předpoklad. Žádný neznamená Bayesianismus. Personalista tedy vyžaduje, aby dynamický předpoklad byl Bayesian. Je pravda, že v souladu personalista mohl opustit bajesovský model učení se ze zkušenosti. Sůl by mohla ztratit chuť. “

Skutečně existují nebayesovská aktualizační pravidla, která se rovněž vyhýbají nizozemským knihám (jak je uvedeno v literatuře o „ kinematice pravděpodobnosti “) po zveřejnění pravidla Richarda C. Jeffreyho , které aplikuje Bayesovo pravidlo na případ, kdy samotný důkaz je přiřazena pravděpodobnost. Dodatečné hypotézy potřebné k jednoznačnému požadavku Bayesovské aktualizace byly považovány za podstatné, komplikované a neuspokojivé.

Formální popis Bayesovské inference

Definice

  • , datový bod obecně. Ve skutečnosti to může být vektor hodnot.
  • , parametr distribuce datového bodu, tj . Může to být vektor parametrů.
  • , hyperparametr distribuce parametrů, tj . Může to být vektor hyperparametrů.
  • je vzorek, soubor pozorovaných datových bodů, tj .
  • , nový datový bod, jehož distribuci je třeba předpovědět.

Bayesovský závěr

  • Dřívější distribuce je rozdělení parametru (ů) předtím, než je pozorována žádná data, tj . Předchozí rozdělení nemusí být snadno určitelné; v takovém případě může být jednou možností použít Jeffreys před získáním předchozí distribuce před aktualizací novějšími pozorováními.
  • Distribuce vzorkování je distribuce pozorovaných dat podmíněná jejími parametry, tzn . Toto je také označováno jako pravděpodobnost , zvláště když je vnímáno jako funkce parametru (parametrů), někdy zapsaných .
  • Marginální pravděpodobnost (někdy také nazývané důkazy ) je distribuce pozorovaných dat na okraji přes parametr (y), tj .
  • Pozdější rozdělení je rozdělení parametr (y) po zohlednění pozorovaných dat. To je určeno Bayesovým pravidlem , které tvoří jádro Bayesovského závěru:
.

Toto je vyjádřeno slovy jako „zadní je úměrné dobám pravděpodobnosti předcházejícím“, nebo někdy jako „zadní = pravděpodobnosti krát před, nad důkazem“.

  • V praxi téměř pro všechny složité bayesovské modely používané ve strojovém učení není pozdější distribuce získána v distribuci v uzavřené formě, hlavně proto, že prostor parametrů pro může být velmi vysoký, nebo si bayesovský model zachovává určitou hierarchickou strukturu formulovanou z pozorování a parametr . V takových situacích se musíme uchýlit k aproximačním technikám.

Bayesovská predikce

Bayesovská teorie požaduje použití pozdější prediktivní distribuce k prediktivnímu odvození , tj. K předpovědi distribuce nového, nepozorovaného datového bodu. To znamená, že místo pevného bodu jako predikce je vráceno rozdělení přes možné body. Pouze tímto způsobem je použita celá zadní distribuce použitých parametrů. Pro srovnání, predikce ve statistice častých návštěv často zahrnuje nalezení optimálního bodového odhadu parametru (parametrů) - např. Podle maximální pravděpodobnosti nebo maxima a posteriori odhad (MAP) - a poté tento odhad zapojte do vzorce pro distribuci datového bodu . To má tu nevýhodu, že nezohledňuje žádnou nejistotu v hodnotě parametru, a proto bude podceňovat rozptyl prediktivního rozdělení.

(V některých případech mohou tento problém vyřešit statistiky častých návštěvníků. Například intervaly spolehlivosti a predikční intervaly ve statistikách častých uživatelů, pokud jsou vytvořeny z normálního rozdělení s neznámým průměrem a rozptylem, jsou konstruovány pomocí Studentova t-rozdělení . To správně odhadne rozptyl, vzhledem k faktům, že (1) průměr normálně distribuovaných náhodných proměnných je také normálně distribuován a (2) prediktivní distribuce normálně distribuovaného datového bodu s neznámým průměrem a rozptylem pomocí konjugovaných nebo neinformativních priorit má Studentovu t- V Bayesovské statistice však lze pozdější prediktivní rozdělení vždy určit přesně - nebo alespoň na libovolnou úroveň přesnosti, když jsou použity numerické metody.

Oba typy prediktivního rozdělení mají formu složeného rozdělení pravděpodobnosti (stejně jako mezní pravděpodobnost ). Ve skutečnosti, pokud je předchozí distribucí konjugovaný předchozí , takže předchozí a pozdější distribuce pocházejí ze stejné rodiny, lze vidět, že předchozí i pozdější prediktivní distribuce také pocházejí ze stejné rodiny distribucí sloučenin. Jediným rozdílem je, že pozdější prediktivní distribuce používá aktualizované hodnoty hyperparametrů (použití bayesovských aktualizačních pravidel uvedených v předchozím článku konjugátu ), zatímco předchozí prediktivní distribuce používá hodnoty hyperparametrů, které se objevují v předchozí distribuci.

Vyvozování exkluzivních a vyčerpávajících možností

Pokud jsou současně použity důkazy k aktualizaci přesvědčení o souboru exkluzivních a vyčerpávajících tvrzení, lze Bayesovskou inferenci považovat za jednající na základě této distribuce víry jako celku.

Obecná formulace

Diagram ilustrující prostor událostí v obecné formulaci Bayesovského závěru. Ačkoli tento diagram ukazuje diskrétní modely a události, spojitý případ lze zobrazit podobně pomocí hustot pravděpodobnosti.

Předpokládejme, že proces generuje nezávislé a identicky distribuované události , ale rozdělení pravděpodobnosti není známé. Nechť prostor událostí představuje aktuální stav víry v tento proces. Každý model je reprezentován událostí . K definování modelů jsou určeny podmíněné pravděpodobnosti . je míra víry v . Před prvním krokem odvození je sada počátečních předchozích pravděpodobností . Ty se musí rovnat 1, ale jinak jsou libovolné.

Předpokládejme, že je proces pozorován ke generování . U každého se předchozí aktualizuje na zadní . Z Bayesovy věty :

Po pozorování dalších důkazů lze tento postup opakovat.

Vennův diagram pro základní množiny často používané v bayesovských závěrech a výpočtech

Několik pozorování

U sekvence nezávislých a identicky distribuovaných pozorování lze indukcí ukázat, že opakovaná aplikace výše uvedeného je ekvivalentní

Kde


Parametrická formulace

Parametrizací prostoru modelů může být víra ve všechny modely aktualizována v jednom kroku. Distribuci víry v modelovém prostoru pak lze považovat za distribuci víry v prostor parametrů. Distribuce v této části jsou vyjádřeny jako spojité, reprezentované hustotami pravděpodobnosti, protože toto je obvyklá situace. Tato technika je však stejně použitelná pro diskrétní distribuce.

Nechte vektor překlenout prostor parametrů. Nechť počáteční před rozložení nad být , kde je sada parametrů předchozí samotný nebo hyperparameters . Nechť je posloupnost nezávislých a identicky distribuovaných pozorování událostí, kde jsou všechny distribuovány jako pro některé . Bayesova věta se používá k nalezení pozdějšího rozdělení na :

Kde

Matematické vlastnosti

Interpretace faktoru

. To znamená, že pokud by byl model pravdivý, důkazy by byly pravděpodobnější, než předpovídá aktuální stav víry. Opačně to platí pro pokles víry. V případě, že víra se nemění, . To znamená, že důkazy jsou nezávislé na modelu. Pokud by byl model pravdivý, důkazy by byly přesně stejně pravděpodobné, jak předpovídá aktuální stav víry.

Cromwellovo pravidlo

Pokud ano . Pokud , tak . To lze interpretovat tak, že tvrdé přesvědčení není citlivé na protidůkazy.

To první vyplývá přímo z Bayesovy věty. To druhé lze odvodit aplikováním prvního pravidla na událost „ne “ místo „ “, čímž se získá „if , then “, ze které bezprostředně vyplývá výsledek.

Asymptotické chování zadních

Zvažte chování distribuce víry, protože je mnohokrát aktualizována nezávislými a identicky distribuovanými zkouškami. Pro dostatečně pěkné předchozí pravděpodobnosti Bernstein-von Misesova věta uvádí, že v limitu nekonečných zkoušek se zadní sbíhá do Gaussova rozdělení nezávislého na počátečním převorovi za určitých podmínek, které nejprve nastínil a přísně prokázal Joseph L. Doob v roce 1948, konkrétně pokud uvažovaná náhodná proměnná má konečný pravděpodobnostní prostor . Obecnější výsledky byly získány později statistikem Davidem A. Freedmanem, který publikoval ve dvou klíčových výzkumných pracích v letech 1963 a 1965, kdy a za jakých okolností je zajištěno asymptotické chování pozdějšího. Jeho papír z roku 1963 považuje konečný případ za Doob (1949) a dospěl k uspokojivému závěru. Pokud však má náhodná proměnná nekonečný, ale spočitatelný pravděpodobnostní prostor (tj. Odpovídající kostce s nekonečným množstvím tváří), dokument z roku 1965 ukazuje, že pro hustou podskupinu priorit není Bernsteinova-von Misesova věta použitelná. V tomto případě téměř jistě neexistuje žádná asymptotická konvergence. Později v 80. a 90. letech pokračovali Freedman a Persi Diaconis v práci na případu nekonečných spočitatelných pravděpodobnostních prostorů. Abychom to shrnuli, nemusí existovat dostatečné pokusy na potlačení účinků původní volby, a zvláště u velkých (ale konečných) systémů může být konvergence velmi pomalá.

Konjugovat předchůdce

V parametrizované formě se často předpokládá, že předchozí distribuce pochází z rodiny distribucí nazývaných konjugované priority . Užitečnost předchozího konjugátu spočívá v tom, že odpovídající pozdější distribuce bude ve stejné rodině a výpočet může být vyjádřen v uzavřené formě .

Odhady parametrů a předpovědí

Pro odhad parametru nebo proměnné je často žádoucí použít pozdější distribuci. Několik metod bayesovského odhadu vybírá měření centrální tendence ze zadní distribuce.

Pro jednorozměrné problémy existuje jedinečný medián pro praktické spojité problémy. Zadní medián je atraktivní jako robustní odhad .

Pokud pro konečnou distribuci existuje konečný průměr, pak je zadní průměr metodou odhadu.

Převzetí hodnoty s největší pravděpodobností definuje maximum odhadů a posteriori (MAP) :

Existují příklady, kdy není dosaženo maxima, v takovém případě je sada odhadů MAP prázdná .

Existují i ​​jiné metody odhadu, které minimalizují pozdější riziko (očekávaná-zadní ztráta) s ohledem na ztrátovou funkci , a ty jsou zajímavé pro statistickou rozhodovací teorii využívající distribuci vzorkování („statistická statistika“).

Zadní prediktivní distribuce nové pozorování (která je nezávislá na předchozí připomínky) je určena

Příklady

Pravděpodobnost hypotézy

Kontingenční tabulka
Miska

Cookie
#1
H 1
#2
H 2

Celkový
Prostý, E 30 20 50
Choc, ¬ E 10 20 30
Celkový 40 40 80
P  ( H 1 | E ) = 30/50 = 0,6

Předpokládejme, že existují dvě plné mísy sušenek. Mísa č. 1 obsahuje 10 čokoládových lupínků a 30 obyčejných sušenek, zatímco mísa č. 2 má po 20 kusů. Náš přítel Fred náhodně vybere misku a pak náhodně vybere sušenku. Můžeme předpokládat, že není důvod věřit, že Fred zachází s jednou miskou jinak než s jinou, podobně jako pro sušenky. Soubor cookie se ukáže být obyčejný. Jak je pravděpodobné, že to Fred vybral z misky č. 1?

Intuitivně se zdá jasné, že odpověď by měla být více než poloviční, protože v misce č. 1 je více obyčejných sušenek. Přesnou odpověď dává Bayesova věta. Nechť odpovídají misce # 1 a do mísy # 2. Je dáno, že mísy jsou z Fredova hlediska identické , a tyto dvě musí přidat až 1, takže obě se rovnají 0,5. Událostí je pozorování obyčejného souboru cookie. Z obsahu misek to víme a Bayesův vzorec pak dává

Než jsme pozorovali cookie, pravděpodobnost, kterou jsme Fredovi přiřadili k výběru misky č. 1, byla předchozí pravděpodobnost , která byla 0,5. Po pozorování souboru cookie musíme revidovat pravděpodobnost , která je 0,6.

Vytváření předpovědí

Příklad výsledků pro příklad archeologie. Tato simulace byla generována pomocí c = 15,2.

Archeolog pracuje na místě, o kterém se předpokládá, že pochází ze středověku, mezi 11. a 16. stoletím. Není však přesně jisté, kdy v tomto období byla lokalita osídlena. Nacházejí se zlomky keramiky, z nichž některé jsou glazované a některé zdobené. Očekává se, že pokud by místo bylo osídleno v období raného středověku, pak by bylo 1% keramiky zaskleno a 50% její plochy zdobeno, zatímco pokud by bylo osídleno v období pozdního středověku, pak by bylo zaskleno 81% a Zdobeno je 5% jeho plochy. Jak jistý může být archeolog v době osídlení, když jsou objeveny fragmenty?

Stupeň víry v spojitou proměnnou (století) je třeba vypočítat, přičemž diskrétní soubor událostí je důkazem. Za předpokladu lineární variace glazury a dekorace v čase a že tyto proměnné jsou nezávislé,

Předpokládejme uniformu před a že zkoušky jsou nezávislé a identicky distribuované . Když je objeven nový fragment typu , použije se Bayesova věta k aktualizaci míry přesvědčení pro každý z nich :

Na grafu je zobrazena počítačová simulace měnící se víry při objevení 50 fragmentů. V simulaci bylo místo osídleno kolem roku 1420, popř . Výpočtem oblasti pod příslušnou částí grafu pro 50 pokusů může archeolog říci, že prakticky neexistuje šance, že by místo bylo osídleno v 11. a 12. století, asi 1% šance, že bylo osídleno ve 13. století, 63 % šance během 14. století a 36% během 15. století. Bernstein-von Mises teorém uplatňuje zde asymptotické konvergence na „pravé“ distribuce, protože prostor pravděpodobnost odpovídající diskrétní sadu událostí je konečná (viz výše oddílu o asymptotické chování posterior).

V častých statistikách a teorii rozhodování

Rozhodování teoretické zdůvodnění použití Bayesian závěru byl dán Abraham Wald , který dokázal, že každý jedinečný bayesovská postup je přípustný . Naopak každý přípustný statistický postup je buď bayesovskou procedurou, nebo limitem bayesovských procedur.

Wald charakterizoval přípustné postupy jako bayesovské procedury (a limity bayesovských procedur), čímž se stal bayesovský formalismus ústřední technikou v takových oblastech častého odvozování, jako je odhad parametrů , testování hypotéz a výpočetní intervaly spolehlivosti . Například:

  • „Za určitých podmínek jsou všechny přípustné postupy buď Bayesovými postupy, nebo limity Bayesových postupů (v různých smyslech). Tyto pozoruhodné výsledky, přinejmenším v jejich původní podobě, jsou v podstatě dány Waldem. Jsou užitečné, protože vlastnost bytí Bayes je snáze analyzovatelné než přípustnost. “
  • „V teorii rozhodování spočívá celkem obecná metoda prokazování přípustnosti v ukázce postupu jako jedinečného Bayesova řešení.“
  • "V prvních kapitolách této práce byly použity předchozí distribuce s konečnou podporou a odpovídající Bayesovy postupy pro stanovení některých hlavních vět týkajících se srovnání experimentů. Bayesovy postupy s ohledem na obecnější předchozí distribuce hrály velmi důležitou roli." ve vývoji statistiky, včetně její asymptotické teorie “. "Existuje mnoho problémů, kdy pohled na pozdější distribuce, pro vhodné předchozí, poskytuje okamžitě zajímavé informace. Také této technice se lze v sekvenční analýze jen stěží vyhnout."
  • „Užitečným faktem je, že jakékoli Bayesovo rozhodovací pravidlo získané převzetím řádné přednosti v celém prostoru parametrů musí být přípustné“
  • „Důležitou oblastí zkoumání vývoje myšlenek přípustnosti byla oblast konvenčních postupů teorie vzorkování a bylo získáno mnoho zajímavých výsledků.“

Výběr modelu

Bayesovská metodologie také hraje roli při výběru modelu, kde je cílem vybrat jeden model ze sady konkurenčních modelů, který nejpřesněji reprezentuje základní proces, který generoval pozorovaná data. Ve srovnání Bayesovského modelu je vybrán model s nejvyšší zadní pravděpodobností s ohledem na data. Pozdější pravděpodobnost modelu závisí na důkazech nebo okrajové pravděpodobnosti , která odráží pravděpodobnost, že jsou data generována modelem, a na předchozím přesvědčení modelu. Pokud jsou dva konkurenční modely a priori považovány za ekviprobable, odpovídá poměr jejich pozdějších pravděpodobností Bayesovu faktoru . Vzhledem k tomu, že srovnání Bayesovského modelu je zaměřeno na výběr modelu s nejvyšší zadní pravděpodobností, je tato metodika také označována jako pravidlo výběru maximum a posteriori (MAP) nebo pravidlo pravděpodobnosti MAP.

Pravděpodobnostní programování

Bayesovské metody jsou sice koncepčně jednoduché, ale mohou být matematicky i početně náročné. Pravděpodobnostní programovací jazyky (PPL) implementují funkce pro snadné vytváření bayesovských modelů společně s efektivními metodami automatického odvozování. To pomáhá oddělit budování modelu od závěru, což praktikům umožní soustředit se na jejich konkrétní problémy a ponechat PPL, aby za ně zpracoval výpočetní detaily.

Aplikace

Počítačové aplikace

Bayesovský závěr má aplikace v umělé inteligenci a expertních systémech . Bayesovské inferenční techniky jsou základní součástí počítačových technik rozpoznávání vzorů od konce 50. let minulého století. Existuje také stále rostoucí spojení mezi bayesovskými metodami a technikami Monte Carlo založenými na simulaci, protože složité modely nelze zpracovat v uzavřené formě podle bayesovské analýzy, zatímco struktura grafického modelu může umožňovat efektivní simulační algoritmy, jako je Gibbsův odběr vzorků a další metropole –Hastingsova schémata algoritmů . Z těchto důvodů si v poslední době Bayesovská inference získala mezi komunitou fylogenetiků oblibu ; řada aplikací umožňuje odhadnout mnoho demografických a evolučních parametrů současně.

Při aplikaci na statistickou klasifikaci byla Bayesova inference použita k vývoji algoritmů pro identifikaci nevyžádané pošty . Mezi aplikace, které využívají Bayesovské závěry pro filtrování nevyžádané pošty, patří CRM114 , DSPAM , Bogofilter , SpamAssassin , SpamBayes , Mozilla , XEAMS a další. Klasifikace spamu je podrobněji zpracována v článku o naivním klasifikátoru Bayes .

Solomonoffův induktivní závěr je teorie predikce založená na pozorováních; například předpovídání dalšího symbolu na základě dané série symbolů. Jediným předpokladem je, že prostředí sleduje nějaké neznámé, ale vypočítatelné rozdělení pravděpodobnosti. Jedná se o formální induktivní rámec, který kombinuje dva dobře prostudované principy indukční inference: Bayesovskou statistiku a Occamovu břitvu . Solomonoffova univerzální předchozí pravděpodobnost jakékoli předpony p vypočítatelné sekvence x je součtem pravděpodobností všech programů (pro univerzální počítač), které počítají něco začínající na p . Vzhledem k určitému p a jakémukoli vyčíslitelnému, ale neznámému rozdělení pravděpodobnosti, ze kterého je vzorkováno x , lze univerzální prioritu a Bayesovu větu použít k optimálnímu předpovídání dosud neviděných částí x .

Bioinformatika a aplikace ve zdravotnictví

Bayesovská inference byla použita v různých aplikacích bioinformatiky, včetně analýzy diferenční genové exprese. Bayesovská inference se také používá v obecném modelu rizika rakoviny, nazývaném CIRI (Continuous Individualized Risk Index), kde jsou začleněna sériová měření za účelem aktualizace bayesovského modelu, který je primárně postaven na základě předchozích znalostí.

V soudní síni

Bayesovskou inferenci mohou porotci použít k soudržnému shromažďování důkazů pro i proti obžalovanému a ke zjištění, zda celkově splňuje jejich osobní prahovou hodnotu „ mimo rozumnou pochybnost “. Bayesova věta je aplikována postupně na všechny předložené důkazy, přičemž zadní z jedné etapy se stává prioritou pro další. Výhodou bayesovského přístupu je, že poskytuje porotci nezaujatý a racionální mechanismus pro kombinování důkazů. Může být vhodné vysvětlit Bayesovu větu porotcům formou kurzů , protože kurzy sázek jsou chápány více než pravděpodobnosti. Alternativně může být pro porotu snazší zvládnout logaritmický přístup , který nahradí násobení přidáním.

Sčítání důkazů.

Není -li pochybnost o existenci zločinu, pouze o identitě viníka, bylo navrženo, aby převor byl jednotný vůči kvalifikující populaci. Pokud by například zločin spáchalo 1 000 lidí, předchozí vina by byla 1/1 000.

Použití Bayesovy věty porotci je kontroverzní. Ve Spojeném království vysvětlil odborný svědek obrany porotě ve věci R v Adams Bayesovu větu . Porota usvědčila, ale případ se odvolal na základě toho, že porotcům, kteří nechtěli použít Bayesovu větu, nebyly poskytnuty žádné prostředky ke shromažďování důkazů. Odvolací soud toto přesvědčení potvrdil, ale také vyslovil názor, že „Zavedení Bayesovy věty nebo jakékoli jiné podobné metody do trestního řízení uvrhlo porotu do nevhodných a zbytečných oblastí teorie a složitosti a vyřadilo je z jejich správného úkolu. . "

Gardner-Medwin tvrdí, že kritériem, na kterém by měl být verdikt v trestním řízení založen, není pravděpodobnost viny, ale spíše pravděpodobnost důkazů, vzhledem k tomu, že obžalovaný je nevinný (obdoba hodnoty p častého pisatele ). Tvrdí, že má -li být pozdější pravděpodobnost viny vypočítána Bayesovou větou, musí být známa předchozí pravděpodobnost viny. To bude záviset na výskytu zločinu, což je neobvyklý důkaz, který je třeba vzít v úvahu v trestním řízení. Zvažte následující tři návrhy:

Odpověď Známá fakta a svědectví mohly vzniknout, pokud je obžalovaný vinen
B Známá fakta a svědectví mohly vzniknout, pokud je obžalovaný nevinný
C Obžalovaný je vinen.

Gardner-Medwin tvrdí, že porota by měla věřit A i ne-B, aby usvědčila. A a ne-B znamená pravdu o C, ale opak není pravdou. Je možné, že B i C jsou pravdivé, ale v tomto případě tvrdí, že porota by měla osvobodit, i když vědí, že některé viníky pustí na svobodu. Viz také Lindleyho paradox .

Bayesovská epistemologie

Bayesovská epistemologie je hnutí, které prosazuje Bayesovskou inferenci jako prostředek k ospravedlnění pravidel indukční logiky.

Karl Popper a David Miller odmítli myšlenku bayesovského racionalismu, tj. Pomocí Bayesova pravidla k epistemologickým závěrům: Je náchylný ke stejnému začarovanému kruhu jako jakákoli jiná ospravedlňující epistemologie, protože předpokládá, co se pokouší ospravedlnit. Podle tohoto pohledu by racionální interpretace Bayesovského závěru viděla pouze jako pravděpodobnostní verzi falzifikace , odmítající víru, kterou běžně zastávají Bayesianové, že vysoká pravděpodobnost dosažená řadou bayesovských aktualizací by hypotézu bez jakékoli rozumné pochybnosti dokázala, nebo dokonce s pravděpodobností větší než 0.

jiný

Bayes a Bayesian inference

Problém, který Bayes zvažuje v Proposition 9 svého eseje „ Esej k řešení problému v nauce šancí “, je pozdější distribucí parametru a (úspěšnost) binomické distribuce .

Dějiny

Termín Bayesian označuje Thomase Bayese (1702–1761), který dokázal, že na neznámou událost lze klást pravděpodobnostní limity. Byl to však Pierre-Simon Laplace (1749–1827), kdo představil (jako princip VI) to, čemu se nyní říká Bayesova věta, a použil jej k řešení problémů v nebeské mechanice , lékařské statistice, spolehlivosti a jurisprudenci . Počáteční Bayesovská inference, která používala uniformní převory podle Laplaceova principu nedostatečného rozumu , se nazývala „ inverzní pravděpodobnost “ (protože odvozuje zpětně od pozorování k parametrům nebo od účinků k příčinám). Po dvacátých letech 20. století byla „inverzní pravděpodobnost“ do značné míry nahrazena souborem metod, kterým se začalo říkat statistika častých návštěv .

Ve 20. století byly Laplaceovy myšlenky dále rozvíjeny ve dvou různých směrech, což vedlo k objektivním a subjektivním proudům v bayesovské praxi. V objektivním nebo „neinformativním“ proudu statistická analýza závisí pouze na předpokládaném modelu, analyzovaných datech a metodě přiřazování předchozího, která se liší od jednoho objektivního bayesovského praktika k druhému. V subjektivním nebo „informativním“ proudu závisí specifikace předchozího na víře (tj. Na návrzích, na které je analýza připravena působit), která dokáže shrnout informace od odborníků, předchozích studií atd.

V 80. letech 20. století došlo k dramatickému nárůstu výzkumu a aplikací bajesovských metod, což je většinou přičítáno objevu metod Markovského řetězce Monte Carlo , které odstranilo mnoho výpočetních problémů, a rostl zájem o nestandardní, složité aplikace. Navzdory růstu bayesovského výzkumu je většina pregraduální výuky stále založena na statistikách frekventistů. Bayesovské metody jsou nicméně široce přijímány a používány, například v oblasti strojového učení .

Viz také

Reference

Citace

Prameny

Další čtení

  • Úplnou zprávu o historii bayesovských statistik a debatách s přístupy častých návštěv najdete ve Vallverdu, Jordi (2016). Bayesians versus Frequentists Filozofická debata o statistickém uvažování . New York: Springer. ISBN 978-3-662-48638-2.

Základní

Následující knihy jsou uvedeny ve vzestupném pořadí pravděpodobnostní propracovanosti:

Středně pokročilí nebo pokročilí

externí odkazy