Distribuce Tweedie - Tweedie distribution

V pravděpodobnosti a statistice jsou Tweedieho distribuce rodinou rozdělení pravděpodobnosti, která zahrnuje čistě spojité normální , gama a inverzní Gaussovské rozdělení, čistě diskrétní Poissonovu distribuci a třídu složených distribucí Poisson -gama, které mají kladnou hmotnost na nule, ale jinak jsou spojité. Tweedie distribuce jsou zvláštním případem exponenciálních disperzních modelů a často se používají jako distribuce pro generalizované lineární modely .

Distribuce Tweedie pojmenoval Bent Jørgensen podle Maurice Tweedieho , statistika a lékařského fyzika z University of Liverpool ve Velké Británii, který v roce 1984 představil první důkladnou studii těchto distribucí.

Definice

Distribuce (reprodukční) Tweedie jsou definovány jako podrodina (reprodukčních) exponenciálních disperzních modelů (ED) se zvláštním vztahem průměr - rozptyl . Náhodná veličina Y je Tweedieho distribuován Tw p (u, σ 2 ) , pokud se střední , pozitivní parametr disperze a

kde se nazývá výkonový parametr Tweedie. Rozdělení pravděpodobnosti P θ, σ 2 na měřitelných množinách A je dáno vztahem

u některých σ-konečných opatření ν λ . Tato reprezentace používá kanonický parametr θ exponenciálního modelu disperson a kumulační funkce

kde jsme použili , nebo ekvivalentně .

Vlastnosti

Aditivní exponenciální disperzní modely

Právě popsané modely jsou v reprodukční formě. Exponenciální disperzní model má vždy dvojí: aditivní formu. Pokud je Y reprodukční, pak s je v aditivní formě ED * ( θ , λ ), pro Tweedie Tw * p (μ, λ) . Aditivní modely mají tu vlastnost, že rozdělení součtu nezávislých náhodných proměnných,

pro které Z i  ~ ED * ( θ , λ i ) s pevným θ a různými λ jsou členy rodiny distribucí se stejným θ ,

Reprodukční exponenciální disperzní modely

Existuje druhá třída modelů exponenciální disperze označená náhodnou proměnnou

kde σ 2  = 1/ λ , známé jako reprodukční exponenciální disperzní modely. Mají tu vlastnost, že pro n nezávislých náhodných proměnných Y i  ~ ED ( μ , σ 2 / w i ), s váhovými faktory w i a

vážený průměr proměnných dává,

U reprodukčních modelů je vážený průměr nezávislých náhodných proměnných s pevnými μ a σ 2 a různými hodnotami pro w i členem rodiny distribucí se stejnými μ a σ 2 .

Exponenciální disperzní modely Tweedie jsou aditivní i reprodukční; máme tedy transformaci duality

Měřítko invariance

Třetí vlastností modelů Tweedie je, že jsou v měřítku invariantní : Pro reprodukční exponenciální disperzní model Tw p (μ, σ 2 ) a jakoukoli kladnou konstantu c máme vlastnost uzavření při transformaci měřítka,

Funkce odchylky výkonu Tweedie

K definování rozptylové funkce pro exponenciální disperzní modely používáme mapování střední hodnoty, vztah mezi kanonickým parametrem θ a průměrem μ . Je definována funkcí

s kumulativní funkcí . Funkce rozptylu V ( μ ) je konstruována z mapování středních hodnot,

Zde mínus exponent v τ −1 ( μ ) označuje spíše inverzní funkci než reciproční. Průměr a rozptyl aditivní náhodné veličiny je pak E ( Z ) =  λμ a var ( Z ) =  λV ( μ ).

Škála invariance znamená, že funkce rozptylu se řídí vztahem V ( μ ) = μ p .

Odchylka Tweedie

Jednotková odchylka reprodukční distribuce Tweedie je dána vztahem

Funkce generující kumulant Tweedie

Vlastnosti exponenciálních disperzních modelů nám poskytují dvě diferenciální rovnice . První se týká vzájemného mapování střední hodnoty a funkce rozptylu,

Druhý ukazuje, jak mapování střední hodnoty souvisí s kumulační funkcí ,

Tyto rovnice lze vyřešit za účelem získání kumulační funkce pro různé případy modelů Tweedie. Cumulant generující funkce (CGF) pak může být získána z kumulační funkce. Aditivní CGF je obecně specifikováno rovnicí

a reprodukční CGF od

kde s je proměnná generující funkce.

Pro aditivní modely Tweedie mají CGF formu,

a pro reprodukční modely,

Aditivní a reprodukční modely Tweedie jsou obvykle označeny symboly Tw * p ( θ , λ ) a Tw p ( θ , σ 2 ).

První a druhý derivát CGF se s  = 0 poskytuje průměr, respektive rozptyl. Lze tedy potvrdit, že u aditivních modelů se rozptyl vztahuje k průměru mocninného zákona,

Konvergenční věta Tweedie

Exponenciální disperzní modely Tweedie jsou zásadní ve statistické teorii v důsledku jejich rolí jako ohnisek konvergence pro širokou škálu statistických procesů. Jørgensen et al prokázali větu, která specifikuje asymptotické chování variačních funkcí známých jako Tweedieho konvergenční věta . Tato věta je z technického hlediska vyjádřena takto: Funkce jednotkové rozptylu je pravidelná řádu p při nule (nebo nekonečnu) za předpokladu, že V ( μ ) ~  c 0 μ p pro μ, jak se blíží nule (nebo nekonečnu) pro všechny reálné hodnoty p a c 0  > 0. Pak pro funkci jednotkové odchylky pravidelnou řádu p buď na nule, nebo na nekonečnu a pro

pro všechny , a máme

jako nebo , kde je konvergence prostřednictvím hodnot c tak, že je v doméně θ a c p −2 / σ 2 je v oblasti λ . Model musí být nekonečně dělitelný, protože c 2− p se blíží nekonečnu.

V netechnických termínech tato věta znamená, že jakýkoli exponenciální disperzní model, který asymptoticky projevuje zákon mocniny odchylky k střední hodnotě, musí mít funkci rozptylu, která spadá do oblasti přitažlivosti modelu Tweedie. Téměř všechny distribuční funkce s konečnými funkcemi generujícími kumulant se kvalifikují jako exponenciální disperzní modely a většina exponenciálních disperzních modelů vykazuje variační funkce této formy. Mnoho distribucí pravděpodobnosti má proto variační funkce, které vyjadřují toto asymptotické chování, a distribuce Tweedie se stávají ohnisky konvergence pro širokou škálu datových typů.

Související distribuce

Distribuce Tweedie zahrnují řadu známých distribucí i některé neobvyklé, přičemž každá je specifikována doménou parametru index. Máme

Pro 0 <  p  <1 neexistuje žádný model Tweedie. Všimněte si, že všechny stabilní distribuce znamenají skutečně generované stabilními distribucemi .

Výskyt a aplikace

Modely Tweedie a Taylorův mocenský zákon

Taylorův zákon je empirický zákon v ekologii, který spojuje rozptyl počtu jedinců druhu na jednotku plochy stanoviště s odpovídajícím průměrem vztahem mocniny a zákona . Pro počet obyvatel Y s průměrem µ a rozptylem var ( Y ) je napsán Taylorův zákon,

kde a a p jsou kladné konstanty. Vzhledem k tomu, že LR Taylor v roce 1961 popsal tento zákon, bylo k jeho vysvětlení nabízeno mnoho různých vysvětlení, od chování zvířat, modelu náhodných procházek , stochastického modelu narození, smrti, imigrace a emigrace až po důsledek rovnovážné a nerovnovážné statistiky mechaniky . Pokud jde o vysvětlení tohoto modelu, neexistuje shoda.

Vzhledem k tomu, že Taylorův zákon je matematicky identický s mocenským zákonem odchylky od střední hodnoty, který charakterizuje modely Tweedie, zdálo se rozumné použít tyto modely a Tweedieho konvergenční větu k vysvětlení pozorovaného shlukování zvířat a rostlin spojených s Taylorovým zákonem. Většina pozorovaných hodnot pro mocninový zákon exponent p klesla v intervalu (1,2), a tak by se zdála použitelná Tweedieho sloučenina Poisson-gama distribuce. Srovnání empirické distribuční funkce s teoretickou sloučeninou distribuce Poisson -gama poskytlo prostředky k ověření konzistence této hypotézy.

Zatímco konvenční modely Taylorova zákona mají tendenci zahrnovat ad hoc behaviorální nebo populační dynamické předpoklady pro zvířata , Tweedieho věta o konvergenci by naznačovala, že Taylorův zákon vyplývá z obecného efektu matematické konvergence, stejně jako z toho, jak centrální limitní věta řídí konvergenční chování určitých typů náhodná data. Skutečně, každý matematický model, aproximace nebo simulace, který je navržen tak, aby poskytoval Taylorův zákon (na základě této věty), se musí sblížit s formou modelů Tweedie.

Tweedie konvergence a 1/ f šum

Růžový šum , neboli 1/ f šum, označuje vzorec šumu charakterizovaný vztahem mocniny mezi jeho intenzitami S ( f ) na různých frekvencích f ,

kde bezrozměrný exponent γ ∈ [0,1]. Nachází se v rozmanitém množství přírodních procesů. Pro hluk 1/ f existuje mnoho různých vysvětlení , široce rozšířená hypotéza je založena na samoorganizované kritičnosti, kde se předpokládá, že dynamické systémy blízké kritickému bodu manifestují prostorově a/ nebo časové chování invariantní v měřítku .

V tomto podsekci bude popsáno matematické spojení mezi šumem 1/ f a zákonem Tweedieho odchylky od střední hodnoty. Nejprve musíme nejprve zavést procesy podobné sobě samým : Pro posloupnost čísel

s průměrem

odchylky

rozptyl

a funkce autokorelace

s lag k , pokud má autokorelace této sekvence chování na dlouhou vzdálenost

jako k → ∞ a kde L ( k ) je pomalu se měnící funkce při velkých hodnotách k , tato sekvence se nazývá proces podobný sobě.

Způsob rozšiřování koše může být použit k analýze self-podobné procesy. Zvažte sadu stejně velkých nepřekrývajících se zásobníků, která rozděluje původní sekvenci N prvků do skupin m stejně velkých segmentů ( N/m je celé číslo), aby bylo možné definovat nové reprodukční sekvence na základě průměrných hodnot:

Rozptyl určený z této sekvence se bude měnit tak, jak se mění velikost přihrádky

právě tehdy, pokud má autokorelace omezující formu

Lze také sestrojit sadu odpovídajících aditivních sekvencí

na základě rozšiřujících se košů,

Za předpokladu, že funkce autokorelace vykazuje stejné chování, budou aditivní sekvence vztah dodržovat

Protože a jsou konstanty, tento vztah představuje mocenský zákon rozptylu k průměru s p  = 2-  d .

Výše uvedený dvoupodmínečný vztah mezi mocenským zákonem odchylky od síly a funkcí autokorelace mocninového zákona a Wiener-Khinchinovou větou naznačuje, že jakákoli sekvence, která vykazuje mocninový zákon rozptylu vůči střední metodou rozšiřování zásobníků, se také projeví 1/ f hluk a naopak. Navíc konvergenční věta Tweedie na základě svého centrálního limitního účinku generování distribucí, které projevují výkonové funkce odchylky od střední hodnoty, bude také generovat procesy, které projevují 1/ f šum. Konvergenční věta Tweedie tedy poskytuje alternativní vysvětlení původu 1/ f šumu na základě jeho centrálního limitního efektu.

Stejně jako centrální limitní věta vyžaduje, aby určité druhy náhodných procesů měly jako těžiště své konvergence Gaussovo rozdělení a tím vyjadřovaly bílý šum , Tweedieho konvergenční věta vyžaduje, aby určité non-Gaussovské procesy měly jako těžiště konvergence Tweedie distribuce, které vyjádřit 1/ f šum.

Modely Tweedie a multifunkčnost

Z vlastností sebe podobných procesů platí, že mocninový zákon exponent p  = 2-  d souvisí s Hurstovým exponentem H a fraktální dimenzí D podle

Jednorozměrné datová posloupnost self-podobný dat může prokázat zákon rozptyl-k-střední výkon s místními změnami v hodnotě p , a tedy v hodnotě D . Když fraktální struktury projevují lokální variace ve fraktální dimenzi, říká se, že jsou multifunkční . Příklady datových sekvencí, které vykazují lokální variace v p takto, zahrnují odchylky vlastních čísel Gaussova ortogonálního a jednotkového souboru . Distribuce Poisson -gama sloučeniny Tweedie sloužila k modelování multifunkčnosti na základě místních variací v Tweedieho exponentu α . V důsledku toho, ve spojení s variacemi α , lze na Tweedieho konvergenční větu pohlížet jako na látku, která má roli v genezi takových multifunkčních prvků.

Bylo zjištěno, že variace α v určitých případech dodržuje asymetrické Laplaceovo rozdělení . Tato distribuce byla prokázána jako člen rodiny geometrických modelů Tweedie, které se projevují jako omezující distribuce v konvergenční větě pro geometrické disperzní modely.

Průtok krve regionálních orgánů

Průtok krve regionálním orgánem byl tradičně hodnocen injekcí radioaktivně značených polyethylenových mikrosfér do arteriálního oběhu zvířat o velikosti, která se zachytí v mikrocirkulaci orgánů. Orgán, který má být hodnocen, je poté rozdělen na stejně velké kostky a množství radioaktivního značení v každé krychli je vyhodnoceno pomocí kapalinového scintilačního počítání a zaznamenáno. Množství radioaktivity v každé kostce je odebráno tak, aby odráželo průtok krve tímto vzorkem v době injekce. Je možné vyhodnotit sousední kostky z orgánu, aby bylo možné aditivně určit průtok krve většími oblastmi. Prostřednictvím práce JB Bassingthwaighte a dalších byl odvozen empirický mocenský zákon mezi relativním rozptylem krevního toku vzorků tkáně ( RD  = standardní odchylka/průměr) o hmotnosti m vzhledem k referenčním vzorkům:

Tento mocninový zákon exponent D s byl nazýván fraktální dimenzí. Bassingthwaighteův mocenský zákon může být ukázán tak, že přímo souvisí s mocenským zákonem odchylky od střední hodnoty. Regionální průtok krve orgánem lze tedy modelovat pomocí Tweedieho sloučeniny Poisson -gama distribuce. V tomto modelu lze uvažovat o vzorku tkáně, který obsahuje náhodný (Poissonův) distribuovaný počet míst zachycení, každé s gama distribuovaným průtokem krve. Bylo pozorováno, že průtok krve na této mikrocirkulační úrovni dodržuje distribuci gama, což poskytuje podporu pro tuto hypotézu.

Metastázy rakoviny

"Experimentální test metastáz rakoviny " má určitou podobnost s výše uvedenou metodou měření regionálního průtoku krve. Skupinám syngenních a věkově odpovídajících myší se podají intravenózní injekce stejných alikvotů suspenzí klonovaných rakovinných buněk a poté se po stanoveném časovém období vyjmou jejich plíce a v každém páru plic se spočítá počet rakovinných metastáz. Pokud jsou jiným skupinám myší injekčně podány různé klony rakovinných buněk, pak se počet metastáz na skupinu bude lišit v souladu s metastatickými potenciály klonů. Již dlouho se uznává, že v množství metastáz na myš může existovat značná intraklonální variace navzdory nejlepším pokusům o udržení experimentálních podmínek v každé klonální skupině jednotné. Tato variace je větší, než by se očekávalo na základě Poissonova rozdělení počtu metastáz na myš v každém klonu a když byla vynesena rozptyl počtu metastáz na myš proti odpovídajícímu průměru, byl nalezen mocninový zákon.

Bylo zjištěno, že mocninový zákon odchylky od průměru platí také pro spontánní myší metastázy a pro případy lidských metastáz. Vzhledem k tomu, že k hematogenním metastázám dochází v přímém vztahu k regionálnímu toku krve, videomikroskopické studie ukazují, že průchod a zachycení rakovinotvorných buněk v oběhu se jeví analogické s experimenty s mikrosférami, zdálo se pravděpodobné navrhnout, aby variabilita počtu hematogenních metastáz mohla odrážet heterogenitu v regionálních orgánový průtok krve. Model toku krve byl založen na distribuci Poisson -gama distribuce Tweedie, distribuce řídící spojitou náhodnou proměnnou. Z tohoto důvodu se v modelu metastáz předpokládalo, že průtok krve se řídí touto distribucí a že počet regionálních metastáz nastal jako Poissonův proces, u kterého byla intenzita přímo úměrná průtoku krve. To vedlo k popisu distribuce Poissonova negativního binomického (PNB) jako diskrétního ekvivalentu distribuce Poisson -gama distribuce Tweedie. Funkce generující pravděpodobnost pro distribuci PNB je

Vztah mezi průměrem a rozptylem distribuce PNB je pak

které by v rozsahu mnoha experimentálních testů metastáz byly nerozeznatelné od mocninného zákona o odchylce od střední hodnoty. U řídkých dat by se však tento diskrétní vztah rozptylu k průměru choval spíše jako Poissonova distribuce, kde se rozptyl rovnal průměru.

Genomická struktura a evoluce

Místní hustota jednonukleotidových polymorfismů (SNP) v lidském genomu , stejně jako v genech , se zdá, že se shlukuje v souladu s mocenským zákonem o odchylce od střední hodnoty a distribucí Poisson-gama sloučeniny Tweedie. V případě SNP jejich pozorovaná hustota odráží techniky hodnocení, dostupnost genomových sekvencí pro analýzu a heterozygotnost nukleotidů . První dva faktory odrážejí chyby zjišťování, které jsou vlastní metodám sběru, druhý faktor odráží vnitřní vlastnost genomu.

V koalescenčním modelu populační genetiky má každý genetický lokus svoji jedinečnou historii. V rámci evoluce populace z některých druhů lze pravděpodobně určitá genetická místa vysledovat až k relativně nedávnému společnému předkovi, zatímco jiná místa mohou mít více starověkých rodokmenů . Starší genomické segmenty by měly více času na akumulaci SNP a na rekombinaci . RR Hudson navrhl model, kde by rekombinace mohla u různých genomických segmentů způsobit odchylky v čase od nejběžnějšího nedávného předka . Vysoká rychlost rekombinace by mohla způsobit, že chromozom obsahuje velké množství malých segmentů s méně korelovanými genealogiemi.

Za předpokladu konstantní rychlosti mutace na pozadí by se počet SNP na genomový segment akumuloval proporcionálně k času do posledního společného předka. Současná populační genetická teorie by naznačovala, že tyto časy budou v průměru distribuovány gama . Distribuce Poisson -gama sloučeniny Tweedie by navrhla model, podle kterého by mapa SNP sestávala z několika malých genomických segmentů, přičemž průměrný počet SNP na segment by byl distribuován gama podle Hudsonova modelu.

Distribuce genů v lidském genomu také demonstrovala mocenský zákon rozptylu vůči střední hodnotě, kdy byla ke stanovení odpovídajících odchylek a průměrů použita metoda rozšiřování popelnic. Podobně bylo zjištěno, že počet genů na enumerativní bin dodržuje distribuci Poisson -gama Tweedie sloučeniny. Toto rozdělení pravděpodobnosti bylo považováno za slučitelné se dvěma různými biologickými modely: modelem mikroorganizmu, kde počet genů na jednotku genomové délky byl určen součtem náhodného počtu menších genomových segmentů odvozených náhodným zlomením a rekonstrukcí protochormosomů. Předpokládá se, že tyto menší segmenty nesou v průměru gama distribuovaný počet genů.

V alternativním modelu klastrového genu by geny byly distribuovány náhodně v protochromozomech. Během velkých evolučních časových období by docházelo k tandemové duplikaci , mutacím, inzercím, delecím a přestavbám, které by mohly ovlivnit geny stochastickým procesem narození, smrti a imigrace, aby se získala distribuce Poisson -gama sloučeniny Tweedie.

Oba tyto mechanismy by implikovaly neutrální evoluční procesy, které by vedly k regionálnímu shlukování genů.

Teorie náhodných matic

Gaussian unitární soubor (GUE) se skládá z komplexních hermitovských matic , které jsou neměnné v jednotkové transformacemi vzhledem k tomu, Gaussian ortogonální soubor (GOE) sestává z reálné symetrické matice invariantní ortogonálními transformacemi . Uspořádaných vlastní hodnoty E n z těchto náhodných matric poslouchat polokruhové distribuce Wigner je : Pro N x N matice průměrnou hustotu pro vlastní čísla velikosti E bude

jako E → ∞ . Integrace půlkruhového pravidla poskytuje počet vlastních čísel v průměru menší než E ,

Hodnoty vlastních čísel v pořadí lze pomocí rovnice rozvinout nebo renormalizovat

To odstraní trend sekvence z kolísající části. Podíváme -li se na absolutní hodnotu rozdílu mezi skutečným a očekávaným kumulativním počtem vlastních čísel

získáme posloupnost fluktuací vlastních čísel, která pomocí metody rozšiřování zásobníků odhalí mocninový zákon rozptylu k průměru. Kolísání vlastních čísel GUE i GOE manifestuje tento mocninový zákon s mocninovými exponenty v rozmezí 1 až 2 a podobně projevují 1/ f spektra šumu. Tyto fluktuace vlastních čísel také odpovídají distribuci Poisson -gama Tweedieho sloučeniny a vykazují multifunkčnost.

Rozdělení prvočísel

Druhý Chebyshev funkce ψ ( x ) je dáno,

kde součet sahá přes všechny hlavní síly nepřesahující  x , x běží přes kladná reálná čísla a je to von Mangoldtova funkce . Funkce ψ ( x ) souvisí s funkcí počítání prvočísel π ( x ) a jako taková poskytuje informace o rozdělení prvočísel mezi reálná čísla. Je asymptotický pro  x , což je tvrzení ekvivalentní větě prvočísla, a lze také ukázat, že souvisí s nulami funkce Riemannova zeta umístěného na kritickém pruhu ρ , kde skutečná část nuly ρ je mezi 0 a 1. Pak ψ vyjádřené pro x větší než jedna lze zapsat:

kde

Na Riemann hypotéza uvádí, že netriviální nuly z Riemann zeta funkce všechny mají reálnou část ½. Tyto nuly funkcí zeta souvisejí s distribucí prvočísel . Schoenfeld ukázal, že pokud je Riemannova hypotéza pravdivá, pak

pro všechny . Analyzujeme -li Chebyshevovy odchylky Δ ( n ) na celých číslech n pomocí metody rozšiřování zásobníků a vykreslíme rozptyl versus průměr rozptylu na střední mocninový zákon, můžeme to demonstrovat. Tyto odchylky navíc odpovídají distribuci Poisson-gama sloučeniny Tweedie a vykazují 1/ f šum.

Další aplikace

Mezi aplikace distribucí Tweedie patří:

  • pojistně -matematické studie
  • rozborová analýza
  • analýza přežití
  • ekologie
  • analýza konzumace alkoholu u britských teenagerů
  • lékařské aplikace
  • ekonomika zdraví
  • meteorologie a klimatologie
  • rybářství
  • Mertensova funkce
  • sebeorganizovaná kritičnost

Reference

Další čtení

  • Dunn, PK; Smyth, GK (2018). Zobecněné lineární modely s příklady v R . New York: Springer. doi : 10,1007/978-1-4419-0118-7 . ISBN 978-1-4419-0118-7. Kapitola 12 je o distribucích a modelech Tweedie.
  • Kaas, R. (2005). „Sloučenina Poissonova distribuce a distribuce GLM - Tweedie“ . In Sborník z kontaktního fóra „3. den pojistné matematiky a finanční matematiky“ , strany 3–12. Brusel: Královská vlámská akademie Belgie pro vědu a umění.
  • Tweedie, MCK (1956). „Některé statistické vlastnosti inverzních Gaussových distribucí“. Virginia J. Sci . Nová řada. 7 : 160–165.