Armatura rozdělení pravděpodobnosti - Probability distribution fitting

Argument rozdělení distribuce pravděpodobnosti nebo jednoduše rozdělení distribuce je přizpůsobení rozdělení pravděpodobnosti k sérii dat týkajících se opakovaného měření proměnného jevu.

Cílem distribuční kování je předpovědět na pravděpodobnost nebo předpovědi na frekvenci výskytu velikosti jevu v určitém intervalu.

Existuje mnoho rozdělení pravděpodobnosti (viz seznam rozdělení pravděpodobnosti ), z nichž některá lze přizpůsobit pozorovanější frekvenci dat více než jiná, v závislosti na charakteristikách jevu a rozdělení. Úzká distribuce by měla vést k dobrým předpovědím.

Při distribučním přizpůsobení je tedy třeba vybrat distribuci, která dobře vyhovuje datům.

Výběr distribuce

Různé tvary symetrického normálního rozdělení v závislosti na průměru μ a rozptylu σ  2

Výběr vhodné distribuce závisí na přítomnosti nebo nepřítomnosti symetrie datového souboru s ohledem na centrální tendenci .

Symetrická rozdělení

Když jsou data symetricky rozložena kolem průměru, zatímco frekvence výskytu dat dále od průměru klesá, lze například vybrat normální rozdělení , logistické rozdělení nebo Studentovo t-rozdělení . První dva jsou velmi podobné, zatímco poslední, s jedním stupněm volnosti, má „těžší ocasy“, což znamená, že hodnoty vzdálenější od průměru se vyskytují relativně častěji (tj. Kurtóza je vyšší). Distribuce Cauchy je také symetrická.

Zkosené distribuce vpravo

Šikma doleva a doprava

Pokud mají větší hodnoty tendenci být vzdálenější od průměru než menší hodnoty, má člověk šikmé rozdělení doprava (tj. Existuje pozitivní šikmost ), lze například vybrat log-normální rozdělení (tj. Hodnoty log data jsou normálně distribuována ), logisticko-logistická distribuce (tj. logové hodnoty dat sledují logistickou distribuci ), Gumbelova distribuce , exponenciální distribuce , Paretova distribuce , Weibullova distribuce , Burrova distribuce nebo Fréchetova distribuce . Poslední čtyři distribuce jsou ohraničeny vlevo.

Zkosení distribucí doleva

Když jsou menší hodnoty obvykle vzdálenější od průměru než větší hodnoty, má člověk šikmé rozdělení doleva (tj. Existuje záporná šikmost), lze například vybrat rozložení mezi normály a čtvercem (tj. Normální rozdělení aplikované na čtverec datových hodnot), převrácené (zrcadlené) Gumbelovo rozdělení, Dagumovo rozdělení (zrcadlené rozdělení Burr) nebo Gompertzovo rozdělení , které je ohraničeno vlevo.

Techniky montáže

Existují následující techniky distribuční montáže:

Například parametr ( očekávání ) lze odhadnout průměrem dat a parametr ( rozptyl ) lze odhadnout ze standardní odchylky dat. Průměr se nachází jako , kde je hodnota dat a počet dat, zatímco standardní odchylka se vypočítá jako . S těmito parametry je definováno mnoho distribucí, např. Normální distribuce.
Kumulativní Gumbelova distribuce přizpůsobená maximálním jednodenním říjnovým srážkám v Surinamu regresní metodou s přidaným pásmem spolehlivosti pomocí cumfreq
Například kumulativní distribuce Gumbel může být linearizován na , kde jsou data, variabilní a , s je kumulativní pravděpodobnost, tedy pravděpodobnost, že hodnota dat je menší než . Pomocí pozice vykreslování pro tedy člověk najde parametry a z lineární regrese on a Gumbelova distribuce je plně definována.

Zobecnění distribucí

Je obvyklé transformovat data logaritmicky tak, aby odpovídala symetrickým distribucím (jako normální a logistická ) na data, která dodržují distribuci, která je pozitivně zkosená (tj. Zkosená doprava, s průměrným > režimem a s ocasem pravé ruky, který je delší než levá ruka tail), viz distribuci lognormal a loglogistic distribuci . Podobného efektu lze dosáhnout přenesením odmocniny dat.

Aby se symetrická distribuce přizpůsobila datům, která dodržují negativně zkosené rozdělení (tj. Zkosené doleva, s průměrným režimem < a s ocasem pravé ruky je kratší než levý ocas), bylo by možné použít kvadratické hodnoty dat k dosažení fit.

Obecněji je možné zvýšit data na mocninu p, aby se přizpůsobila symetrickému rozdělení na data dodržující rozdělení jakékoli šikmosti, přičemž p <1, když je šikmost pozitivní, a p > 1, když je šikmost negativní. Optimální hodnotu p je třeba zjistit numerickou metodou . Numerická metoda může sestávat z předpokladu rozsahu hodnot p , následného opakovaného použití postupu distribuční montáže pro všechny předpokládané hodnoty p a nakonec výběru hodnoty p, pro kterou je součet čtverců odchylek vypočítaných pravděpodobností z naměřených frekvencí ( chi čtvercový ) je minimální, jak se to dělá v CumFreq .

Zobecnění zvyšuje flexibilitu rozdělení pravděpodobnosti a zvyšuje jejich použitelnost v distribuční armatuře.

Univerzálnost generalizace umožňuje například přizpůsobit přibližně normálně distribuované datové sady velkému počtu různých distribucí pravděpodobnosti, zatímco negativně zkosené distribuce lze osadit na čtvercové normální a zrcadlené Gumbellovy distribuce.

Inverze šikmosti

(A) Gumbelovo rozdělení pravděpodobnosti se zkosí doprava a (B) Gumbel zrcadlí zkosení doleva

Zkosené distribuce mohou být invertovány (nebo zrcadleny) nahrazením v matematickém vyjádření kumulativní distribuční funkce (F) jejím doplňkem: F '= 1-F, čímž se získá komplementární distribuční funkce (také nazývaná funkce přežití ), která poskytuje zrcadlový obraz . Tímto způsobem se distribuce, která je zkosená doprava, transformuje na distribuci, která je zkosená doleva a naopak.

Příklad . Exprese F pozitivně zkosené Gumbelovy distribuce je: F = exp [-exp {-( X - u )/0,78 s }], kde u je režim (tj. Hodnota vyskytující se nejčastěji) a s je standardní odchylka . Gumbelovu distribuci lze transformovat pomocí F '= 1-exp [-exp {-( x - u )/0,78 s }]. Tato transformace poskytuje inverzní, zrcadlenou nebo komplementární Gumbelovu distribuci, která může odpovídat datové řadě, která dodržuje negativně zkosené rozdělení.

Technika inverze šikmosti zvyšuje počet distribucí pravděpodobnosti, které jsou k dispozici pro distribuční přizpůsobení, a rozšiřuje možnosti distribuční montáže.

Posun distribucí

Některá rozdělení pravděpodobnosti, jako exponenciální , nepodporují datové hodnoty ( X ) rovné nebo menší než nula. Přesto, pokud jsou přítomny negativní data, jako jsou rozvody stále možné nahrazením X podle Y = X - Xm , kde Xm je minimální hodnota X . Tato náhrada představuje posun rozdělení pravděpodobnosti v kladném směru, tj. Doprava , protože Xm je záporné. Po dokončení distribuční tvarovky Y jsou nalezeny odpovídající hodnoty X z X = Y + Xm , což představuje zpětný posun distribuce v negativním směru, tj. Doleva.
Technika posunu distribuce zvyšuje šanci najít správně padnoucí rozdělení pravděpodobnosti.

Kompozitní distribuce

Kompozitní (nespojitá) distribuce s pásem spolehlivosti

Existuje možnost použít dvě různá rozdělení pravděpodobnosti, jedno pro nižší rozsah dat a jedno pro vyšší, jako například Laplaceovo rozdělení . Rozsahy jsou odděleny bodem zlomu. Použití takovýchto kompozitních (nespojitých) rozdělení pravděpodobnosti může být vhodné, pokud byla data studovaného jevu získána za dvou různých podmínek.

Nejistota předpovědi

Analýza nejistoty pomocí pásů spolehlivosti pomocí binomického rozdělení

Předpovědi výskytu na základě odpovídajících rozdělení pravděpodobnosti podléhají nejistotě , která vyplývá z následujících podmínek:

  • Skutečné rozdělení pravděpodobnosti událostí se může lišit od přizpůsobeného rozdělení, protože sledované datové řady nemusí zcela reprezentovat skutečnou pravděpodobnost výskytu jevu v důsledku náhodné chyby
  • Výskyt událostí v jiné situaci nebo v budoucnosti se může lišit od přizpůsobeného rozdělení, protože tento výskyt může být také předmětem náhodné chyby
  • Změna podmínek prostředí může způsobit změnu pravděpodobnosti výskytu jevu
Variace devíti křivek návratového období 50letých vzorků z teoretického 1000letého záznamu (základní linie), data od Bensona

Odhad nejistoty v prvním a druhém případě lze získat pomocí binomického rozdělení pravděpodobnosti pomocí například pravděpodobnosti překročení Pe (tj. Šance, že událost X je větší než referenční hodnota Xr z X ) a pravděpodobnosti ne -překročení Pn (tj. šance, že událost X je menší nebo rovna referenční hodnotě Xr , tomu se také říká kumulativní pravděpodobnost ). V tomto případě existují pouze dvě možnosti: buď existuje překročení, nebo nepřekročení. Tato dualita je důvodem, proč je použitelná binomická distribuce.

S binomickým rozdělením lze získat predikční interval . Takový interval také odhaduje riziko selhání, tj. Šanci, že predikovaná událost stále zůstane mimo interval spolehlivosti. Analýza spolehlivosti nebo rizika může zahrnovat návratnost T = 1/Pe, jak se to dělá v hydrologii .

Seznam rozdělení pravděpodobnosti seřazených podle vhodnosti.
Histogram a hustota pravděpodobnosti datové sady odpovídající distribuci GEV

Dobrá vůle

Při hodnocení dobré shody různých distribucí lze získat představu o tom, která distribuce je přijatelná a která nikoli.

Funkce histogramu a hustoty

Z funkce kumulativní distribuce (CDF) lze odvodit histogram a funkci hustoty pravděpodobnosti (PDF).

Viz také

Reference