Režim (statistika) - Mode (statistics)

Režim je hodnota, která se objeví nejčastěji v sadě datových hodnot. Pokud X je diskrétní náhodná proměnná, režim je hodnota x (tj. X = x ), při které funkce pravděpodobnostní hmotnosti nabere maximální hodnotu. Jinými slovy, je to hodnota, která bude s největší pravděpodobností vzorkována.

Stejně jako statistický průměr a medián je režim způsob, jak vyjádřit (obvykle) v jednom čísle důležité informace o náhodné proměnné nebo populaci . Numerická hodnota režimu je stejná jako střední a střední hodnota v normálním rozdělení a může se velmi lišit ve velmi zkosených distribucích .

Režim nemusí být nutně jedinečný pro dané diskrétní rozdělení , protože funkce pravděpodobnostní hmotnosti může mít stejnou maximální hodnotu v několika bodech x 1 , x 2 atd. K nejextrémnějšímu případu dochází u rovnoměrného rozdělení , kde se všechny hodnoty vyskytují stejně často.

Když má funkce hustoty pravděpodobnosti spojitého rozdělení více místních maxim , je běžné označovat všechna místní maxima jako režimy rozdělení. Taková spojitá distribuce se nazývá multimodální (na rozdíl od unimodální ). Režim spojitého rozdělení pravděpodobnosti je často považován za jakoukoli hodnotu x, při které má jeho funkce hustoty pravděpodobnosti lokálně maximální hodnotu, takže jakýkoli vrchol je režim.

V symetrických unimodálních distribucích, jako je normální distribuce , se průměr (pokud je definován), medián a režim shodují. U vzorků, pokud je známo, že jsou čerpány ze symetrického unimodálního rozdělení, lze jako odhad režimu populace použít průměr vzorku.

Režim vzorku

Režim vzorku je prvek, který se v kolekci vyskytuje nejčastěji. Například režim vzorku [1, 3, 6, 6, 6, 6, 7, 7, 12, 12, 17] je 6. Vzhledem k seznamu údajů [1, 1, 2, 4, 4] jeho režim není jedinečný. V takovém případě se o datové sadě říká, že je bimodální , zatímco sadu s více než dvěma režimy lze popsat jako multimodální .

U vzorku z kontinuální distribuce, například [0,935 ..., 1,211 ..., 2,430 ..., 3,668 ..., 3,874 ...], je koncept ve své surové podobě nepoužitelný, protože neexistují žádné dvě hodnoty bude přesně stejná, takže každá hodnota se objeví přesně jednou. Aby bylo možné odhadnout režim podkladové distribuce, je obvyklou praxí diskretizovat data přiřazením hodnot frekvence k intervalům stejné vzdálenosti, jako při vytváření histogramu , účinně nahrazovat hodnoty středy intervalů, ke kterým jsou přiřazeny. Režim je pak hodnota, kde histogram dosáhne svého vrcholu. U vzorků malé nebo střední velikosti je výsledek tohoto postupu citlivý na výběr šířky intervalu, pokud je zvolen příliš úzký nebo příliš široký; typicky by měl mít značný zlomek dat koncentrovaný v relativně malém počtu intervalů (5 až 10), zatímco zlomek dat spadajících mimo tyto intervaly je také značný. Alternativním přístupem je odhad hustoty jádra , který v podstatě stírá vzorky bodů za účelem vytvoření nepřetržitého odhadu funkce hustoty pravděpodobnosti, která může poskytnout odhad režimu.

Následující příklad kódu MATLAB (nebo Octave ) počítá režim ukázky:

X = sort(x);                               % x is a column vector dataset
indices   =  find(diff([X; realmax]) > 0); % indices where repeated values change
[modeL,i] =  max (diff([0; indices]));     % longest persistence length of repeated values
mode      =  X(indices(i));

Algoritmus vyžaduje jako první krok řazení vzorku ve vzestupném pořadí. Poté vypočítá diskrétní derivaci seřazeného seznamu a najde indexy, kde je tato derivace kladná. Dále vypočítá diskrétní derivaci této sady indexů, lokalizuje maximum této derivace indexů a nakonec vyhodnotí seřazený vzorek v bodě, kde se toto maximum vyskytuje, což odpovídá poslednímu členu úseku opakovaných hodnot.

Porovnání průměru, mediánu a režimu

Geometrická vizualizace režimu, medián a průměr funkce libovolné hustoty pravděpodobnosti.
Porovnání běžných průměrů hodnot {1, 2, 2, 3, 4, 7, 9}
Typ Popis Příklad Výsledek
Aritmetický průměr Součet hodnot datové sady dělený počtem hodnot (1 + 2 + 2 + 3 + 4 + 7 + 9) / 7 4
Medián Střední hodnota oddělující větší a menší poloviny datové sady 1, 2, 2, 3 , 4, 7, 9 3
Režim Nejčastější hodnota v souboru dat 1, 2 , 2 , 3, 4, 7, 9 2

Použití

Na rozdíl od průměru a mediánu má koncept režimu smysl i pro „ nominální data “ (tj. Neskladající se z číselných hodnot v případě průměru, nebo dokonce z uspořádaných hodnot v případě mediánu). Například, když vezmeme vzorek korejských příjmení , můžeme zjistit, že „ Kim “ se vyskytuje častěji než jakékoli jiné jméno. Pak by „Kim“ byl režim vzorku. V jakémkoli hlasovacím systému, kde vítězství určuje více účastníků, určuje jedna modální hodnota vítěze, zatímco multimodální výsledek by vyžadoval provedení nějakého postupu při rozhodování.

Na rozdíl od mediánu má koncept režimu smysl pro libovolnou náhodnou proměnnou, která předpokládá hodnoty z vektorového prostoru , včetně reálných čísel ( jednorozměrný vektorový prostor) a celých čísel (které lze považovat za vložené do realit). Například rozdělení bodů v rovině bude mít obvykle průměr a režim, ale koncept mediánu se nepoužije. Medián má smysl, když existuje lineární pořadí možných hodnot. Zevšeobecněním pojmu medián do prostorů vyšších dimenzí je geometrický medián a střed .

Jedinečnost a jednoznačnost

U některých rozdělení pravděpodobnosti může být očekávaná hodnota nekonečná nebo nedefinovaná, ale pokud je definována, je jedinečná. Průměr (konečného) vzorku je vždy definován. Medián je hodnota taková, že zlomky, které jej nepřekračují a neklesají pod ním, jsou každý alespoň 1/2. Není nutně jedinečný, ale nikdy nekonečný nebo zcela nedefinovaný. Pro vzorek dat je to hodnota „na půli cesty“, když je seznam hodnot seřazen podle rostoucí hodnoty, kde obvykle pro seznam sudých délek je numerický průměr vzat ze dvou hodnot nejblíže k „půli cesty“. Nakonec, jak již bylo řečeno, režim nemusí být nutně jedinečný. Určité patologické distribuce (například distribuce Cantor ) nemají vůbec žádný definovaný režim. U konečného vzorku dat je režim jednou (nebo více) hodnot ve vzorku.

Vlastnosti

Za předpokladu definičnosti a pro jednoduchost jedinečnosti jsou následující některé z nejzajímavějších vlastností.

  • Všechny tři míry mají následující vlastnost: Pokud je náhodná proměnná (nebo každá hodnota ze vzorku) podrobena lineární nebo afinní transformaci , která nahradí X za aX + b , jsou to průměr, medián a režim.
  • Kromě extrémně malých vzorků je režim necitlivý na „ odlehlé hodnoty “ (jako jsou příležitostné, vzácné, falešné experimentální hodnoty). Medián je také velmi robustní v přítomnosti odlehlých hodnot, zatímco průměr je poměrně citlivý.
  • V kontinuálních unimodálních distribucích leží medián často mezi průměrem a módem, zhruba jedna třetina cesty přecházející z průměr do módu. Ve vzorci medián ≈ (2 × průměr + režim) / 3. Toto pravidlo, kvůli Karlovi Pearsonovi , často platí pro mírně nesymetrická rozdělení, která se podobají normálnímu rozdělení, ale není to vždy pravda a obecně se tyto tři statistiky mohou objevit v jakémkoli pořadí.
  • U unimodálních distribucí je režim v rozmezí 3 směrodatných odchylek od průměru a odchylka od kvadratické mocniny o režim je mezi směrodatnou odchylkou a dvojnásobkem směrodatné odchylky.

Příklad pro zkosenou distribuci

Příkladem zkreslené distribuce je osobní bohatství : Jen málo lidí je velmi bohatých, ale mezi těmi jsou někteří extrémně bohatí. Mnozí jsou však spíše chudí.

Známá třída distribucí, kterou lze libovolně zkosit, je dána distribucí log-normal . Získává se transformuje náhodnou proměnnou X , který má normální rozdělení do náhodné veličiny Y = e X . Pak je logaritmus náhodné proměnné Y normálně distribuován, odtud název.

Vezmeme-li zlý? A X v rozmezí 0, medián Y bude 1, bez ohledu na směrodatné odchylky å z X . Je to tak proto, že X má symetrické rozdělení, takže jeho medián je také 0. Transformace z X na Y je monotónní, a proto pro Y najdeme medián e 0 = 1 .

Když X má směrodatnou odchylku σ = 0,25, rozdělení Y je slabě zkosené. Pomocí vzorců pro log-normální rozdělení najdeme:

Medián je ve skutečnosti asi jedna třetina na cestě ze střední hodnoty do režimu.

Když X má větší směrodatnou odchylku, σ = 1 , distribuce Y je silně vychýlená. Nyní

Zde selže Pearsonovo pravidlo .

Van Zwet stav

Van Zwet odvodil nerovnost, která poskytuje dostatečné podmínky pro její udržení. Nerovnost

Režim ≤ Medián ≤ Průměr

platí pokud

F (Medián - x ) + F (Medián + x ) ≥ 1

pro všechna x, kde F () je kumulativní distribuční funkce distribuce.

Unimodální distribuce

Pro unimodální rozdělení lze ukázat, že medián a průměr leží v rozmezí (3/5) 1/2 ≈ 0,7746 směrodatných odchylek. V symbolech,

kde je absolutní hodnota.

Podobný vztah platí mezi mediánem a režimem: leží mezi 3 1/2 ≈ 1,732 směrodatnými odchylkami od sebe navzájem:

Dějiny

Pojem režim pochází od Karla Pearsona v roce 1895.

Pearson používá výraz režim zaměnitelně s maximální souřadnicí . V poznámce pod čarou říká: „Zjistil jsem, že je vhodné použít výrazový režim pro úsečku odpovídající souřadnici maximální frekvence.“

Viz také

Reference

externí odkazy