Percentil - Percentile

Ve statistikách je k -tý percentil ( percentilové skóre nebo percentil ), označovaný jako skóre, pod které dané procento k skóre v jeho rozdělení frekvence spadá (výlučná definice) nebo skóre, pod nebo pod které dané procento klesá (včetně definice). Například 50. percentil ( medián ) je skóre, pod kterým (exkluzivní) nebo pod kterým (včetně) 50% skóre v distribuci lze nalézt. Percentily jsou vyjádřeny ve stejné měrné jednotce jako vstupní skóre; například pokud se skóre týkají lidské hmotnosti , odpovídající percentily budou vyjádřeny v kilogramech nebo librách.

Skóre percentilu a umístění percentilu jsou související pojmy. Percentilní hodnocení skóre je procento skóre v jeho distribuci, které jsou menší než toto, exkluzivní definice a takové, které lze vyjádřit jediným jednoduchým vzorcem. Percentilní skóre a percentilové pořadí se často používají při vykazování skóre testů z testů odkazovaných na normy , ale, jak bylo právě uvedeno, nejsou stejné. Pro pořadí percentilu je dáno skóre a vypočítá se procento. Percentilní pozice jsou exkluzivní. Pokud je pořadí percentilu pro zadané skóre 90%, pak 90% skóre bylo nižší. Naproti tomu pro percentily je uvedeno procento a je stanoveno odpovídající skóre, které může být buď exkluzivní nebo inkluzivní. Skóre pro zadané procento (např. 90.) udává skóre, pod kterým (výhradní definice) nebo pod nebo (pod (včetně definice)) jiné skóre v distribuci klesá.

25. percentil je také známý jako první kvartil ( Q 1 ), 50. percentil jako medián nebo druhý kvartil ( Q 2 ) a 75. percentil jako třetí kvartil ( Q 3 ).

Aplikace

Když poskytovatelé internetových služeb účtují „prasknutelnou“ šířku pásma internetu , 95. nebo 98. percentil obvykle každý měsíc odřízne horních 5% nebo 2% špiček šířky pásma a poté účtuje s nejbližší sazbou. Tímto způsobem jsou ignorovány občasné špičky a zákazník je účtován spravedlivějším způsobem. Důvod, proč je tato statistika tak užitečná při měření propustnosti dat, je ten, že poskytuje velmi přesný obraz o ceně šířky pásma. 95. percentil říká, že 95% času je využití pod touto částkou: takže zbývajících 5% času je využití nad touto částkou.

Lékaři často používají váhu a výšku kojenců a dětí k hodnocení jejich růstu ve srovnání s národními průměry a percentily, které se nacházejí v grafech růstu .

85. percentil rychlosti provozu na silnici se často používá jako vodítko při stanovování rychlostních limitů a posuzování, zda je takový limit příliš vysoký nebo nízký.

Ve financích je hodnota v riziku standardním měřítkem k posouzení (způsobem závislým na modelu) množství, pod kterým se neočekává pokles hodnoty portfolia v daném časovém období a při dané hodnotě spolehlivosti.

Normální rozdělení a percentily

Znázornění pravidla tří sigma . Tmavě modrá zóna představuje pozorování v rámci jedné standardní odchylky (σ) na obě strany průměru (μ), což představuje asi 68,3% populace. Dvě standardní odchylky od průměru (tmavá a střední modrá) představují přibližně 95,4%a tři standardní odchylky (tmavá, střední a světle modrá) přibližně 99,7%.

Metody uvedené v sekci definic (níže) jsou aproximacemi pro použití ve statistikách malých vzorků. Obecně lze říci, že u velmi velkých populací po normální distribuci mohou být percentily často reprezentovány odkazem na křivku normální křivky. Normální rozdělení je vyneseno podél osy škálované na standardní odchylky nebo jednotky sigma ( ). Matematicky se normální rozdělení rozkládá na negativní nekonečno vlevo a pozitivní nekonečno vpravo. Všimněte si však, že mimo rozsah −3 σ až +3 σ bude spadat jen velmi malý podíl jedinců v populaci . Například s lidskými výškami je velmi málo lidí nad výškovou úrovní +3 σ .

Percentily představují oblast pod normální křivkou, která se zvětšuje zleva doprava. Každá standardní odchylka představuje pevný percentil. Zaokrouhleno na dvě desetinná místa tedy −3 σ je 0,13. Percentil, −2 σ 2,28. Percentil, −1 σ 15,87. Percentil, 0 σ 50. percentil (průměr i medián distribuce), + 1 σ 84,13. Percentil, +2 σ 97,72. Percentil a +3 σ 99,87. Percentil. To souvisí s pravidlem 68–95–99,7 nebo pravidlem tří sigma. Všimněte si, že teoreticky 0. percentil klesá na negativní nekonečno a 100. percentil na pozitivní nekonečno, ačkoli v mnoha praktických aplikacích, jako jsou výsledky testů, jsou prosazovány přirozené dolní a/nebo horní limity.

Definice

Neexistuje standardní definice percentilu, ale všechny definice poskytují podobné výsledky, když je počet pozorování velmi velký a rozdělení pravděpodobnosti je spojité. V limitním, protože vzorek velikost se blíží k nekonečnu, 100 p th percentil (0 < p <1) se blíží inverzní kumulativní distribuční funkce (CDF) takto vytvořeného, hodnoceny na p , jako p blíží CDF. To lze chápat jako důsledek Glivenkovy -Cantelliho věty . Některé metody pro výpočet percentilů jsou uvedeny níže.

Výpočtové metody

Interpolované a nejbližší, exkluzivní a inkluzivní percentily pro distribuci 10 skóre.

Pro percentilové skóre existuje mnoho vzorců nebo algoritmů. Hyndman a Fan identifikovali devět a většina statistických a tabulkových procesorů používá jednu z metod, které popisují. Algoritmy buď vrátí hodnotu skóre, které existuje v sadě skóre (metody nejbližšího pořadí), nebo interpolují mezi stávajícími skóre a jsou buď exkluzivní nebo inkluzivní.

Metody nejbližšího umístění (exkluzivní/včetně)
PC: specifikován percentil 0,10 0,25 0,50 0,75 0,90
N: Počet bodů 10 10 10 10 10
NEBO: pořadové číslo = PC × N. 1 2.5 5 7.5 9
Pořadí:> NEBO / NEBO 2/1 3/3 6/5 8/8 10/9
Skóre v pořadí (bez/včetně) 2/1 3/3 4/3 5/5 7/5

Obrázek ukazuje rozdělení 10-skóre, ilustruje percentilní skóre, která vyplývají z těchto různých algoritmů, a slouží jako úvod k příkladům uvedeným následně. Nejjednodušší jsou metody nejbližšího pořadí, které vracejí skóre z distribuce, ačkoli ve srovnání s metodami interpolace mohou být výsledky trochu hrubé. Tabulka Metody nejbližších pozic ukazuje výpočetní kroky pro exkluzivní a inkluzivní metody.

Interpolované metody (exkluzivní/inkluzivní)
PC: specifikován percentil 0,10 0,25 0,50 0,75 0,90
N: počet bodů 10 10 10 10 10
NEBO: PC × (N+1) / PC × (N − 1) +1 1,1/1,9 2,75/3,25 5,5/5,5 8,25/7,75 9.9/9.1
LoRank: NEBO zkrácen 1/1 2/3 5/5 8/7 9/9
HIRank: NEBO zaokrouhleno nahoru 2/2 3/4 6/6 9/8 10/10
LoScore: skórujte na LoRank 1/1 2/3 3/3 5/4 5/5
HiScore: skórujte na HiRank 2/2 3/3 4/4 5/5 7/7
Rozdíl: HiScore - LoScore 1/1 1/0 1/1 0/1 2/2
Mod: zlomková část OR 0,1/0,9 0,75/0,25 0,5/0,5 0,25/0,75 0,9/0,1
Interpolované skóre (bez/včetně)
= LoScore + Mod × rozdíl
1,1/1,9 2,75/3 3,5/3,5 5/4,75 6,8/5,2

Interpolační metody, jak název napovídá, mohou vrátit skóre, které je mezi skóre v distribuci. Algoritmy používané statistickými programy obvykle používají interpolační metody, například funkci percentile.exl a percentile.inc v aplikaci Microsoft Excel. Tabulka Interpolované metody ukazuje výpočetní kroky.

Metoda nejbližšího pořadí

Hodnoty percentilu pro seřazený seznam {15, 20, 35, 40, 50}

Jedna definice percentilu, často uváděná v textech, je, že P -tý percentil seznamu N uspořádaných hodnot (seřazených od nejmenší po největší) je nejmenší hodnotou v seznamu, takže přísně není přísně více než P procent dat menší než hodnota a alespoň P procento dat je menší nebo rovno této hodnotě. Toho se dosáhne tak, že se nejprve vypočítá pořadová hodnost a poté se vezme hodnota z uspořádaného seznamu, která této hodnosti odpovídá. Pořadové číslo n se vypočítá podle následujícího vzorce

Všimněte si následujícího:

  • Použití metody nejbližšího pořadí v seznamech s méně než 100 odlišnými hodnotami může mít za následek použití stejné hodnoty pro více než jeden percentil.
  • Percentil vypočítaný metodou nejbližšího pořadí bude vždy členem původního seřazeného seznamu.
  • 100. percentil je definován jako největší hodnota v seřazeném seznamu.

Zpracované příklady metody nejbližšího pořadí

Příklad 1

Zvažte seřazený seznam {15, 20, 35, 40, 50}, který obsahuje 5 datových hodnot. Jaké jsou 5., 30., 40., 50. a 100. percentil tohoto seznamu pomocí metody nejbližšího pořadí?

Percentil
P
Číslo v seznamu
N.
Pořadová hodnost
č
Číslo ze seřazeného seznamu
s touto hodností
Percentilní
hodnota
Poznámky
5. místo 5 první číslo v seřazeném seznamu, což je 15 15 15 je nejmenší prvek seznamu; 0% dat je striktně méně než 15 a 20% dat je méně než nebo rovno 15.
30 5 2. číslo v seřazeném seznamu, což je 20 20 20 je prvek seřazeného seznamu.
40. 5 2. číslo v seřazeném seznamu, což je 20 20 V tomto případě je to stejné jako 30. percentil.
50. 5 3. číslo v seřazeném seznamu, což je 35 35 35 je prvek seřazeného seznamu.
100 5 poslední číslo v objednaném seznamu, což je 50 50 100. percentil je definován jako největší hodnota v seznamu, což je 50.

Takže 5., 30., 40., 50. a 100. percentil seřazeného seznamu {15, 20, 35, 40, 50} pomocí metody nejbližšího pořadí je {15, 20, 20, 35, 50}.

Příklad 2

Zvažte uspořádanou populaci 10 hodnot dat {3, 6, 7, 8, 8, 10, 13, 15, 16, 20}. Jaký je 25., 50., 75. a 100. percentil tohoto seznamu pomocí metody nejbližšího pořadí?

Percentil
P
Číslo v seznamu
N.
Pořadová hodnost
č
Číslo ze seřazeného seznamu
s touto hodností
Percentilní
hodnota
Poznámky
25. místo 10 3. číslo v seřazeném seznamu, což je 7 7 7 je prvek seznamu.
50. 10 páté číslo v seřazeném seznamu, což je 8 8 8 je prvek seznamu.
75 10 8. číslo v seřazeném seznamu, což je 15 15 15 je prvek seznamu.
100 10 Poslední 20, což je poslední číslo v seřazeném seznamu 20 100. percentil je definován jako největší hodnota v seznamu, což je 20.

Takže 25., 50., 75. a 100. percentil uspořádaného seznamu {3, 6, 7, 8, 8, 10, 13, 15, 16, 20} pomocí metody nejbližšího pořadí jsou {7, 8, 15, 20 }.

Příklad 3

Zvažte uspořádanou populaci 11 datových hodnot {3, 6, 7, 8, 8, 9, 10, 13, 15, 16, 20}. Jaký je 25., 50., 75. a 100. percentil tohoto seznamu pomocí metody nejbližšího pořadí?

Percentil
P
Číslo v seznamu
N.
Pořadová hodnost
č
Číslo ze seřazeného seznamu
s touto hodností
Percentilní
hodnota
Poznámky
25. místo 11 3. číslo v seřazeném seznamu, což je 7 7 7 je prvek seznamu.
50. 11 6. číslo v seřazeném seznamu, což je 9 9 9 je prvek seznamu.
75 11 9. číslo v seřazeném seznamu, což je 15 15 15 je prvek seznamu.
100 11 Poslední 20, což je poslední číslo v seřazeném seznamu 20 100. percentil je definován jako největší hodnota v seznamu, což je 20.

Takže 25., 50., 75. a 100. percentil uspořádaného seznamu {3, 6, 7, 8, 8, 9, 10, 13, 15, 16, 20} pomocí metody nejbližšího pořadí jsou {7, 9, 15 , 20}.

Metoda lineární interpolace mezi nejbližšími řadami

Alternativou k zaokrouhlování používaným v mnoha aplikacích je použití lineární interpolace mezi sousedními řadami.

Společné rysy mezi variantami této metody

Všechny následující varianty mají společné následující. S ohledem na statistiku objednávek

hledáme lineární interpolační funkci, která prochází body . Toho je jednoduše dosaženo pomocí

kde používá funkci floor k reprezentaci integrální části kladného x , zatímco funkci mod používá k reprezentaci její zlomkové části (zbytek po dělení 1). (Povšimněte si, že, i když v koncovém bodě , je definována, nemusí být proto, že se násobí .) Jak je vidět, x je kontinuální verze indexu i , lineární interpolací V mezi sousedními uzly.

Existují dva způsoby, kterými se varianty variant liší. První je v lineárním vztahu mezi hodností x , procentní hodností a konstantou, která je funkcí velikosti vzorku N :

Existuje další požadavek, aby se střední bod rozsahu , odpovídající mediánu , vyskytoval při :

a naše revidovaná funkce má nyní jen jeden stupeň volnosti a vypadá takto:

Druhý způsob, kterým se varianty liší, je definice funkce v blízkosti okrajů rozsahu p : měl by produkovat nebo být nucen produkovat výsledek v rozsahu , což může znamenat nepřítomnost jedna korespondence v širším regionu. Jeden autor navrhl volbu, kde ξ je tvar zobecněného rozdělení extrémní hodnoty, což je mezní hodnota extrémní hodnoty vzorkované distribuce.

První varianta, C = 1/2

Výsledek použití každé ze tří variant v seřazeném seznamu {15, 20, 35, 40, 50}

(Zdroje: "prctile" funkce Matlabu,)

kde

Dále nechť

Inverzní vztah je omezen na užší oblast:

Zpracovaný příklad první varianty

Zvažte seřazený seznam {15, 20, 35, 40, 50}, který obsahuje pět hodnot dat. Jaké jsou 5., 30., 40. a 95. percentil tohoto seznamu pomocí metody lineární interpolace mezi nejbližšími hodnostmi? Nejprve vypočítáme procentní pořadí pro každou hodnotu seznamu.

Hodnota seznamu
Pozice této hodnoty
v seřazeném seznamu
i
Počet hodnot
N.
Výpočet
procentní pozice
Procentní hodnost,
15 1 5 10
20 2 5 30
35 3 5 50
40 4 5 70
50 5 5 90

Potom vezmeme ta procentní hodnocení a vypočítáme hodnoty percentilu následovně:

Procentní hodnost
P
Počet hodnot
N.
Je ? Je ? Existuje
procentní pozice
rovnající se P ?
Co používáme pro hodnotu percentilu? Percentilní hodnota

Poznámky
5 5 Ano Ne Ne Vidíme to , což je méně než první procentní hodnocení , takže použijte první hodnotu seznamu , která je 15 15 15 je členem objednaného seznamu
30 5 Ne Ne Ano Vidíme, že je to stejné jako druhé procento , takže použijte druhou hodnotu seznamu , která je 20 20 20 je členem objednaného seznamu
40 5 Ne Ne Ne Vidíme, že je to mezi procenty a , takže bereme
.

Vzhledem k těmto hodnotám pak můžeme vypočítat v následujícím způsobem:

27.5 27.5 není členem objednaného seznamu
95 5 Ne Ano Ne Vidíme to , což je větší než poslední procentní pozice , takže použijte poslední hodnotu seznamu, která je 50 50 50 je členem objednaného seznamu

Takže 5., 30., 40. a 95. percentil uspořádaného seznamu {15, 20, 35, 40, 50} pomocí metody lineární interpolace mezi nejbližšími hodnostmi je {15, 20, 27,5, 50}

Druhá varianta, C = 1

(Zdroj: Některé softwarové balíčky, včetně NumPy a Microsoft Excel (do verze 2013 včetně pomocí funkce PERCENTILE.INC). Jako alternativu uvádí NIST )

Všimněte si, že vztah je jedna ku jedné pro , jedinou ze tří variant s touto vlastností; proto přípona „INC“, včetně , na funkci Excel.

Zpracované příklady druhé varianty

Příklad 1

Zvažte seřazený seznam {15, 20, 35, 40, 50}, který obsahuje pět hodnot dat. Jaký je 40. percentil tohoto seznamu pomocí této varianty?

Nejprve vypočítáme hodnost 40. percentilu:

Takže x = 2,6, což nám dává a . Takže hodnota 40. percentilu je

Příklad 2

Zvažte seřazený seznam {1,2,3,4}, který obsahuje čtyři datové hodnoty. Jaký je 75. percentil tohoto seznamu pomocí metody Microsoft Excel?

Nejprve vypočítáme hodnost 75. percentilu následovně:

Takže x = 3,25, což nám dává integrální část 3 a zlomkovou část 0,25. Takže hodnota 75. percentilu je

Třetí varianta, C = 0

(Primární varianta doporučená NIST . Přijata Microsoft Excel od roku 2010 pomocí funkce PERCENTIL.EXC. Jak však naznačuje přípona „EXC“, verze aplikace Excel vylučuje oba koncové body rozsahu p , tj. , Zatímco „ Verze INC “, druhá varianta, nikoli; ve skutečnosti je také vyloučen jakýkoli počet menší než a způsobil by chybu.)

Inverzní funkce je omezena na užší oblast:

Zpracovaný příklad třetí varianty

Zvažte seřazený seznam {15, 20, 35, 40, 50}, který obsahuje pět hodnot dat. Jaký je 40. percentil tohoto seznamu pomocí metody NIST?

Nejprve vypočítáme hodnost 40. percentilu následovně:

Takže x = 2,4, což nám dává a . Hodnota 40. percentilu se tedy vypočítá jako:

Hodnota 40. percentilu uspořádaného seznamu {15, 20, 35, 40, 50} pomocí této varianty je tedy 26.

Metoda váženého percentilu

Kromě percentilové funkce existuje ještě vážený percentil , kde se místo celkového počtu počítá procento z celkové hmotnosti. Pro vážený percentil neexistuje standardní funkce. Jedna metoda přirozeným způsobem rozšiřuje výše uvedený přístup.

Předpokládejme, že máme kladné váhy spojené s našimi N tříděnými hodnotami vzorků. Nechat

součet hmotností. Poté jsou vzorce výše zobecněny přijetím

když ,

nebo

pro generála ,

a

50% vážený percentil je znám jako vážený medián .

Viz také

Reference