Aritmetický průměr - Arithmetic mean

V matematiky a statistiky se aritmetický průměr ( / ˌ æ r ɪ t Vstup m ɛ t ɪ k m jsem n / , napětí na první a třetí slabiky „aritmetické“), nebo jednoduše střední nebo průměrná (pokud kontext je jasné), je součet kolekce čísel dělený počtem čísel ve sbírce. Sbírka je často souborem výsledků experimentu nebo observační studie nebo často souborem výsledků průzkumu . Termín „aritmetický průměr“ je v některých kontextech v matematice a statistice preferován, protože jej pomáhá odlišit od jiných prostředků , jako je geometrický průměr a harmonický průměr .

Kromě matematiky a statistiky se aritmetický průměr často používá v mnoha různých oblastech, jako je ekonomie , antropologie a historie , a do určité míry se používá téměř v každém akademickém oboru. Například příjem na hlavu je aritmetický průměrný příjem populace národa.

Přestože aritmetický průměr se často používá k vykazování centrálních tendencí , nejedná se o robustní statistiku , což znamená, že je do značné míry ovlivněn odlehlými hodnotami (hodnoty, které jsou mnohem větší nebo menší než většina hodnot). U zkosených rozdělení , jako je rozdělení příjmů, u nichž jsou příjmy několika lidí podstatně vyšší než u většiny lidí, se aritmetický průměr nemusí shodovat s pojmem „střed“ a robustní statistiky, jako je medián , mohou poskytnout lepší popis centrální tendence.

Definice

Vzhledem k datové sadě je aritmetický průměr (nebo průměr nebo průměr ), označený ( sloupec čtení ), průměrem hodnot .

Aritmetický průměr je nejčastěji používaným a snadno pochopitelným měřítkem centrální tendence v souboru dat. Ve statistikách termín průměr označuje jakékoli z opatření centrální tendence. Aritmetický průměr sady pozorovaných dat je definován jako rovný součtu číselných hodnot každého pozorování děleno celkovým počtem pozorování. Symbolicky, pokud máme soubor dat sestávající z hodnot , pak aritmetický průměr je definován vzorcem:

(vysvětlení operátoru součtu viz součet .)

Zvažte například měsíční plat 10 zaměstnanců firmy: 2500, 2700, 2400, 2300, 2550, 2650, 2750, 2450, 2600, 2400. Aritmetický průměr je

Pokud je soubor dat statistickou populací (tj. Skládá se ze všech možných pozorování, a ne jen z jejich podmnožiny), pak se průměr této populace nazývá průměr populace a označuje se řeckým písmenem . Pokud je soubor dat statistický vzorek (podmnožina populace), pak statistiku vyplývající z tohoto výpočtu nazýváme průměrem vzorku (který je pro soubor dat označován jako ).

Aritmetický průměr lze podobně definovat pro vektory ve více dimenzích, nejen ve skalárních hodnotách; toto je často označováno jako těžiště . Obecněji, protože aritmetický průměr je konvexní kombinace (součinitele součtu 1), může být definován na konvexním prostoru , nejen ve vektorovém prostoru.

Motivační vlastnosti

Aritmetický průměr má několik vlastností, díky nimž je užitečný, zejména jako měřítko centrální tendence. Tyto zahrnují:

  • Pokud mají čísla průměr , pak . Protože je vzdálenost od daného čísla k průměru, jedním ze způsobů, jak tuto vlastnost interpretovat, je tvrzení, že čísla nalevo od průměru jsou vyvážena čísly napravo od průměru. Průměr je jediné jediné číslo, pro které se zbytky (odchylky od odhadu) sčítají na nulu.
  • Pokud je požadováno použít jediné číslo jako „typickou“ hodnotu pro sadu známých čísel , pak aritmetický průměr čísel to dělá nejlépe, ve smyslu minimalizace součtu čtvercových odchylek od typické hodnoty: součtu ze dne . (Z toho vyplývá, že průměr vzorku je také nejlepším jednotlivým prediktorem ve smyslu, že má nejnižší odmocninu střední kvadratické chyby .) Pokud je požadován aritmetický průměr populace čísel, pak jeho odhad, který je nestranný, je aritmetický průměr vzorku odebraného z populace.

Kontrast s mediánem

Aritmetický průměr může být v kontrastu s mediánem . Medián je definován tak, že ne více než polovina hodnot je větší než a ne více než polovina je menší než medián. Pokud se prvky v datech zvyšují aritmeticky , když jsou umístěny v určitém pořadí, pak jsou medián a aritmetický průměr stejné. Zvažte například ukázku dat . Průměr je , stejně jako medián. Když však vezmeme v úvahu vzorek, který nelze uspořádat tak, aby se zvýšil aritmeticky, jako například , může se medián a aritmetický průměr výrazně lišit. V tomto případě je aritmetický průměr 6,2, zatímco medián je 4. Obecně se průměrná hodnota může výrazně lišit od většiny hodnot ve vzorku a může být větší nebo menší než většina z nich.

Existují aplikace tohoto jevu v mnoha oblastech. Například od 80. let se střední příjem ve Spojených státech zvyšoval pomaleji než aritmetický průměr příjmů.

Zobecnění

Vážený průměr

Vážený průměr nebo vážený průměr je průměr, ve kterém jsou některé datové body důležitější než jiné, protože při výpočtu mají větší váhu. Například aritmetický průměr a je nebo ekvivalentně . Naproti tomu vážený průměr, ve kterém první číslo získává například dvakrát větší váhu než druhý (možná proto, že se předpokládá, že se v obecné populaci, ze které byla tato čísla odebrána, objevuje dvakrát častěji), by se vypočítal jako . Zde jsou váhy, které se nutně sčítají s hodnotou jedna, a , přičemž první je dvakrát vyšší. Aritmetický průměr (někdy nazývaný „nevážený průměr“ nebo „stejně vážený průměr“) lze interpretovat jako zvláštní případ váženého průměru, ve kterém jsou všechny váhy navzájem stejné (stejné jako ve výše uvedeném příkladu a rovné v situaci s průměrováním čísel).

Spojité rozdělení pravděpodobnosti

Porovnání dvou log-normálních distribucí se stejným mediánem , ale různou šikmostí , což má za následek různé prostředky a režimy

Pokud by numerická vlastnost a jakýkoli vzorek dat z ní mohly nabývat jakékoli hodnoty ze spojitého rozsahu, namísto například pouze celých čísel, pak lze pravděpodobnost, že číslo spadne do nějakého rozsahu možných hodnot, popsat integrací spojité rozdělení pravděpodobnosti po tomto rozmezí, i když je naivní pravděpodobnost vzorku číslo užívání jedné určité hodnoty z nekonečně mnoho, je nulová. Analog váženého průměru v tomto kontextu, ve kterém existuje nekonečný počet možností přesné hodnoty proměnné v každém rozsahu, se nazývá průměr rozdělení pravděpodobnosti . Nejčastěji se vyskytující rozdělení pravděpodobnosti se nazývá normální rozdělení ; má tu vlastnost, že všechny míry jeho centrální tendence, včetně nejen průměru, ale také výše zmíněného mediánu a režimu (tři M), jsou si navzájem stejné. Tato rovnost neplatí pro jiná rozdělení pravděpodobnosti, jak je zde znázorněno pro log-normální rozdělení .

Úhly

Zvláštní pozornost je třeba věnovat používání cyklických dat, jako jsou fáze nebo úhly . Naivní aritmetický průměr 1 ° a 359 ° dává výsledek 180 °. To je nesprávné ze dvou důvodů:

  • Za prvé, měření úhlů jsou definována pouze do aditivní konstanty 360 ° (nebo 2π, pokud se měří v radiánech ). Dalo by se tedy snadno nazvat 1 ° a -1 ° nebo 361 ° a 719 °, protože každý z nich udává jiný průměr.
  • Za druhé, v této situaci je 0 ° (ekvivalentně 360 °) geometricky lepší průměrná hodnota: je o tom nižší rozptyl (body jsou oba 1 ° od něj a 179 ° od 180 °, předpokládaný průměr).

V obecné aplikaci takový dohled povede k tomu, že se průměrná hodnota uměle pohybuje směrem ke středu číselného rozsahu. Řešením tohoto problému je použít optimalizační formulaci ( tj. Definovat průměr jako centrální bod: bod, ve kterém má nejmenší rozptyl) a předefinovat rozdíl jako modulární vzdálenost (tj. Vzdálenost v kruhu) : takže modulární vzdálenost mezi 1 ° a 359 ° je 2 °, ne 358 °).

Důkaz beze slov o nerovnosti aritmetických a geometrických průměrů :
PR je průměr kruhu se středem na O; její poloměr AO je aritmetický průměr z a b . Použití eukleidova věta , Trojúhelník PGR je nadmořská výška GQ je geometrický průměr . Pro jakýkoli poměr a : b , AO ≥ GQ.

Symboly a kódování

Aritmetický průměr je často označen pruhem (aka vinculum nebo macron ), například jako ( sloupec pro čtení ).

Některý software ( textové procesory , webové prohlížeče ) nemusí symbol x̄ zobrazovat správně. Například symbol x̄ v HTML je ve skutečnosti kombinací dvou kódů - základního písmene x plus kódu pro řádek výše (̄ nebo ¯).

V některých textech, jako jsou soubory PDF , může být symbol x̄ při kopírování do textového procesoru, jako je například Microsoft Word, nahrazen symbolem centu (¢) ( Unicode ¢) .

Viz také

Geometrický důkaz beze slov , že max  ( , b ) > střední kvadratická ( RMS ) nebo kvadratický průměr ( QM ) > aritmetický průměr ( AM ) > geometrický průměr ( GM ) > Harmonická střední ( HM ) > min  ( , b ) z dvě kladná čísla a a b

Reference

Další čtení

externí odkazy