Distribuce frekvence - Frequency distribution
Ve statistikách je distribucí frekvence seznam, tabulka (tj. Tabulka frekvencí ) nebo graf (tj. Sloupcový graf nebo histogram ), který zobrazuje frekvenci různých výsledků ve vzorku . Každý záznam v tabulce obsahuje frekvenci nebo počet výskytů hodnot v rámci určité skupiny nebo intervalu.
Příklad
Zde je příklad univariační (= jediné proměnné ) frekvenční tabulky. Je znázorněna frekvence každé odpovědi na průzkumovou otázku.
Hodnost | Míra shody | Číslo |
---|---|---|
1 | Velmi souhlasím | 22 |
2 | Trochu souhlas | 30 |
3 | Nejsem si jistý | 20 |
4 | Trochu nesouhlasím | 15 |
5 | Rozhodně nesouhlasím | 15 |
Jiné schéma tabulování agreguje hodnoty do přihrádek tak, že každý zásobník zahrnuje určitý rozsah hodnot. Výšky studentů ve třídě by například mohly být uspořádány do následující tabulky frekvencí.
Rozsah výšky | Počet studentů | Kumulativní číslo |
---|---|---|
méně než 5,0 stop | 25 | 25 |
5,0–5,5 stop | 35 | 60 |
5,5–6,0 stop | 20 | 80 |
6,0–6,5 stop | 20 | 100 |
Distribuce frekvence nám ukazuje souhrnné seskupení dat rozdělených do vzájemně se vylučujících tříd a počet výskytů ve třídě. Je to způsob, jak ukázat neorganizované údaje, zejména pro zobrazení výsledků voleb, příjmů lidí v určité oblasti, prodeje produktu v určitém období, výše studentských půjček absolventů atd. Některé grafy, které lze použít s rozdělení frekvence jsou histogramy , spojnicové grafy , sloupcové grafy a výsečové grafy . Rozdělení frekvencí se používá pro kvalitativní i kvantitativní data.
Konstrukce
- Rozhodněte počet tříd. Příliš mnoho tříd nebo příliš málo tříd nemusí odhalit základní tvar datové sady, také bude obtížné interpretovat takové rozložení frekvence. Ideální počet tříd lze určit nebo odhadnout podle vzorce: (logová základna 10) nebo pomocí vzorce pro odmocninu, kde n je celkový počet pozorování v datech. (Ten bude příliš velký pro velké soubory dat, jako je statistika populace.) Tyto vzorce však nejsou tvrdým pravidlem a výsledný počet tříd určený vzorcem nemusí vždy přesně vyhovovat zpracovávaným datům.
- Vypočítejte rozsah dat (Rozsah = Max - Min) vyhledáním minimálních a maximálních hodnot dat. Rozsah bude použit k určení intervalu třídy nebo šířky třídy.
- Rozhodněte šířku tříd, označenou h a získanou pomocí (za předpokladu, že intervaly tříd jsou pro všechny třídy stejné).
Obecně je interval třídy nebo šířka třídy pro všechny třídy stejná. Třídy všechny dohromady musí pokrývat alespoň vzdálenost od nejnižší hodnoty (minimální) v datech k nejvyšší (maximální) hodnotě. V distribuci frekvencí jsou upřednostňovány intervaly stejné třídy, zatímco v určitých situacích mohou být nutné nestejné intervaly tříd (například logaritmické intervaly), aby se dosáhlo dobrého šíření pozorování mezi třídami a zabránilo se velkému počtu prázdných nebo téměř prázdných tříd.
- Rozhodněte limity jednotlivých tříd a vyberte vhodný výchozí bod první třídy, který je libovolný; může být menší nebo rovna minimální hodnotě. Obvykle se spouští před minimální hodnotou takovým způsobem, aby byl správně umístěn střed (průměr mezí nižší a vyšší třídy první třídy).
- Proveďte pozorování a označte svislý pruh (|) pro třídu, do které patří. Průběžný součet se uchovává až do posledního pozorování.
- Podle potřeby vyhledejte frekvence, relativní frekvenci, kumulativní frekvenci atd.
Společné distribuce frekvencí
Bivariate společné distribuce frekvencí jsou často prezentovány jako (obousměrné) kontingenční tabulky :
Tanec | Sportovní | televize | Celkový | |
---|---|---|---|---|
Muži | 2 | 10 | 8 | 20 |
Ženy | 16 | 6 | 8 | 30 |
Celkový | 18 | 16 | 16 | 50 |
Součet řádků a sloupců celkem uvádí mezní frekvence nebo mezní rozdělení , zatímco tělo tabulky uvádí společné frekvence.
Aplikace
Správa a provoz s tabulkovými daty frekvence je mnohem jednodušší než operace s nezpracovanými daty. Existují jednoduché algoritmy pro výpočet mediánu, průměru, standardní odchylky atd. Z těchto tabulek.
Testování statistických hypotéz je založeno na hodnocení rozdílů a podobností mezi distribucemi frekvencí. Toto posouzení zahrnuje měřítka centrální tendence nebo průměrů , jako je průměr a medián , a míry variability nebo statistické disperze , jako je standardní odchylka nebo rozptyl .
Distribuce frekvence je údajně zkosená, pokud je její průměr a medián výrazně odlišný, nebo obecněji, pokud je asymetrický . Špičatosti distribuce frekvencí je mírou podílu extrémních hodnot (odlehlé hodnoty), které se objevují na obou koncích histogramu . Pokud je distribuce náchylnější k odlehlým hodnotám než normální distribuce , říká se, že je leptokurtic; pokud je méně náchylný, říká se, že je platykurtic.
Distribuce frekvencí písmen se také používají při frekvenční analýze k rozluštění šifer a slouží k porovnání relativních frekvencí písmen v různých jazycích a další jazyky se často používají jako řečtina, latina atd.
Viz také
- Počítat data
- Křížová tabulka
- Kumulativní frekvenční analýza
- Kumulativní distribuční funkce
- Empirická distribuční funkce
Poznámky
externí odkazy
- Média související s distribucí frekvence na Wikimedia Commons
- Naučte se 7 způsobů, jak vytvořit tabulku distribuce frekvence v aplikaci Excel