Histogram - Histogram
Histogram | |
---|---|
Jeden ze sedmi základních nástrojů kvality | |
Nejprve popsal | Karla Pearsona |
Účel | Zhruba posoudit rozdělení pravděpodobnosti dané proměnné zobrazením četností pozorování vyskytujících se v určitých rozsazích hodnot. |
Histogram je přibližný znázornění rozložení numerických dat. Poprvé jej představil Karl Pearson . Chcete -li sestavit histogram, je prvním krokem „ bin “ (nebo „ větev “) rozsahu hodnot - to znamená rozdělit celý rozsah hodnot na řadu intervalů - a poté spočítat, kolik hodnot spadá do každého intervalu. Přihrádky jsou obvykle specifikovány jako po sobě jdoucí nepřekrývající se intervaly proměnné. Přihrádky (intervaly) musí sousedit a často (ale nemusí být) stejně velké.
Pokud jsou přihrádky stejné velikosti, je nad přihrádkou vztyčen obdélník s výškou úměrnou frekvenci - počtem případů v každé přihrádce. Histogram může být také normalizován tak, aby zobrazoval „relativní“ frekvence. Poté ukazuje podíl případů, které spadají do každé z několika kategorií , přičemž součet výšek se rovná 1.
Přihrádky však nemusí mít stejnou šířku; v takovém případě je vztyčený obdélník definován tak, aby jeho plocha byla úměrná četnosti případů v koši. Svislá osa pak není frekvence, ale hustota frekvence - počet případů na jednotku proměnné na vodorovné ose. Příklady proměnné šířky přihrádky jsou uvedeny v údajích úřadu pro sčítání lidu níže.
Protože sousední zásobníky nezanechávají mezery, obdélníky histogramu se navzájem dotýkají, což naznačuje, že původní proměnná je spojitá.
Histogramy poskytují hrubý smysl pro hustotu podkladové distribuce dat a často pro odhad hustoty : odhad funkce hustoty pravděpodobnosti podkladové proměnné. Celková plocha histogramu použitého pro hustotu pravděpodobnosti je vždy normalizována na 1. Pokud jsou délky intervalů na osě x všechny 1, pak je histogram identický s grafem relativní frekvence .
Histogram lze považovat za zjednodušující odhad hustoty jádra , který používá jádro k vyhlazování frekvencí nad zásobníky. Tím se získá plynulejší funkce hustoty pravděpodobnosti, která bude obecně přesněji odrážet rozdělení podkladové proměnné. Odhad hustoty by mohl být vynesen jako alternativa k histogramu a je obvykle nakreslen spíše jako křivka než jako sada políček. Histogramy jsou nicméně upřednostňovány v aplikacích, kde je potřeba modelovat jejich statistické vlastnosti. Korelovanou variaci odhadu hustoty jádra je velmi obtížné matematicky popsat, zatímco pro histogram, kde se každý koš mění nezávisle, je jednoduchý.
Alternativou k odhadu hustoty jádra je průměrně posunutý histogram, který se rychle vypočítává a poskytuje odhad křivky hustoty bez použití jader.
Histogram je jedním ze sedmi základních nástrojů kontroly kvality .
Histogramy jsou někdy zaměňovány se sloupcovými grafy. Pro spojitá data se používá histogram , kde přihrádky představují rozsahy dat, zatímco sloupcový graf je grafem kategorických proměnných . Někteří autoři doporučují, aby pruhové grafy měly mezery mezi obdélníky, aby se vyjasnilo rozlišení.
Příklady
Toto jsou data pro histogram vpravo s použitím 500 položek:
Přihrádka/interval | Počet/frekvence |
---|---|
−3,5 až −2,51 | 9 |
−2,5 až −1,51 | 32 |
−1,5 až −0,51 | 109 |
−0,5 až 0,49 | 180 |
0,5 až 1,49 | 132 |
1,5 až 2,49 | 34 |
2,5 až 3,49 | 4 |
Slova použitá k popisu vzorů v histogramu jsou: „symetrická“, „šikmá doleva“ nebo „doprava“, „unimodální“, „bimodální“ nebo „multimodální“.
Je dobré data vykreslit pomocí několika různých šířek přihrádek, abyste se o nich dozvěděli více. Zde je příklad tipů uvedených v restauraci.
US Census Bureau zjistil, že tam bylo 124 milionů lidí, kteří pracují mimo své domovy. Níže uvedená tabulka s využitím údajů o době obsazené cestou do práce ukazuje, že absolutní počet lidí, kteří odpověděli, že doba cesty „alespoň 30, ale méně než 35 minut“ je vyšší než čísla pro kategorie nad a pod ní. Je to pravděpodobně způsobeno tím, že lidé zaokrouhlují nahlášenou dobu cesty. Problém vykazování hodnot jako poněkud libovolně zaokrouhlených čísel je běžným jevem při sběru dat od lidí.
Údaje podle absolutních čísel Časový úsek Šířka Množství Množství/šířka 0 5 4180 836 5 5 13687 2737 10 5 18618 3723 15 5 19634 3926 20 5 17981 3596 25 5 7190 1438 30 5 16369 3273 35 5 3212 642 40 5 4122 824 45 15 9200 613 60 30 6461 215 90 60 3435 57
Tento histogram ukazuje počet případů na jednotku intervalu jako výšku každého bloku, takže plocha každého bloku se rovná počtu lidí v průzkumu, kteří spadají do jeho kategorie. Plocha pod křivkou představuje celkový počet případů (124 milionů). Tento typ histogramu ukazuje absolutní čísla s Q v tisících.
Údaje podle poměru Časový úsek Šířka Množství (Q) Q/celkem/šířka 0 5 4180 0,0067 5 5 13687 0,0221 10 5 18618 0,0300 15 5 19634 0,0316 20 5 17981 0,0290 25 5 7190 0,0116 30 5 16369 0,0264 35 5 3212 0,0052 40 5 4122 0,0066 45 15 9200 0,0049 60 30 6461 0,0017 90 60 3435 0,0005
Tento histogram se od prvního liší pouze ve svislém měřítku. Plocha každého bloku je zlomkem celkového počtu, který jednotlivé kategorie představují, a celková plocha všech sloupců se rovná 1 (zlomek znamená „vše“). Zobrazená křivka je jednoduchý odhad hustoty . Tato verze ukazuje proporce a je také známá jako histogram jednotkové oblasti.
Jinými slovy, histogram představuje distribuci frekvencí pomocí obdélníků, jejichž šířky představují intervaly tříd a jejichž plochy jsou úměrné odpovídajícím frekvencím: výška každého z nich je průměrná hustota frekvence pro daný interval. Intervaly jsou umístěny dohromady, aby se ukázalo, že data reprezentovaná histogramem, i když jsou exkluzivní, jsou také souvislá. (Např. V histogramu je možné mít dva spojovací intervaly 10,5–20,5 a 20,5–33,5, ale ne dva spojovací intervaly 10,5–20,5 a 22,5–32,5. Prázdné intervaly jsou znázorněny jako prázdné a nepřeskočené.)
Matematické definice
Data použitá ke konstrukci histogramu jsou generována pomocí funkce m i, která počítá počet pozorování, která spadají do každé z nesouvislých kategorií (známé jako zásobníky ). Necháme -li tedy n celkový počet pozorování a k celkový počet zásobníků, data histogramu m i splňují následující podmínky:
Kumulativní histogram
Kumulativní histogram je mapování, které počítá kumulativní počet pozorování ve všech zásobnících až do zadaného zásobníku. To znamená, že kumulativní histogram M i histogramu m j je definován jako:
Počet přihrádek a šířka
Neexistuje „nejlepší“ počet přihrádek a různé velikosti přihrádek mohou odhalit různé vlastnosti dat. Seskupování dat je přinejmenším stejně staré jako Grauntovo dílo v 17. století, ale až do Sturgesovy práce v roce 1926 nebyly vydány žádné systematické pokyny .
Použití širších přihrádek, kde je hustota podkladových datových bodů nízká, snižuje hluk v důsledku náhodnosti vzorkování; použití užších zásobníků, kde je hustota vysoká (takže signál přehlušuje šum), poskytuje větší přesnost odhadu hustoty. Změna šířky přihrádky v histogramu může být prospěšná. Přesto jsou široce používány koše stejné šířky.
Někteří teoretici se pokusili určit optimální počet zásobníků, ale tyto metody obecně dělají silné předpoklady o tvaru distribuce. V závislosti na skutečné distribuci dat a cílech analýzy mohou být vhodné různé šířky přihrádek, takže k určení vhodné šířky je obvykle zapotřebí experimentování. Existují však různé užitečné rady a pravidla.
Počet přihrádek k lze přiřadit přímo nebo lze vypočítat z doporučené šířky přihrádky h jako:
Závorky označují funkci stropu .
Volba odmocniny
který vezme druhou odmocninu z počtu datových bodů ve vzorku (používané histogramy Excelu a mnoha dalšími) a zaokrouhlí na další celé číslo .
Sturgesův vzorec
Sturgesův vzorec je odvozen z binomického rozdělení a implicitně předpokládá přibližně normální rozdělení.
Sturgesův vzorec implicitně zakládá velikosti zásobníků na rozsahu dat a může fungovat špatně, pokud n <30 , protože počet zásobníků bude malý - méně než sedm - a pravděpodobně nebude dobře ukazovat trendy v datech. Na druhé straně může Sturgesův vzorec u velmi velkých datových sad nadhodnocovat šířku přihrádky, což má za následek vyhlazené histogramy. Může také fungovat špatně, pokud data nejsou běžně distribuována.
Ve srovnání se Scottovým pravidlem a Terrell-Scottovým pravidlem, dvěma dalšími široce přijímanými vzorci pro histogramové koše, je výstup Sturgesova vzorce nejbližší, když n ≈ 100 .
Pravidlo rýže
Rice Rule je prezentována jako jednoduchá alternativa k Sturgesovu pravidlu.
Doaneův vzorec
Doaneův vzorec je modifikací Sturgesova vzorce, který se pokouší zlepšit jeho výkon pomocí neobvyklých dat.
kde je odhadovaná 3. moment- šikmost distribuce a
Scottovo normální referenční pravidlo
Šířka koše je dána znakem
kde je standardní odchylka vzorku . Scottovo normální referenční pravidlo je optimální pro náhodné vzorky normálně distribuovaných dat v tom smyslu, že minimalizuje integrovanou střední kvadratickou chybu odhadu hustoty.
Volba Freedmana – Diaconise
Pravidlo Freedman – Diaconis udává šířku přihrádky jako:
který je založen na mezikvartilovém rozsahu , označeném IQR. Nahrazuje 3,5σ Scottova pravidla 2 IQR, což je méně citlivé než standardní odchylka odlehlých hodnot v datech.
Minimalizace odhadované čtvercové chyby křížové validace
Tento přístup minimalizace integrovaných průměrných čtvercových chyb ze Scottova pravidla lze generalizovat nad rámec běžných distribucí pomocí křížové validace typu jedna-jedna:
Zde je počet datových bodů v k th bin a výběr hodnoty h, která minimalizuje J , minimalizuje integrovanou střední kvadratickou chybu.
Výběr Shimazaki a Shinomoto
Volba je založena na minimalizaci odhadované funkce rizika L 2
kde a je střední hodnota a předpětím rozptyl histogramu s bin šířku , a .
Variabilní šířky přihrádek
Spíše než při výběru rovnoměrně rozmístěných popelnic je pro některé aplikace výhodnější změnit šířku přihrádky. Tím se vyhnete zásobníkům s nízkým počtem. Běžným případem je výběr stejně pravděpodobných nádob , kde se očekává, že počet vzorků v každé přihrádce bude přibližně stejný. Přihrádky mohou být vybrány podle nějaké známé distribuce nebo mohou být vybrány na základě údajů tak, aby každý koš měl vzorky. Při vykreslování histogramu se pro závislou osu používá hustota frekvence . Zatímco všechny zásobníky mají přibližně stejnou plochu, výšky histogramu se přibližují rozložení hustoty.
Pro stejně pravděpodobné zásobníky se navrhuje následující pravidlo pro počet přihrádek:
Tato volba zásobníků je motivována maximalizací výkonu Pearsonova testu chí-kvadrát, zda koše obsahují stejný počet vzorků. Přesněji řečeno, pro daný interval spolehlivosti se doporučuje zvolit mezi 1/2 a 1 krát následující rovnice:
Kde je funkce probit . Dodržování tohoto pravidla pro by dalo mezi a ; koeficient 2 je zvolen jako snadno zapamatovatelná hodnota z tohoto širokého optima.
Poznámka
Dobrým důvodem, proč by měl být počet zásobníků úměrný, je následující: předpokládejme, že data jsou získána jako nezávislé realizace ohraničeného rozdělení pravděpodobnosti s hladkou hustotou. Poté zůstává histogram stejně „drsný“, jak má tendenci do nekonečna. Pokud je „šířka“ distribuce (např. Standardní odchylka nebo mezikvartilní rozsah), pak počet jednotek v zásobníku (frekvence) je řádový a relativní standardní chyba je řádová . Ve srovnání s dalším zásobníkem je relativní změna frekvence řádová za předpokladu, že derivace hustoty je nenulová. Tito dva mají stejný řád, pokud je řádný , takže je řádný . Tuto jednoduchou volbu kubického kořene lze také použít na koše s nestálou šířkou.
Aplikace
- V hydrologii se k získání vhledu do jejich chování a četnosti výskytu používá histogram a odhadovaná hustotní funkce údajů o srážkách a vypouštění řek, analyzovaných s rozložením pravděpodobnosti . Příklad je zobrazen na modrém obrázku.
- V mnoha programech pro zpracování digitálního obrazu existuje nástroj pro histogram, který vám ukáže rozložení kontrastu / jasu pixelů .
Viz také
- Data binning
-
Odhad hustoty
- Odhad hustoty jádra , hladší, ale složitější metoda odhadu hustoty
- Odhad entropie
- Pravidlo Freedman – Diaconis
- Histogram obrázku
- Paretův diagram
- Sedm základních nástrojů kvality
- V-optimální histogramy
Reference
Další čtení
- Lancaster, HO Úvod do lékařské statistiky. John Wiley and Sons. 1974. ISBN 0-471-51250-8
externí odkazy
- Zkoumání histogramů , esej Arana Lunzera a Amelie McNamara
- Journey To Work and Place Of Work (umístění sčítacího dokumentu citovaného v příkladu)
- Hladký histogram pro signály a obrázky z několika vzorků
- Histogramy: Konstrukce, analýza a porozumění s externími odkazy a aplikace na částicovou fyziku.
- Metoda pro výběr velikosti přihrádky histogramu
- Histogramy: Teorie a praxe , některé skvělé ilustrace některých konceptů šířky koše odvozených výše.
- Histogramy správnou cestou
- Interaktivní generátor histogramu
- Funkce Matlab pro vykreslení pěkných histogramů
- Dynamický histogram v MS Excel
- Konstrukce a manipulace histogramu pomocí Java appletů a grafů na SOCR
- Sada nástrojů pro vytváření nejlepších histogramů