Binární data - Binary data

Binární data jsou data, jejichž jednotka může nabývat pouze dvou možných stavů, tradičně označovaných jako 0 a 1 v souladu s binárním číselným systémem a booleovskou algebrou .

Binární data se vyskytují v mnoha různých technických a vědeckých oborech, kde je lze nazvat různými jmény včetně bitů (binárních číslic) v informatice , pravdivosti v matematické logice a souvisejících doménách a binární proměnné ve statistikách.

Matematické a kombinatorické základy

Diskrétní proměnná, která může trvat jen jeden stav obsahuje nulovou informací , a 2 je další přirozené číslo po 1. Proto je bit , proměnná pouze dvě možné hodnoty, je standardní primární jednotka informace .

Sbírka n bitů může mít 2 n stavy: podrobnosti viz binární číslo . Počet stavů kolekce diskrétních proměnných závisí exponenciálně na počtu proměnných a pouze jako mocninový zákon o počtu stavů každé proměnné. Deset bitů má více ( 1024 ) stavů než tři desetinná místa ( 1000 ). 10 k bitů je více než dost, aby představovalo informaci ( číslo nebo cokoli jiného), která vyžaduje 3 k desítkové číslice, takže informace obsažené v diskrétních proměnných se 3 , 4, 5, 6, 7, 8, 9, 10 … stavy mohou být vždy nahrazeno přidělením dvou, tří nebo čtyřikrát více bitů. Použití jakéhokoli jiného malého čísla než 2 tedy neposkytuje výhodu.

Hasse schéma : reprezentace booleovské algebry jako orientovaný graf

Booleovská algebra navíc poskytuje praktickou matematickou strukturu pro sběr bitů se sémantikou kolekce výrokových proměnných . Operace booleovské algebry jsou v informatice známé jako „ bitové operace “. Booleovské funkce jsou také dobře studovány teoreticky a snadno implementovatelné, buď pomocí počítačových programů, nebo pomocí takzvaných logických bran v digitální elektronice . To přispívá k použití bitů k reprezentaci různých dat, dokonce i těch, která původně nebyla binární.

Ve statistikách

V statistik , binární data je statistická typ dat se skládá z kategoriálních dat , která může mít přesně dvě možné hodnoty, jako je „A“ a „B“, nebo „hlavy“ a „ocasy“. Jako forma kategorických dat jsou binární data nominální data , což znamená, že představují kvalitativně odlišné hodnoty, které nelze numericky porovnávat. Binární data se však často převádějí na data počítání tak, že jednu ze dvou hodnot považují za „úspěch“ a představují výsledky jako 1 nebo 0, což odpovídá počítání počtu úspěchů v jedné studii: 1 (úspěch) nebo 0 ( selhání); viz § Počítání .

Binární data se často používají k reprezentaci jedné ze dvou koncepčně odlišných hodnot, např .:

  • výsledek experimentu („úspěch“ nebo „neúspěch“)
  • odpověď na otázku ano-ne („ano“ nebo „ne“)
  • přítomnost nebo nepřítomnost nějaké funkce („je k dispozici“ nebo „není k dispozici“)
  • pravdivost nebo nepravdivost tvrzení („pravdivé“ nebo „nepravdivé“, „správné“ nebo „nesprávné“)

Lze jej však také použít pro data, u nichž se předpokládá, že mají pouze dvě možné hodnoty, i když nejsou koncepčně protichůdné nebo koncepčně nepředstavují všechny možné hodnoty v prostoru. Například binární data se často používají k reprezentaci stranických voleb voličů ve volbách v USA , tj. Republikánských nebo demokratických . V tomto případě neexistuje žádný přirozený důvod, proč by měly existovat pouze dvě politické strany , a ve Spojených státech skutečně existují další strany, ale jsou tak malé, že jsou obecně jednoduše ignorovány. Modelování spojitých dat (nebo kategorických dat více než 2 kategorií) jako binární proměnné pro účely analýzy se nazývá dichotomizace (vytváření dichotomie ). Jako každá diskretizace zahrnuje diskretizační chybu , ale cílem je naučit se něco cenného navzdory chybě: považovat ji za zanedbatelnou pro daný účel, ale pamatovat na to, že ji nelze obecně považovat za zanedbatelnou.

Binární proměnné

Binární proměnnou je náhodná proměnná binárního typu, což znamená, se dvěma možnými hodnotami. Nezávislé a identicky distribuované (iid) binární proměnné následují po Bernoulliho distribuci , ale obecně binární data nemusí pocházet z iid proměnných. Celkový počet binárních proměnných iid (ekvivalentně součty binárních proměnných iid kódovaných jako 1 nebo 0) následuje binomické rozdělení , ale pokud binární proměnné nejsou iid, rozdělení nemusí být binomické.

Počítací

Jako kategoriálních dat, binární data mohou být převedena na vektoru o počtu dat nebo psaním souřadnic pro každou možnou hodnotu, a počítání 1 pro hodnotu, která se vyskytuje, a 0 na hodnotu, která se nevyskytuje. Pokud jsou například hodnoty A a B, pak datová sada A, A, B může být reprezentována v počtech jako (1, 0), (1, 0), (0, 1). Po převedení na počty lze binární data seskupit a počty přidat. Pokud je například skupina A, A, B seskupena, celkový počet je (2, 1): 2 A a 1 B (ze 3 pokusů).

Protože existují pouze dvě možné hodnoty, lze to zjednodušit na jeden počet (skalární hodnota) tím, že jednu hodnotu považujeme za „úspěch“ a druhou za „neúspěch“, přičemž hodnotu úspěchu zadáme jako 1 a selhání jako 0. Pokud je například hodnota A považována za „úspěch“ (a tedy B je považována za „neúspěch“), soubor dat A, A, B by byl reprezentován jako 1, 1, 0. Když je toto seskupeno, hodnoty jsou přidány, zatímco počet pokusů je obecně sledován implicitně. Například A, A, B by byly seskupeny jako 1 + 1 + 0 = 2 úspěchy (z }} pokusů). Při opačném způsobu počítání dat s jsou binární data, přičemž dvě třídy jsou 0 (selhání) nebo 1 (úspěch).

Počty binárních proměnných iid sledují binomické rozdělení s celkovým počtem pokusů (body ve seskupených datech).

Regrese

Regresní analýza předpokládaných výsledků, které jsou binárními proměnnými, je známá jako binární regrese ; když jsou binární data převedena na počítaná data a modelována jako proměnné iid (takže mají binomické rozdělení), lze použít binomickou regresi . Nejběžnějšími regresními metodami pro binární data jsou logistická regrese , regrese probitů nebo související typy modelů binární volby .

Podobně lze počty iid kategorických proměnných s více než dvěma kategoriemi modelovat pomocí multinomiální regrese . Počty binárních dat bez iid lze modelovat pomocí komplikovanějších distribucí, jako je beta-binomická distribuce ( složená distribuce ). Alternativně může být vztah modelován, aniž by bylo nutné explicitně modelovat distribuci výstupní proměnné pomocí technik z generalizovaných lineárních modelů (GLM), jako je kvazi pravděpodobnost a kvazinomiální model; viz Overdisperze § Binomiální .

V informatice

Binární obraz o QR Code , což představuje 1 bit na pixel, na rozdíl od typický 24-bit true color image.

V moderních počítačích se binárními daty rozumí jakákoli data reprezentovaná v binární formě, nikoli interpretovaná na vyšší úrovni nebo převedená do jiné formy. Na nejnižší úrovni jsou bity uloženy v bistabilním zařízení, jako je klopný obvod . Zatímco většina binárních dat má symbolický význam (kromě nezáleží na tom ), ne všechna binární data jsou číselná. Některá binární data odpovídají počítačovým instrukcím , jako jsou data v registrech procesoru dekódovaná řídicí jednotkou v cyklu načítání, dekódování a spouštění . Počítače jen zřídka upravují jednotlivé bity z důvodů výkonu. Místo toho jsou data zarovnána do skupin s pevným počtem bitů, obvykle 1 bajt (8 bitů). „Binární data“ v počítačích jsou tedy vlastně sekvence bytů. Na vyšší úrovni jsou data přístupná ve skupinách 1 slovo (4 bajty) pro 32bitové systémy a 2 slova pro 64bitové systémy.

V aplikované počítačové vědě a v oblasti informačních technologií je termín binární data často specificky proti textovým datům a označuje jakýkoli druh dat, která nelze interpretovat jako text. Rozdíl „text“ vs. „binární“ může někdy odkazovat na sémantický obsah souboru (např. Písemný dokument vs. digitální obrázek ). Často však odkazuje konkrétně na to, zda jsou jednotlivé bajty souboru interpretovatelné jako text (viz kódování znaků ), nebo je nelze interpretovat. Když je zamýšlen tento poslední význam, někdy se používají konkrétnější termíny binární formát a textový (ual) formát . Sémanticky textová data mohou být reprezentována v binárním formátu (např. Při komprimaci nebo v určitých formátech, které mísí různé druhy formátovacích kódů, jako ve formátu DOC používaném aplikací Microsoft Word ); naopak obrazová data jsou někdy reprezentována v textovém formátu (např. obrazový formát X PixMap používaný v systému X Window System ).

Viz také

Reference