Data (výpočetní) - Data (computing)

Různé typy dat, které lze zobrazit pomocí počítačového zařízení

Ve výpočetní technice jsou daty (považovány za singulární, množné nebo hromadné podstatné jméno ) jakákoli sekvence jednoho nebo více symbolů . Datum je jediný symbol dat. Data vyžadují interpretaci, aby se stala informací . Digitální data jsou data, která jsou reprezentována pomocí systému binárních čísel jedniček (1) a nul (0), na rozdíl od analogové reprezentace. V moderních počítačových systémech (po roce 1960) jsou všechna data digitální.

Data existují ve třech stavech: data v klidu , data v přenosu a data v provozu . Data v počítači se ve většině případů pohybují jako paralelní data . Data přesouvaná do počítače nebo z počítače se ve většině případů přesouvají jako sériová data . Data získaná z analogového zařízení, jako je teplotní senzor, lze převést na digitální pomocí převodníku analogového signálu na digitální . Data představující veličiny , znaky nebo symboly, se kterými jsou operace prováděny počítačem, jsou ukládána a zaznamenávána na magnetická , optická , elektronická nebo mechanická záznamová média a přenášena ve formě digitálních elektrických nebo optických signálů. Data procházejí dovnitř a ven z počítačů přes periferní zařízení .

Prvky fyzické paměti počítače se skládají z adresy a bajtu/slova úložiště dat. Digitální data jsou často uložena v relačních databázích , jako jsou tabulky nebo databáze SQL, a obecně je lze reprezentovat jako abstraktní páry klíč/hodnota. Data lze organizovat do mnoha různých typů datových struktur , včetně polí, grafů a objektů . Datové struktury mohou ukládat data mnoha různých typů , včetně čísel , řetězců a dokonce i jiných datových struktur .

Charakteristika

Metadata pomáhají překládat data na informace. Metadata jsou data o datech. Metadata mohou být implikována, specifikována nebo dána.

Data týkající se fyzických událostí nebo procesů budou mít dočasnou složku. Tato dočasná složka může být implikována. To je případ, kdy zařízení, jako je záznamník teploty, přijímá data z teplotního čidla . Když je teplota přijata, předpokládá se, že data mají dočasnou referenci nyní . Zařízení tedy zaznamenává datum, čas a teplotu společně. Když datalogger komunikuje teploty, musí také hlásit datum a čas jako metadata pro každé čtení teploty.

Počítače v zásadě dodržují posloupnost pokynů, které jsou jim poskytovány ve formě dat. Sada pokynů k provedení daného úkolu (nebo úkolů) se nazývá program . Program jsou data ve formě kódovaných pokynů k ovládání provozu počítače nebo jiného stroje. V nominálním případě bude program spuštěný počítačem sestávat ze strojového kódu . Prvky úložiště manipulovaného programem, ale ve skutečnosti neprovedené centrální procesorovou jednotkou (CPU), jsou také data. Jediným datem je nanejvýš hodnota uložená na konkrétním místě. Proto je možné, aby počítačové programy fungovaly na jiných počítačových programech, a to manipulací s jejich programovými daty.

Chcete -li ukládat datové bajty do souboru, musí být serializovány ve formátu souboru . Programy jsou obvykle uloženy ve speciálních typech souborů, odlišných od těch, které se používají pro jiná data. Spustitelné soubory obsahují programy; všechny ostatní soubory jsou také datové soubory . Spustitelné soubory však mohou také obsahovat data používaná programem, který je do programu zabudován. Některé spustitelné soubory mají zejména datový segment , který nominálně obsahuje konstanty a počáteční hodnoty proměnných, přičemž oba lze považovat za data.

Hranice mezi programem a daty se může rozmazat. Interpret , například, je program. Vstupní data tlumočníka jsou sama o sobě programem, nikoli pouze daty vyjádřenými v rodném strojovém jazyce . V mnoha případech bude interpretovaným programem textový soubor čitelný pro člověka , se kterým se manipuluje pomocí programu textového editoru . Metaprogramování podobně zahrnuje programy manipulující s jinými programy jako s daty. Programy jako kompilátory , linkery , debuggery , aktualizátory programů , antivirové programy a podobné používají jako svá data jiné programy.

Například, uživatel mohl nejprve pokyn operačního systému načíst textový procesor program z jednoho souboru a pak použít běžící program na otevřít a upravit dokument uložený v jiném souboru. V tomto případě bude dokument považován za data. Pokud textový procesor obsahuje také kontrolu pravopisu , pak by se za data považoval také slovník (seznam slov) pro kontrolu pravopisu. Tyto algoritmy podle Kontrola pravopisu používá k navrhnout korekce by být buď strojového kódu údajů nebo textu v nějakém interpretovatelný programovacím jazyku .

Při alternativním použití se binárním souborům (které nejsou čitelné pro člověka ) někdy říká data na rozdíl od textu čitelného člověkem .

Celkové množství digitálních dat v roce 2007 bylo odhadováno na 281 miliard gigabajtů (281 exabajtů ).

Datové klíče a hodnoty, struktury a vytrvalost

Klíče v datech poskytují kontext pro hodnoty. Bez ohledu na strukturu dat je vždy přítomna klíčová součást. Klíče v datech a datových strukturách jsou zásadní pro dávání významu datovým hodnotám. Bez klíče, který je přímo nebo nepřímo spojen s hodnotou nebo sbírkou hodnot ve struktuře, hodnoty ztratí smysl a přestanou být daty. To znamená, že k hodnotové složce musí být připojena klíčová komponenta, aby mohla být považována za data.

Data lze v počítačích reprezentovat několika způsoby, podle následujících příkladů:

RAM

Paměť RAM ( Random Access Memory ) obsahuje data, ke kterým má CPU přímý přístup. CPU může manipulovat pouze s daty v rámci svých registrů nebo paměti procesoru . To je na rozdíl od ukládání dat, kde CPU musí řídit přenos dat mezi úložným zařízením (disk, páska ...) a pamětí. RAM je řada lineárních souvislých umístění, která může procesor číst nebo zapisovat poskytnutím adresy pro operaci čtení nebo zápisu. Procesor může pracovat na libovolném místě v paměti kdykoli v libovolném pořadí. V RAM je nejmenším prvkem dat binární bit . Možnosti a omezení přístupu k RAM jsou specifické pro procesor. Obecně je hlavní paměť uspořádána jako pole míst začínajících na adrese 0 ( hexadecimální 0). Každé umístění může ukládat obvykle 8 nebo 32 bitů v závislosti na architektuře počítače .

Klíče

Datové klíče nemusí být přímou hardwarovou adresou v paměti. Kódy nepřímých , abstraktních a logických klíčů lze ukládat ve spojení s hodnotami za účelem vytvoření datové struktury . Datové struktury mají předem určené posuny (nebo odkazy nebo cesty) od začátku struktury, ve kterých jsou uloženy datové hodnoty. Datový klíč se tedy skládá z klíče ke struktuře plus ofsetu (nebo odkazů nebo cest) do struktury. Když se taková struktura opakuje a ukládá variace datových hodnot a datových klíčů do stejné opakující se struktury, lze výsledek považovat za podobný tabulce , ve které je každý prvek opakující se struktury považován za sloupec a každé opakování struktury je považováno za řádek tabulky. V takové organizaci dat je datový klíč obvykle hodnotou v jednom (nebo složeném z hodnot v několika) sloupců.

Organizované opakující se datové struktury

Tabelární pohled na opakujících se datových struktur, je pouze jednou z mnoha možností. Opakující se datové struktury mohou být organizovány hierarchicky , takže uzly jsou navzájem propojeny v kaskádě vztahů rodič-dítě. S uzly jsou spojeny hodnoty a potenciálně složitější datové struktury. Uzlová hierarchie tedy poskytuje klíč pro adresování datových struktur spojených s uzly. Tuto reprezentaci lze považovat za obrácený strom . Například běžným příkladem jsou moderní systémy souborů počítačových operačních systémů ; a XML je další.

Seřazená nebo seřazená data

Data jsou při řazení na klíči spojená s některými inherentními funkcemi . Všechny hodnoty pro podmnožiny klíče se zobrazí společně. Při postupném procházení skupinami dat se stejným klíčem nebo změnou podmnožiny klíče se to v kruzích zpracování dat označuje jako přerušení nebo kontrolní přestávka . Zejména usnadňuje agregaci hodnot dat na podmnožiny klíče.

Periferní úložiště

Až do příchodu energeticky nezávislých počítačových pamětí, jako jsou USB klíče , bylo trvalého ukládání dat tradičně dosahováno zapisováním dat na externí bloková zařízení, jako jsou magnetické pásky a diskové jednotky . Tato zařízení obvykle hledají umístění na magnetickém médiu a poté čtou nebo zapisují bloky dat předem stanovené velikosti. V tomto případě je vyhledávací umístění na médiu datový klíč a bloky jsou datové hodnoty. Dřívější datové souborové systémy nebo diskové operační systémy používané k rezervaci souvislých bloků na diskové jednotce pro datové soubory . V těchto systémech bylo možné soubory zaplnit a došel jim datový prostor, než do nich byla zapsána všechna data. Mnoho nevyužitého datového prostoru bylo tedy neproduktivně vyhrazeno, aby se zabránilo vzniku této situace. Toto bylo známé jako surový disk. Pozdější souborové systémy zavedly oddíly . Rezervovali bloky datového prostoru disku pro oddíly a přidělené bloky využívali ekonomičtěji, dynamickým přiřazováním bloků oddílu k souboru podle potřeby. Aby toho bylo dosaženo, musel souborový systém sledovat, které bloky byly použity nebo nepoužity datovými soubory v tabulce katalogu nebo alokaci souborů. Ačkoli to lépe využilo datový prostor disku, mělo to za následek fragmentaci souborů na disku a souběžnou režii výkonu kvůli latenci. Moderní souborové systémy reorganizují fragmentované soubory dynamicky, aby optimalizovaly časy přístupu k souborům. Další vývoj v souborových systémech vedl k virtualizaci diskových jednotek, tj. Kde logickou jednotku lze definovat jako oddíly z řady fyzických jednotek.

Indexovaná data

Načtení malé podmnožiny dat z mnohem větší sady znamená vyhledávání sekvenčně. To je neekonomické. Indexy jsou způsob, jak zkopírovat klíče a adresy umístění z datových struktur do souborů, tabulek a datových sad, a poté je uspořádat pomocí převrácených stromových struktur, aby se zkrátil čas potřebný k získání podmnožiny původních dat. Aby to bylo možné provést, musí být klíč podmnožiny dat, která se má načíst, znám před zahájením načítání. Nejpopulárnějšími indexy jsou B-strom a metody indexování dynamických hash klíčů. Indexování je další nákladnou režií pro ukládání a načítání dat. Existují i jiné způsoby organizace indexů, např. Třídění klíčů nebo oprava veličin (nebo dokonce klíč a data dohromady) a použití binárního vyhledávání na nich.

Abstrakce a indirection

Objektová orientace používá pro porozumění datům a softwaru dva základní pojmy: 1) Taxonomická hodnostní struktura tříd programových kódů , což je příklad hierarchické datové struktury; a 2) Za běhu vytváření odkazů datových klíčů na datové struktury v paměti objektů objektů, které byly vytvořeny z knihovny tříd . Pouze po vytvoření instance existuje vykonávající objekt zadané třídy. Poté, co je anulován odkaz na klíč objektu, data odkazovaná tímto objektem přestanou být daty, protože odkaz na datový klíč je null; a proto také předmět přestává existovat. Místa v paměti, kde byla uložena data objektu, jsou pak označována jako odpadky a jsou překlasifikována jako nevyužitá paměť dostupná pro opětovné použití.

Data databáze

Příchod databází přinesl další vrstvu abstrakce pro trvalé ukládání dat. Databáze používají metadata a protokol strukturovaného dotazovacího jazyka mezi klientskými a serverovými systémy, komunikují po síti pomocí dvoufázového systému protokolování potvrzení, aby zajistily úplnost transakcí při zachování dat.

Paralelní distribuované zpracování dat

Moderní škálovatelné / vysoce výkonné technologie perzistence dat spoléhají na masivně paralelní distribuované zpracování dat napříč mnoha komoditními počítači v síti s velkou šířkou pásma. Příkladem je Apache Hadoop . V takových systémech jsou data distribuována na více počítačů, a proto jakýkoli konkrétní počítač v systému musí být zastoupen v klíči dat, a to buď přímo, nebo nepřímo. To umožňuje rozlišení mezi dvěma identickými soubory dat, z nichž každé je zpracováváno na jiném počítači současně.

Languages

In other projects