Centrální procesorová jednotka - Central processing unit

Intel 80486Dx2 CPU, jak je patrné z výše uvedených

Spodní strana Intel 80486DX2 s jeho kolíky

Centrální procesorová jednotka ( CPU ), také volal centrální procesor , hlavní procesor nebo jen procesor , je elektronický obvod , který provádí pokyny obsahující počítačový program . CPU provádí základní aritmetické , logické, řídicí a vstupně/výstupní (I/O) operace specifikované instrukcemi v programu. To kontrastuje s externími součástmi, jako je hlavní paměť a I/O obvody, a specializovanými procesory, jako jsou grafické procesorové jednotky (GPU).

Forma, design a implementace CPU se v průběhu času měnily, ale jejich základní činnost zůstává téměř nezměněna. Mezi hlavní součásti CPU patří aritmeticko-logická jednotka (ALU), která provádí aritmetické a logické operace , registry procesoru, které dodávají operandy ALU a ukládají výsledky operací ALU, a řídicí jednotka, která řídí načítání (z paměti), dekódování a provádění instrukcí řízením koordinovaných operací ALU, registrů a dalších komponent.

Většina moderních CPU je implementována na mikroprocesorech s integrovaným obvodem (IC) , s jedním nebo více CPU na jediném IC čipu MOS ( kov-oxid-polovodič ). Mikroprocesorové čipy s více CPU jsou vícejádrové procesory . Jednotlivé fyzické CPU, procesorová jádra , mohou být také vícevláknové, aby se vytvořily další virtuální nebo logické CPU.

IC, který obsahuje CPU, může také obsahovat paměť , periferní rozhraní a další součásti počítače; taková integrovaná zařízení se různě nazývají mikrokontroléry nebo systémy na čipu (SoC).

Array procesory nebo vektorové procesory mají více procesorů, které pracují paralelně, přičemž žádná jednotka není považována za centrální. Virtuální CPU jsou abstrakcí dynamicky agregovaných výpočetních zdrojů.

Dějiny

EDVAC , jeden z prvních počítačů s uloženým programem

Časné počítače, jako byl ENIAC, musely být fyzicky přepojeny, aby vykonávaly různé úkoly, což způsobilo, že tyto stroje byly nazývány „počítače s pevným programem“. Pojem "centrální procesorová jednotka" se používá již od roku 1955. Protože pojem "CPU" je obecně definován jako zařízení pro provádění softwaru (počítačového programu), první zařízení, která mohla být právem nazývána CPU, přišla s příchodem počítače s uloženým programem .

Myšlenka skladoval-počítač programu byl již v návrhu J. Presper Eckert a John William Mauchly ‚s ENIAC , ale byl zpočátku vynechán tak, aby mohl být dokončen dříve. 30. června 1945, předtím, než byl ENIAC vyroben, matematik John von Neumann distribuoval papír s názvem První návrh zprávy o EDVAC . Byl to obrys počítače s uloženým programem, který měl být nakonec dokončen v srpnu 1949. EDVAC byl navržen k provádění určitého počtu instrukcí (nebo operací) různých typů. Je příznačné, že programy napsané pro EDVAC měly být uloženy ve vysokorychlostní počítačové paměti spíše než specifikovány fyzickým zapojením počítače. To překonalo vážné omezení ENIAC, což bylo značné množství času a úsilí potřebné k překonfigurování počítače pro provedení nového úkolu. S von Neumannovým návrhem bylo možné program, který EDVAC spouštěl, změnit jednoduše změnou obsahu paměti. EDVAC však nebyl prvním počítačem s uloženým programem; Manchester dítě , je v malém měřítku experimentální skladoval-počítač programu, běžel svůj první program dne 21. června 1948 a Manchester Mark 1 běžel svůj první program během noci 16-17 června 1949.

Dřívější CPU byly vlastní konstrukce používané jako součást většího a někdy výrazného počítače. Tento způsob navrhování vlastních CPU pro konkrétní aplikaci však do značné míry ustoupil vývoji víceúčelových procesorů vyráběných ve velkém množství. Tato standardizace začala v éře diskrétních tranzistorových sálových počítačů a minipočítačů a rychle se zrychlila s popularizací integrovaného obvodu (IC). Integrovaný obvod umožnil navrhovat a vyrábět stále složitější CPU s tolerancí v řádu nanometrů . Miniaturizace i standardizace CPU zvýšily přítomnost digitálních zařízení v moderním životě daleko za hranicemi omezené aplikace vyhrazených výpočetních strojů. Moderní mikroprocesory se objevují v elektronických zařízeních od automobilů po mobilní telefony a někdy dokonce i v hračkách.

Zatímco von Neumann je nejvíce často připočítán s designem uloženého programu počítače protože jeho designu EDVAC a design stal se známý jako von Neumann architektura , jiní před ním, takový jako Konrad Zuse , navrhoval a realizoval podobné nápady. Takzvaný Harvardská architektura z Harvard Mark já , který byl dokončen před EDVAC, také použit design skladoval-programu pomocí vyraženou papírovou pásku spíše než elektronická paměť. Klíčový rozdíl mezi von Neumannovou a Harvardskou architekturou je v tom, že druhá odděluje ukládání a zpracování instrukcí CPU a dat, zatímco první používá stejný paměťový prostor pro obě. Většina moderních CPU je primárně von Neumann v designu, ale CPU s architekturou Harvarda jsou viděny také, obzvláště ve vložených aplikacích; například mikrokontroléry Atmel AVR jsou procesory Harvardské architektury.

Jako spínací prvky se běžně používaly relé a elektronky (termionické trubice); užitečný počítač vyžaduje tisíce nebo desetitisíce spínacích zařízení. Celková rychlost systému závisí na rychlosti spínačů. Elektronkové počítače jako EDVAC mívaly mezi poruchami v průměru osm hodin, zatímco přenosové počítače jako (pomalejší, ale dřívější) Harvard Mark I selhaly velmi zřídka. Nakonec se staly dominantními procesory založené na trubkách, protože značné výhody rychlosti obecně převážily problémy se spolehlivostí. Většina z těchto raných synchronních CPU běžela na nízkých taktech ve srovnání s moderními mikroelektronickými konstrukcemi. Frekvence hodinového signálu v rozmezí od 100 kHz do 4 MHz byly v této době velmi běžné, omezené převážně rychlostí spínacích zařízení, se kterými byly sestrojeny.

Tranzistorové CPU

Procesor IBM PowerPC 604e

Konstrukční složitost CPU se zvýšila s tím, jak různé technologie usnadnily stavbu menších a spolehlivějších elektronických zařízení. První takové zlepšení přišlo s příchodem tranzistoru . Tranzistorizované CPU během 50. a 60. let již nemusely být stavěny z objemných, nespolehlivých a křehkých spínacích prvků, jako jsou elektronky a relé . S tímto vylepšením byly složitější a spolehlivější CPU zabudovány na jednu nebo několik desek plošných spojů obsahujících diskrétní (individuální) součástky.

V roce 1964 IBM představilo svou počítačovou architekturu IBM System/360, která byla používána v řadě počítačů schopných spouštět stejné programy s různou rychlostí a výkonem. To bylo významné v době, kdy většina elektronických počítačů byla navzájem nekompatibilní, dokonce i ty vyrobené stejným výrobcem. Aby toto zlepšení usnadnilo, IBM použilo koncept mikroprogramu (často nazývaného „mikrokód“), který stále vidí široké použití v moderních CPU. Architektura System/360 byla tak populární, že dominovala na trhu sálových počítačů po celá desetiletí a zanechala dědictví, které stále pokračují podobné moderní počítače jako IBM zSeries . V roce 1965 představila společnost Digital Equipment Corporation (DEC) další vlivný počítač zaměřený na vědecké a výzkumné trhy, PDP-8 .

Deska Fujitsu s procesory SPARC64 VIIIfx

Tranzistorové počítače měly oproti svým předchůdcům několik zřetelných výhod. Kromě usnadnění zvýšené spolehlivosti a nižší spotřeby energie umožnily tranzistory také CPU pracovat při mnohem vyšších rychlostech kvůli krátké spínací době tranzistoru ve srovnání s elektronkou nebo relé. Zvýšená spolehlivost a dramaticky zvýšená rychlost spínacích prvků (které byly v této době téměř výhradně tranzistory); V tomto období bylo snadné získat takt CPU v desítkách megahertzů. Navíc, zatímco diskrétní tranzistorové a IC CPU byly hojně využívány, začaly se objevovat nové vysoce výkonné designy jako SIMD (Single Instruction Multiple Data) vektorové procesory . Tyto brzy experimentální designy později daly vzniknout éry specializovaných superpočítačů jako ti dělali Cray Inc a Fujitsu Ltd .

Malé integrační CPU

CPU, jádrová paměť a externí sběrnicové rozhraní DEC PDP-8 /I, vyrobené ze středně velkých integrovaných obvodů

Během tohoto období byl vyvinut způsob výroby mnoha vzájemně propojených tranzistorů v kompaktním prostoru. Integrovaný obvod (IC) dovolil velké množství tranzistorů, které mají být vyrobeny na jednom polovodičovém založeném matrice , nebo „čip“. Nejprve byly do IC miniaturizovány pouze velmi základní nespecializované digitální obvody, jako jsou hradla NOR . CPU založené na těchto integrovaných obvodech "stavebního bloku" se obecně označují jako zařízení "small-scale integration" (SSI). SSI IC, jako jsou ty používané v Apollo Guidance Computer , obvykle obsahovaly až několik desítek tranzistorů. Sestavení celého CPU z SSI IC vyžadovalo tisíce jednotlivých čipů, ale stále spotřebovalo mnohem méně místa a energie než dřívější návrhy diskrétních tranzistorů.

IBM System/370 , navazující na System/360, používal SSI IC spíše než Solid Logic Technology diskrétní tranzistorové moduly. DEC PDP-8 /I a KI10 PDP-10 také přešly z jednotlivých tranzistorů používaných PDP-8 a PDP-10 na SSI IC a jejich extrémně populární řada PDP-11 byla původně postavena s SSI IC, ale nakonec byla implementována s Komponenty LSI, jakmile se staly praktickými.

Rozsáhlá integrace CPU

Lee Boysel publikoval vlivné články, včetně „manifestu“ z roku 1967, který popisoval, jak postavit ekvivalent 32bitového sálového počítače z relativně malého počtu velkých integračních obvodů (LSI). Jediným způsobem, jak vytvořit LSI čipy, které jsou žetony s sto nebo více bran, bylo postavit je pomocí MOS procesu výroby polovodičů (buď PMOS logika , NMOS , nebo CMOS logiku ). Některé společnosti však pokračovaly ve stavbě procesorů z čipů bipolární tranzistor-tranzistorová logika (TTL), protože bipolární tranzistory byly rychlejší než čipy MOS až do sedmdesátých let (několik společností, jako je Datapoint, pokračovalo ve stavbě procesorů z čipů TTL až do počátku 80. léta 20. století). V 60. letech 20. století byly MOS integrované obvody pomalejší a zpočátku se považovaly za užitečné pouze v aplikacích, které vyžadovaly nízký výkon. V návaznosti na vývoj technologie MOS s křemíkovou bránou Federico Faggin ve Fairchild Semiconductor v roce 1968, MOS IC z velké části nahradily bipolární TTL jako standardní čipovou technologii na počátku 70. let.

Jak mikroelektronická technologie pokročila, stále větší počet tranzistorů byl umístěn na IC, což snižovalo počet jednotlivých IC potřebných pro kompletní CPU. MSI a LSI IC zvýšily počet tranzistorů na stovky a poté tisíce. Do roku 1968 se počet integrovaných obvodů potřebných k sestavení kompletního CPU snížil na 24 integrovaných obvodů osmi různých typů, přičemž každý integrovaný obvod obsahoval zhruba 1000 MOSFETů. V ostrém kontrastu s jeho předchůdci SSI a MSI obsahovala první implementace LSI PDP-11 CPU složené pouze ze čtyř integrovaných obvodů LSI.

Mikroprocesory

Die z Intel 80486Dx2 mikroprocesoru (skutečná velikost: 12 x 6,75 mm) v obalu

CPU Intel Core i5 na základní desce notebooku Vaio řady E (vpravo, pod tepelnou trubicí )

Uvnitř notebooku, s CPU vyjmutým ze zásuvky

Pokroky v technologii MOS IC vedly na počátku 70. let k vynálezu mikroprocesoru . Od představení prvního komerčně dostupného mikroprocesoru Intel 4004 v roce 1971 a prvního široce používaného mikroprocesoru Intel 8080 v roce 1974 tato třída CPU téměř úplně překonala všechny ostatní metody implementace centrálních procesorových jednotek. Výrobci sálových počítačů a minipočítačů v té době spustili proprietární vývojové programy IC, aby aktualizovali své starší počítačové architektury , a nakonec vyrobili kompatibilní mikroprocesory s instrukční sadou, které byly zpětně kompatibilní s jejich starším hardwarem a softwarem. V kombinaci s příchodem a případným úspěchem všudypřítomného osobního počítače se termín CPU nyní používá téměř výhradně pro mikroprocesory. V jednom procesorovém čipu lze kombinovat několik CPU (označovaných jako jádra ).

Předchozí generace CPU byly implementovány jako diskrétní součástky a četné malé integrované obvody (IC) na jedné nebo více deskách plošných spojů. Mikroprocesory jsou na druhé straně CPU vyráběné na velmi malém počtu IC; obvykle jen jeden. Celková menší velikost procesoru v důsledku implementace na jediné matrici znamená rychlejší dobu přepínání kvůli fyzikálním faktorům, jako je snížená parazitní kapacita hradla . To umožnilo synchronním mikroprocesorům mít takt v rozsahu od desítek megahertzů do několika gigahertzů. Navíc schopnost konstruovat mimořádně malé tranzistory na IC mnohonásobně zvýšila složitost a počet tranzistorů v jediném CPU. Tento široce pozorovaný trend je popsán Moorovým zákonem , který se ukázal jako poměrně přesný prediktor růstu složitosti CPU (a dalších IC) až do roku 2016.

Zatímco složitost, velikost, konstrukce a obecná podoba CPU se od roku 1950 nesmírně změnila, základní design a funkce se příliš nezměnily. Téměř všechny běžné CPU dnes lze velmi přesně popsat jako von Neumannovy stroje s uloženým programem. Vzhledem k tomu, že Moorův zákon již neplatí, vyvstaly obavy ohledně limitů technologie tranzistorů s integrovanými obvody. Extrémní miniaturizace elektronických hradel způsobuje, že účinky jevů, jako je elektromigrace a podprahové úniky, se stávají mnohem významnějšími. Tyto novější obavy patří mezi mnoho faktorů, které nutí výzkumníky zkoumat nové metody počítání, jako je kvantový počítač , a také rozšířit použití paralelismu a dalších metod, které rozšiřují užitečnost klasického von Neumannova modelu.

Úkon

Základní operací většiny CPU, bez ohledu na fyzickou formu, kterou na sebe berou, je provádění sekvence uložených instrukcí, která se nazývá program. Instrukce, které mají být provedeny, jsou uloženy v nějaké paměti počítače . Téměř všechny CPU ve své činnosti sledují kroky načítání, dekódování a provádění, které jsou souhrnně známé jako instrukční cyklus .

Po provedení instrukce se celý proces opakuje, přičemž další cyklus instrukcí normálně vyvolá instrukci další v pořadí kvůli zvýšené hodnotě v programovém čítači . Pokud byla provedena instrukce skoku, programový čítač bude upraven tak, aby obsahoval adresu instrukce, na kterou byl přeskočen, a provádění programu pokračuje normálně. Ve složitějších CPU lze načíst, dekódovat a spustit více instrukcí současně. Tato část popisuje to, co je obecně označováno jako „ klasické RISC potrubí “, které je zcela běžné mezi jednoduchými CPU používanými v mnoha elektronických zařízeních (často nazývaných mikrokontroléry). Do značné míry ignoruje důležitou roli mezipaměti CPU, a tedy i přístupovou fázi potrubí.

Některé instrukce manipulují s programovým čítačem spíše než přímo produkují výsledná data; takové instrukce se obecně nazývají "skoky" a usnadňují chování programu, jako jsou smyčky , podmíněné provádění programu (pomocí podmíněného skoku) a existence funkcí . U některých procesorů některé další instrukce mění stav bitů v registru „vlajek“ . Tyto příznaky lze použít k ovlivnění chování programu, protože často indikují výsledek různých operací. Například v takových procesorech instrukce "porovnání" vyhodnotí dvě hodnoty a nastaví nebo vymaže bity v registru příznaků, aby indikovala, která z nich je větší nebo zda jsou stejné; jeden z těchto příznaků by pak mohl být použit pozdější instrukcí skoku k určení toku programu.

Vynést

První krok, načtení, zahrnuje načtení instrukce (která je reprezentována číslem nebo posloupností čísel) z paměti programu. Umístění (adresa) instrukce v paměti programu je určeno programovým čítačem (PC; v mikroprocesorech Intel x86 nazývaným "ukazatel instrukce" ), který ukládá číslo, které identifikuje adresu další instrukce, která má být vyzvednuta. Po načtení instrukce je PC inkrementováno o délku instrukce tak, aby obsahovala adresu další instrukce v pořadí. Instrukce, která má být vyzvednuta, musí být často načtena z relativně pomalé paměti, což způsobí zablokování CPU při čekání na vrácení instrukce. Tento problém je u moderních procesorů z velké části řešen pomocí mezipaměti a architektury potrubí (viz níže).

Dekódovat

Instrukce, kterou CPU načte z paměti, určuje, co bude CPU dělat. V kroku dekódování, prováděném obvodem binárního dekodéru známého jako instrukční dekodér , je instrukce převedena na signály, které řídí ostatní části CPU.

Způsob, jakým je instrukce interpretována, je definován architekturou instrukční sady CPU (ISA). Často jedna skupina bitů (tj. „pole“) v instrukci, nazývaná operační kód, označuje, která operace má být provedena, zatímco zbývající pole obvykle poskytují doplňkové informace požadované pro operaci, jako jsou operandy. Tyto operandy mohou být specifikovány jako konstantní hodnota (nazývaná okamžitá hodnota) nebo jako umístění hodnoty, kterou může být registr procesoru nebo adresa paměti, jak je určeno některým režimem adresování .

V některých konstrukcích CPU je instrukční dekodér implementován jako pevně zapojený, neměnný binární dekodérový obvod. V jiných se mikroprogram používá k překladu instrukcí do sad konfiguračních signálů CPU, které jsou aplikovány postupně přes více hodinových impulzů. V některých případech je paměť, ve které je mikroprogram uložen, přepisovatelná, což umožňuje změnit způsob, jakým CPU dekóduje instrukce.

Vykonat

Po krocích načítání a dekódování se provede krok provedení. V závislosti na architektuře CPU se může skládat z jedné akce nebo sekvence akcí. Během každé akce řídicí signály elektricky aktivují nebo deaktivují různé části CPU, aby mohly provést celou požadovanou operaci nebo její část. Akce je poté dokončena, obvykle v reakci na hodinový impuls. Velmi často se výsledky zapisují do interního registru CPU pro rychlý přístup pomocí následných instrukcí. V jiných případech mohou být výsledky zapsány do pomalejší, ale levnější hlavní paměti s vyšší kapacitou .

Pokud se má například provést instrukce sčítání, aktivují se registry obsahující operandy (čísla, která se mají sčítat), stejně jako části aritmetické logické jednotky (ALU), které provádějí sčítání. Když dojde k hodinovému impulsu, operandy proudí ze zdrojových registrů do ALU a na jeho výstupu se objeví součet. Při následujících hodinových impulsech jsou povoleny (a deaktivovány) další komponenty, aby přesunuly výstup (součet operací) do úložiště (např. registr nebo paměť). Pokud je výsledný součet příliš velký (tj. je větší než velikost výstupního slova ALU), bude nastaven aritmetický příznak přetečení, který ovlivní další operaci.

Struktura a implementace

Blokové schéma základního jednoprocesorového počítače s CPU. Černé čáry označují tok dat, zatímco červené čáry označují tok řízení; šipky označují směr proudění.

Do obvodů CPU je pevně zapojena sada základních operací, které může provádět, nazývaná instrukční sada . Takové operace mohou zahrnovat například sčítání nebo odečítání dvou čísel, porovnávání dvou čísel nebo skok do jiné části programu. Každá instrukce je reprezentována jedinečnou kombinací bitů , známou jako operační kód strojového jazyka . Při zpracování instrukce CPU dekóduje operační kód (přes binární dekodér ) na řídicí signály, které řídí chování CPU. Kompletní instrukce strojového jazyka se skládá z operačního kódu a v mnoha případech z dalších bitů, které specifikují argumenty pro operaci (například čísla, která se mají sečíst v případě operace sčítání). Na stupnici složitosti je program ve strojovém jazyce sbírkou instrukcí strojového jazyka, které CPU vykonává.

Vlastní matematickou operaci pro každou instrukci provádí kombinační logický obvod v procesoru CPU známý jako aritmeticko-logická jednotka nebo ALU. Obecně platí, že CPU provádí instrukci tak, že ji načte z paměti, použije její ALU k provedení operace a poté uloží výsledek do paměti. Kromě instrukcí pro celočíselnou matematiku a logické operace existují různé další strojové instrukce, jako jsou instrukce pro načítání dat z paměti a jejich zpětné ukládání, operace větvení a matematické operace na číslech s plovoucí desetinnou čárkou prováděné jednotkou CPU s plovoucí desetinnou čárkou (FPU ).

Řídící jednotka

Řídicí jednotka (CU) je součástí procesoru, který řídí činnost procesoru. Říká paměti počítače, aritmetické a logické jednotce a vstupním a výstupním zařízením, jak reagovat na instrukce, které byly odeslány procesoru.

Řídí činnost ostatních jednotek poskytováním časovacích a řídicích signálů. Většina počítačových zdrojů je spravována CU. Řídí tok dat mezi CPU a ostatními zařízeními. John von Neumann zahrnul řídicí jednotku jako součást von Neumannovy architektury . V moderních počítačových konstrukcích je řídicí jednotka obvykle vnitřní součástí CPU, přičemž její celková role a provoz se od jejího zavedení nezměnily.

Aritmetická logická jednotka

Symbolické znázornění ALU a jejích vstupních a výstupních signálů

Aritmetická logická jednotka (ALU) je digitální obvod v procesoru, který provádí celočíselné aritmetické a bitové logické operace. Vstupy do ALU jsou datová slova, se kterými se má pracovat (nazývané operandy ), stavové informace z předchozích operací a kód z řídicí jednotky udávající, která operace se má provést. V závislosti na prováděné instrukci mohou operandy pocházet z interních CPU registrů nebo externí paměti, nebo to mohou být konstanty generované samotnou ALU.

Když se všechny vstupní signály usadí a rozšíří obvodem ALU, objeví se výsledek provedené operace na výstupech ALU. Výsledek sestává jak z datového slova, které může být uloženo v registru nebo paměti, tak z informací o stavu, které jsou obvykle uloženy ve speciálním interním registru CPU vyhrazeném pro tento účel.

Jednotka generování adresy

Jednotka generování adresy ( AGU ), někdy také nazývaná jednotka pro výpočet adresy ( ACU ), je prováděcí jednotka uvnitř CPU, která vypočítává adresy používané CPU pro přístup k hlavní paměti . Tím, že jsou výpočty adres zpracovávány samostatnými obvody, které pracují paralelně se zbytkem CPU, lze snížit počet cyklů CPU potřebných pro provádění různých strojových instrukcí , což přináší zlepšení výkonu.

Při provádění různých operací potřebují CPU vypočítat adresy paměti potřebné pro načítání dat z paměti; například pozice prvků pole v paměti musí být vypočteny předtím, než CPU může načíst data ze skutečných paměťových míst. Tyto výpočty generování adres zahrnují různé celočíselné aritmetické operace , jako je sčítání, odčítání, modulo operace nebo bitové posuny . Výpočet adresy paměti často zahrnuje více než jednu univerzální strojovou instrukci, která se nemusí nutně dekódovat a provádět rychle. Začleněním AGU do návrhu CPU spolu se zavedením specializovaných instrukcí, které používají AGU, mohou být různé výpočty generování adres odstraněny ze zbytku CPU a mohou být často provedeny rychle v jediném cyklu CPU.

Schopnosti AGU závisí na konkrétním CPU a jeho architektuře . Některé jednotky AGU tedy implementují a vystavují více operací výpočtu adresy, zatímco některé také zahrnují pokročilejší specializované instrukce, které mohou pracovat s více operandy současně. Některé architektury CPU navíc obsahují více jednotek AGU, takže lze současně provádět více než jednu operaci výpočtu adresy, což přináší další zlepšení výkonu díky využití superskalární povahy pokročilých návrhů CPU. Intel například začleňuje do svých mikroarchitektur Sandy Bridge a Haswell několik AGU , které zvyšují šířku pásma paměťového subsystému CPU tím, že umožňují paralelní provádění více instrukcí pro přístup do paměti.

Jednotka správy paměti (MMU)

Mnoho mikroprocesorů (v chytrých telefonech a stolních počítačích, přenosných počítačích, serverech) má jednotku správy paměti, která převádí logické adresy na fyzické adresy RAM, poskytuje ochranu paměti a schopnosti stránkování , užitečné pro virtuální paměť . Jednodušší procesory, zejména mikrokontroléry , obvykle MMU neobsahují.

Mezipaměti

Cache CPU je hardware mezipaměť používá centrální procesorové jednotky (CPU) jednoho počítače ke snížení průměrné náklady (čas nebo energie) pro přístup dat z hlavní paměti . Mezipaměť je menší, rychlejší paměť, blíže k jádru procesoru , která ukládá kopie dat z často používaných míst hlavní paměti . Většina CPU má různé nezávislé mezipaměti, včetně instrukční a datové mezipaměti , kde je datová mezipaměť obvykle organizována jako hierarchie více úrovní mezipaměti (L1, L2, L3, L4 atd.).

Všechny moderní (rychlé) CPU (až na několik specializovaných výjimek) mají více úrovní mezipaměti CPU. První procesory, které používaly mezipaměť, měly pouze jednu úroveň mezipaměti; na rozdíl od pozdějších mezipamětí úrovně 1 nebyl rozdělen na L1d (pro data) a L1i (pro instrukce). Téměř všechny současné CPU s mezipamětí mají rozdělenou mezipaměť L1. Mají také mezipaměti L2 a pro větší procesory také mezipaměti L3. L2 cache se obvykle nerozděluje a funguje jako společné úložiště pro již rozdělenou L1 cache. Každé jádro vícejádrového procesoru má vyhrazenou mezipaměť L2 a obvykle se mezi jádry nesdílí. Cache L3 a mezipaměti vyšší úrovně jsou sdíleny mezi jádry a nejsou rozděleny. Cache L4 je v současné době neobvyklá a je obecně na dynamické paměti s náhodným přístupem (DRAM), spíše než na statické paměti s náhodným přístupem (SRAM), na samostatné matrici nebo čipu. Historicky tomu tak bylo i u L1, zatímco větší čipy umožňovaly integraci této a obecně všech úrovní mezipaměti, snad s výjimkou poslední úrovně. Každá další úroveň mezipaměti má tendenci být větší a může být optimalizována odlišně.

Existují i jiné typy mezipaměti (které se nezapočítávají do „velikosti mezipaměti“ nejdůležitějších výše zmíněných mezipamětí), jako je překladová vyrovnávací paměť (TLB), která je součástí jednotky správy paměti (MMU), kterou má většina CPU.

Mezipaměti jsou obecně dimenzovány na dvě síly: 2, 8, 16 atd. Velikosti KiB nebo MiB (pro větší jiné než L1), ačkoli IBM z13 má 96 KiB instrukční vyrovnávací paměť L1.

Frekvence hodin

Většina CPU jsou synchronní obvody , což znamená, že používají hodinový signál k urychlení svých sekvenčních operací. Hodinový signál je produkován obvodem externího oscilátoru, který každou sekundu generuje konzistentní počet pulzů ve formě periodické obdélníkové vlny . Frekvence hodinových pulsů určuje rychlost, s jakou CPU vykonává instrukce, a proto čím rychlejší jsou hodiny, tím více instrukcí CPU provede každou sekundu.

Aby byla zajištěna správná činnost CPU, je perioda hodin delší než maximální doba potřebná k tomu, aby se všechny signály šířily (pohybovaly) CPU. Nastavením periody hodin na hodnotu výrazně nad nejhorším případem zpoždění šíření je možné navrhnout celý CPU a způsob, jakým posouvá data kolem „hran“ rostoucího a klesajícího hodinového signálu. To má výhodu výrazného zjednodušení CPU, a to jak z hlediska designu, tak z hlediska počtu komponent. Nese to však také nevýhodu, že celý CPU musí čekat na svých nejpomalejších prvcích, i když některé jeho části jsou mnohem rychlejší. Toto omezení bylo z velké části kompenzováno různými metodami zvýšení paralelismu CPU (viz níže).

Samotná architektonická vylepšení však nevyřeší všechny nevýhody globálně synchronních CPU. Například hodinový signál podléhá zpožděním jakéhokoli jiného elektrického signálu. Vyšší frekvence hodin ve stále složitějších CPU znesnadňují udržení hodinového signálu ve fázi (synchronizované) v celé jednotce. To vedlo mnoho moderních procesorů k tomu, že vyžadovaly poskytnutí více identických hodinových signálů, aby se předešlo zdržení jediného signálu natolik významně, že by CPU selhalo. Dalším hlavním problémem, jak se frekvence hodin dramaticky zvyšuje, je množství tepla, které je odváděno CPU . Neustále se měnící hodiny způsobí, že se mnoho komponent přepne bez ohledu na to, zda jsou v daný čas používány. Obecně platí, že součást, která se přepíná, spotřebuje více energie než prvek ve statickém stavu. Proto se zvyšujícím se taktem roste i spotřeba energie, což způsobuje, že CPU vyžaduje větší odvod tepla v podobě řešení chlazení CPU .

Jedna metoda, jak se vypořádat s přepínáním nepotřebných komponentů, se nazývá clock gating , což zahrnuje vypnutí hodinového signálu nepotřebným komponentám (účinně je deaktivuje). To je však často považováno za obtížně realizovatelné, a proto není běžné použití mimo designy s velmi nízkou spotřebou energie. Jeden pozoruhodný nedávný CPU design, který používá rozsáhlé clock gating je IBM PowerPC- založený Xenon použitý v Xbox 360 ; tímto způsobem jsou požadavky na napájení Xbox 360 výrazně sníženy.

Beztaktní CPU

Další metodou řešení některých problémů s globálním hodinovým signálem je úplné odstranění hodinového signálu. Zatímco odstranění globálního hodinového signálu činí proces návrhu v mnoha ohledech značně složitějším, asynchronní (neboli taktované) návrhy přinášejí výrazné výhody ve spotřebě energie a rozptylu tepla ve srovnání s podobnými synchronními návrhy. I když je to poněkud neobvyklé, celé asynchronní CPU byly postaveny bez použití globálního hodinového signálu. Dva pozoruhodné příklady tohoto jsou ARM kompatibilní Amulet a MIPS R3000 kompatibilní MiniMIPS. {{

Namísto úplného odstranění hodinového signálu některé návrhy CPU umožňují, aby určité části zařízení byly asynchronní, jako je použití asynchronních ALU ve spojení se superskalárním zřetězením pro dosažení určitého zvýšení aritmetického výkonu. I když není zcela jasné, zda zcela asynchronní návrhy mohou fungovat na srovnatelné nebo lepší úrovni než jejich synchronní protějšky, je zřejmé, že vynikají přinejmenším v jednodušších matematických operacích. Díky tomu, v kombinaci s jejich vynikající spotřebou energie a vlastnostmi rozptylu tepla, jsou velmi vhodné pro vestavěné počítače .

Modul regulátoru napětí

Mnoho moderních CPU má integrovaný modul správy napájení, který reguluje napájení obvodů CPU na vyžádání, což umožňuje udržovat rovnováhu mezi výkonem a spotřebou energie.

Rozsah celého čísla

Každý CPU představuje číselné hodnoty specifickým způsobem. Například, některé časné digitální počítače reprezentovány čísla jsou známá desetinné čárky (základ 10) číselná soustava hodnot, a jiní zaměstnávala více neobvyklé reprezentace, jako je ternární (základně tři). Téměř všechny moderní procesory reprezentují čísla v binární formě, přičemž každá číslice je reprezentována nějakou dvouhodnotovou fyzikální veličinou, jako je „vysoké“ nebo „nízké“ napětí .

Šestibitové slovo obsahující binárně zakódovanou reprezentaci dekadické hodnoty 40. Většina moderních CPU používá velikosti slov, které jsou mocninou dvou, například 8, 16, 32 nebo 64 bitů.

S numerickou reprezentací souvisí velikost a přesnost celých čísel, které může CPU reprezentovat. V případě binární CPU, měří se podle počtu bitů (platných číslic binární kódovaných celé číslo), že procesor může zpracovávat v jednom pracovním kroku, který se běžně nazývá slovo velikost , bitovou šířkou , šířka datové cesty , číslo přesné , nebo celočíselná velikost . Celočíselná velikost CPU určuje rozsah celočíselných hodnot, se kterými může přímo pracovat. Například 8bitový CPU může přímo manipulovat s celými čísly reprezentovanými osmi bity, které mají rozsah 256 (2 ⁸ ) hodnot diskrétních celých čísel.

Celočíselný rozsah může také ovlivnit počet paměťových míst, která může CPU přímo adresovat (adresa je celočíselná hodnota představující konkrétní paměťové místo). Pokud například binární CPU používá 32 bitů k reprezentaci adresy paměti, může přímo adresovat 2 ³² paměťových míst. Aby se toto omezení obešlo az různých jiných důvodů, některé CPU používají mechanismy (jako je přepínání bank ), které umožňují adresování dodatečné paměti.

CPU s větší velikostí slov vyžadují více obvodů, a proto jsou fyzicky větší, stojí více a spotřebovávají více energie (a proto generují více tepla). V důsledku toho se v moderních aplikacích běžně používají menší 4- nebo 8bitové mikrokontroléry, i když jsou k dispozici CPU s mnohem větší velikostí slov (jako je 16, 32, 64, dokonce 128 bitů). Je-li však vyžadován vyšší výkon, mohou výhody větší velikosti slova (větší rozsahy dat a adresní prostory) převažovat nad nevýhodami. CPU může mít vnitřní datové cesty kratší než velikost slova, aby se snížila velikost a náklady. Například, přestože instrukční sada IBM System/360 byla 32bitová instrukční sada, System/360 Model 30 a Model 40 měly 8bitové datové cesty v aritmetické logické jednotce, takže 32bitové přidání vyžadovalo čtyři cyklů, jeden pro každých 8 bitů operandů, a přestože instrukční sada Motorola 68000 byla 32bitová instrukční sada, Motorola 68000 a Motorola 68010 měly 16bitové datové cesty v aritmetické logické jednotce, takže 32bitové přidání vyžaduje dva cykly.

Pro získání některých výhod poskytovaných jak nižšími, tak vyššími bitovými délkami má mnoho instrukčních sad různé bitové šířky pro celá čísla a data s pohyblivou řádovou čárkou, což umožňuje CPU implementujícím tuto instrukční sadu mít různé bitové šířky pro různé části zařízení. Například instrukční sada IBM System/360 byla primárně 32bitová, ale podporovala 64bitové hodnoty s pohyblivou řádovou čárkou, aby byla zajištěna větší přesnost a rozsah čísel s pohyblivou řádovou čárkou. System/360 Model 65 měl 8bitovou sčítačku pro desítkovou a binární aritmetiku s pevnou desetinnou čárkou a 60bitovou sčítačku pro aritmetiku s plovoucí desetinnou čárkou. Mnoho pozdějších návrhů CPU používá podobnou smíšenou bitovou šířku, zvláště když je procesor určen pro všeobecné použití, kde je vyžadována rozumná rovnováha mezi celým číslem a pohyblivou řádovou čárkou.

Rovnoběžnost

Model subskalárního CPU, ve kterém trvá patnáct hodinových cyklů k dokončení tří instrukcí

Popis základní činnosti CPU nabízený v předchozí části popisuje nejjednodušší formu, kterou může CPU mít. Tento typ CPU, obvykle označovaný jako subskalární , pracuje a vykonává jednu instrukci na jednom nebo dvou kusech dat najednou, což je méně než jedna instrukce na hodinový cyklus ( IPC < 1 ).

Tento proces vede k inherentní neefektivitě v subskalárních CPU. Protože je současně prováděna pouze jedna instrukce, musí celý CPU čekat na dokončení této instrukce, než bude pokračovat k další instrukci. Výsledkem je, že subskalární CPU se „zavěsí“ na instrukce, které vyžadují více než jeden hodinový cyklus, než se dokončí. Ani přidání druhé prováděcí jednotky (viz níže) výkon příliš nezlepší; místo toho, aby byla jedna cesta zavěšena, jsou nyní dvě cesty zavěšeny a počet nepoužitých tranzistorů se zvýšil. Tento návrh, kde prováděcí prostředky CPU mohou pracovat pouze s jednou instrukcí současně, může dosáhnout pouze skalárního výkonu (jedna instrukce na takt, IPC = 1 ). Výkon je však téměř vždy subskalární (méně než jedna instrukce na takt, IPC < 1 ).

Pokusy o dosažení skalárního a lepšího výkonu vedly k různým metodologiím návrhu, které způsobují, že se CPU chová méně lineárně a více paralelně. Při odkazu na paralelismus v CPU se pro klasifikaci těchto návrhových technik obecně používají dva termíny:

paralelismus na úrovni instrukcí (ILP), který se snaží zvýšit rychlost, jakou jsou instrukce prováděny v rámci CPU (to znamená zvýšit využití zdrojů pro provádění přímo na místě);
paralelismus na úrovni úloh (TLP), jehož účelem je zvýšit počet vláken nebo procesů, které může CPU provádět současně.

Každá metodika se liší jak způsoby, kterými jsou implementovány, tak i relativní efektivitou, kterou poskytují při zvyšování výkonu CPU pro aplikaci.

Paralelnost na úrovni instrukcí

Základní pětistupňové potrubí. V nejlepším případě může toto potrubí udržet rychlost dokončení jedné instrukce na cyklus hodin.

Jednou z nejjednodušších metod pro zvýšení paralelismu je začít s prvními kroky načítání a dekódování instrukce před dokončením provádění předchozí instrukce. Toto je technika známá jako zřetězení instrukcí a používá se téměř ve všech moderních univerzálních CPU. Pipelining umožňuje provádění více instrukcí najednou rozdělením cesty provádění na jednotlivé fáze. Toto oddělení lze přirovnat k montážní lince, ve které je instrukce v každé fázi úplnější, dokud neopustí prováděcí potrubí a není vyřazena.

Pipelining však zavádí možnost pro situaci, kdy je výsledek předchozí operace potřebný k dokončení další operace; stav často nazývaný konflikt závislosti na datech. Zřetězené procesory proto musí kontrolovat tyto druhy podmínek a v případě potřeby část zřetězení zpozdit. Zřetězený procesor se může stát velmi téměř skalárním, brzděn pouze zablokováním zřetězení (instrukce, která ve fázi utrácí více než jeden hodinový cyklus).

Jednoduché superskalární potrubí. Načtením a odesláním dvou instrukcí najednou lze dokončit maximálně dvě instrukce za cyklus hodin.

Zlepšení zřetězení instrukcí vedlo k dalšímu zkrácení doby nečinnosti komponent CPU. Návrhy, o kterých se říká, že jsou superskalární, zahrnují dlouhé potrubí instrukcí a více identických prováděcích jednotek , jako jsou jednotky pro ukládání dat , aritmeticko-logické jednotky , jednotky s pohyblivou řádovou čárkou a jednotky pro generování adres . V superskalárním potrubí jsou instrukce čteny a předávány dispečerovi, který rozhoduje, zda mohou být instrukce prováděny paralelně (současně). Pokud ano, jsou odeslány do prováděcích jednotek, což vede k jejich současnému provedení. Obecně platí, že počet instrukcí, které superskalární CPU dokončí v cyklu, závisí na počtu instrukcí, které je schopen současně odeslat do prováděcích jednotek.

Většina obtíží při návrhu architektury superskalárního CPU spočívá ve vytvoření efektivního dispečera. Dispečer musí být schopen rychle určit, zda mohou být instrukce vykonávány paralelně, a také je musí odesílat tak, aby zaměstnával co nejvíce prováděcích jednotek. To vyžaduje, aby byl kanál instrukcí zaplňován tak často, jak je to možné, a vyžaduje značné množství mezipaměti CPU . Pro udržení vysoké úrovně výkonu jsou také klíčové techniky vyhýbání se nebezpečí, jako je predikce větví , spekulativní provádění , přejmenování registrů , provádění mimo pořadí a transakční paměť . Tím, že se CPU pokusí předpovědět, jakou větev (nebo cestu) podmíněná instrukce vezme, může minimalizovat počet, kolikrát musí celý kanál čekat, než bude podmíněná instrukce dokončena. Spekulativní provádění často poskytuje mírné zvýšení výkonu prováděním částí kódu, které nemusí být potřeba po dokončení podmíněné operace. Provádění mimo pořadí poněkud mění pořadí, ve kterém jsou instrukce prováděny, aby se snížilo zpoždění způsobené závislostmi na datech. Také v případě jediného toku instrukcí, více toku dat — v případě, kdy je třeba zpracovat velké množství dat stejného typu — mohou moderní procesory zakázat části potrubí, takže když je jedna instrukce provedena mnohokrát, CPU přeskakuje fáze načítání a dekódování a tím výrazně zvyšuje výkon při určitých příležitostech, zejména ve vysoce monotónních programových jádrech, jako je software pro tvorbu videa a zpracování fotografií.

V případě, že pouze část CPU je superskalární, část, která není, utrpí výkonnostní penalizaci kvůli blokování plánování. Intel P5 Pentium měl dvě superskalární ALU, z nichž každá dokázala přijmout jednu instrukci na takt, ale jeho FPU ne. P5 byl tedy celočíselný superskalární, ale ne superskalární s pohyblivou řádovou čárkou. Nástupce Intel architektury P5, P6 , přidal superskalární schopnosti ke svým funkcím s pohyblivou řádovou čárkou.

Jednoduché zřetězení a superskalární design zvyšují ILP CPU tím, že mu umožňují provádět instrukce rychlostí přesahující jednu instrukci na takt. Většina moderních CPU designů je alespoň trochu superskalární a téměř všechny univerzální CPU navržené v posledním desetiletí jsou superskalární. V pozdějších letech se část důrazu při navrhování počítačů s vysokým ILP přesunula z hardwaru CPU do jeho softwarového rozhraní nebo architektury instrukční sady (ISA). Strategie velmi dlouhého instrukčního slova (VLIW) způsobuje, že některé ILP jsou implikovány přímo softwarem, což snižuje práci CPU při posilování ILP, a tím snižuje složitost návrhu.

Paralelismus na úrovni úloh

Další strategií dosažení výkonu je paralelní spouštění více vláken nebo procesů . Tato oblast výzkumu je známá jako paralelní výpočetní technika . V Flynnově taxonomii je tato strategie známá jako vícenásobný instrukční proud, vícenásobný datový proud (MIMD).

Jednou z technologií používaných pro tento účel byl multiprocessing (MP). Počáteční varianta této technologie je známá jako symetrický multiprocessing (SMP), kde malý počet CPU sdílí koherentní pohled na svůj paměťový systém. V tomto schématu má každý CPU další hardware, aby udržoval neustále aktuální pohled na paměť. Tím, že se zabrání zastaralým pohledům na paměť, mohou CPU spolupracovat na stejném programu a programy mohou migrovat z jednoho CPU na druhý. Aby se zvýšil počet spolupracujících CPU nad hrstku, byla v 90. letech zavedena schémata jako non-uniform memory access (NUMA) a adresářové koherenční protokoly . Systémy SMP jsou omezeny na malý počet CPU, zatímco systémy NUMA byly postaveny s tisíci procesorů. Zpočátku byl multiprocessing postaven pomocí více samostatných CPU a desek k implementaci propojení mezi procesory. Když jsou všechny procesory a jejich propojení implementovány na jediném čipu, je tato technologie známá jako čip-level multiprocessing (CMP) a jeden čip jako vícejádrový procesor .

Později se zjistilo, že paralelismus s jemnějším zrnem existoval u jediného programu. Jeden program může mít několik vláken (nebo funkcí), které lze provádět samostatně nebo paralelně. Některé z prvních příkladů této technologie implementovaly zpracování vstupu/výstupu, jako je přímý přístup do paměti jako samostatné vlákno od výpočetního vlákna. Obecnější přístup k této technologii byl představen v 70. letech 20. století, kdy byly systémy navrženy pro paralelní běh více výpočetních vláken. Tato technologie je známá jako multi-threading (MT). Tento přístup je považován za nákladově efektivnější než multiprocessing, protože pouze malý počet komponent v rámci CPU je replikován pro podporu MT na rozdíl od celého CPU v případě MP. V MT jsou prováděcí jednotky a paměťový systém včetně mezipamětí sdíleny mezi více vlákny. Nevýhodou MT je, že hardwarová podpora pro multithreading je pro software viditelnější než podpora MP, a proto musí dohlížecí software, jako jsou operační systémy, podstoupit větší změny, aby podporoval MT. Jeden typ MT, který byl implementován, je známý jako temporal multithreading , kde je jedno vlákno prováděno, dokud se nezastaví a čeká na návrat dat z externí paměti. V tomto schématu by pak CPU rychle přepnul kontext na jiné vlákno, které je připraveno ke spuštění, což se často provádí v jednom taktu CPU, jako je UltraSPARC T1 . Dalším typem MT je simultánní multithreading , kde jsou instrukce z více vláken prováděny paralelně v rámci jednoho taktu CPU.

Po několik desetiletí od 70. let do počátku 21. století se při navrhování vysoce výkonných CPU pro všeobecné použití zaměřovalo především na dosažení vysokého ILP prostřednictvím technologií, jako je zřetězení, mezipaměti, superskalární spouštění, spouštění mimo pořadí atd. Tento trend vyvrcholil velkým , energeticky náročné CPU, jako je Intel Pentium 4 . Na počátku 21. století byli návrháři CPU zmařeni v dosahování vyššího výkonu z ILP technik kvůli rostoucímu rozdílu mezi provozními frekvencemi CPU a provozními frekvencemi hlavní paměti, stejně jako eskalující ztrátě výkonu CPU kvůli esoteričtějším ILP technikám.

Návrháři CPU si pak vypůjčili nápady z komerčních počítačových trhů, jako je zpracování transakcí , kde byl souhrnný výkon více programů, také známý jako propustnost počítání, důležitější než výkon jednoho vlákna nebo procesu.

Toto obrácení důrazu je doloženo rozšířením dvou a více jádrových procesorů a zejména novějšími návrhy Intelu, které připomínají méně superskalární architekturu P6 . Pozdní návrhy v několika rodinách procesorů vykazují CMP, včetně x86-64 Opteron a Athlon 64 X2 , SPARC UltraSPARC T1 , IBM POWER4 a POWER5 , stejně jako několik CPU herních konzolí, jako je trojjádrový design PowerPC Xbox 360 , a PlayStation 3 to 7-core Cell mikroprocesor .

Datový paralelismus

Méně běžné, ale stále důležitější paradigma procesorů (a vlastně výpočetní techniky obecně) se zabývá datovým paralelismem. Procesory diskutované výše jsou všechny označovány jako nějaký typ skalárního zařízení. Jak již název napovídá, vektorové procesory pracují s více daty v kontextu jedné instrukce. To je v kontrastu se skalárními procesory, které pracují s jedním kusem dat pro každou instrukci. Pomocí Flynnovy taxonomie jsou tato dvě schémata zacházení s daty obecně označována jako jeden instrukční tok, vícenásobný datový tok ( SIMD ) a jeden instrukční tok, jeden datový tok ( SISD ). Velká užitečnost při vytváření procesorů, které se zabývají vektory dat, spočívá v optimalizaci úloh, které obvykle vyžadují stejnou operaci (například součet nebo tečkový součin ) pro provedení velké sady dat. Některé klasické příklady těchto typů úloh zahrnují multimediální aplikace (obrázky, video a zvuk), stejně jako mnoho typů vědeckých a technických úloh. Zatímco skalární procesor musí dokončit celý proces načítání, dekódování a provádění každé instrukce a hodnoty v sadě dat, vektorový procesor může provést jedinou operaci na poměrně velké sadě dat pomocí jedné instrukce. To je možné pouze tehdy, když má aplikace tendenci vyžadovat mnoho kroků, které aplikují jednu operaci na velkou sadu dat.

Většina časných vektorových procesorů, jako je Cray-1 , byla spojována téměř výhradně s vědeckým výzkumem a kryptografickými aplikacemi. Protože se však multimédia do značné míry přesunula do digitálních médií, potřeba určité formy SIMD v procesorech pro všeobecné použití se stala významnou. Krátce poté, co se zahrnutí jednotek s pohyblivou řádovou čárkou začalo stávat běžnou součástí univerzálních procesorů, se specifikace a implementace prováděcích jednotek SIMD začaly objevovat i pro univerzální procesory. Některé z těchto časných specifikací SIMD – jako HP Multimedia Acceleration eXtensions (MAX) a Intel MMX – byly pouze celočíselné. To se ukázalo být významnou překážkou pro některé vývojáře softwaru, protože mnoho aplikací, které těží ze SIMD, se primárně zabývá čísly s pohyblivou řádovou čárkou . Vývojáři postupně zdokonalovali a předělávali tyto rané návrhy do některých běžných moderních specifikací SIMD, které jsou obvykle spojeny s architekturou jedné instrukční sady (ISA). Některé pozoruhodné moderní příklady zahrnují rozšíření Intel Streaming SIMD Extensions (SSE) a AltiVec související s PowerPC (také známý jako VMX).

Virtuální CPU

Cloud computing může zahrnovat rozdělení provozu CPU na virtuální centrální procesorové jednotky ( vCPU ).

Hostitel je virtuální ekvivalent fyzického stroje, na kterém běží virtuální systém. Pokud existuje několik fyzických strojů, které pracují v tandemu a jsou spravovány jako celek, seskupené výpočetní a paměťové zdroje tvoří klastr . V některých systémech je možné dynamicky přidávat a odebírat z clusteru. Prostředky dostupné na úrovni hostitele a clusteru lze s jemnou granularitou rozdělit do fondů zdrojů .

Výkon

Výkon nebo rychlost na procesoru závisí na tom, kromě mnoha jiných faktorů, hodiny sazba (obvykle uveden v násobcích hertzů ) a návod na clock (IPC), které dohromady představují faktory pro instrukcí za sekundu (IPS), že CPU může fungovat. Mnoho uváděných hodnot IPS představuje „špičkovou“ rychlost provádění na umělých sekvencích instrukcí s několika větvemi, zatímco realistická pracovní zátěž se skládá ze směsi instrukcí a aplikací, z nichž některé trvají déle než jiné. Výkon paměťové hierarchie také výrazně ovlivňuje výkon procesoru, což je problém, který se ve výpočtech MIPS sotva bere v úvahu. Kvůli těmto problémům byly vyvinuty různé standardizované testy, pro tento účel často nazývané „benchmarky“, jako je SPECint, aby se pokusily měřit skutečný efektivní výkon v běžně používaných aplikacích.

Procesní výkon počítačů se zvyšuje použitím vícejádrových procesorů , což v podstatě znamená zapojení dvou nebo více jednotlivých procesorů ( v tomto smyslu nazývaných jádra ) do jednoho integrovaného obvodu. V ideálním případě by dvoujádrový procesor byl téměř dvakrát výkonnější než jednojádrový procesor. V praxi je nárůst výkonu mnohem menší, pouze asi 50 %, kvůli nedokonalým softwarovým algoritmům a implementaci. Zvýšení počtu jader v procesoru (tj. dvoujádrový, čtyřjádrový atd.) zvyšuje zátěž, kterou lze zvládnout. To znamená, že procesor nyní může zpracovávat četné asynchronní události, přerušení atd., které si při přetížení mohou vybrat daň na CPU. Tato jádra lze považovat za různé podlahy ve zpracovatelském závodě, přičemž každé patro zvládá jiný úkol. Někdy tato jádra zvládnou stejné úkoly jako jádra sousedící s nimi, pokud jediné jádro nestačí ke zpracování informací.

Vzhledem ke specifickým schopnostem moderních CPU, jako je simultánní multithreading a uncore , které zahrnují sdílení skutečných CPU zdrojů a zároveň se zaměřují na zvýšené využití, se monitorování úrovně výkonu a využití hardwaru postupně stalo složitějším úkolem. V reakci na to některé CPU implementují další hardwarovou logiku, která monitoruje skutečné využití různých částí CPU a poskytuje různé čítače přístupné softwaru; příkladem je technologie Performance Counter Monitor společnosti Intel .

Viz také

Poznámky

Reference

externí odkazy

Jak fungují mikroprocesory ve společnosti HowStuffWorks .
25 mikročipů, které otřásly světem – článek Institutu elektrických a elektronických inženýrů .

Languages

In other projects