Implementace buněčného mikroprocesoru - Cell microprocessor implementations
První komerční mikroprocesor Cell , Cell BE, byl navržen pro Sony PlayStation 3. IBM navrhla PowerXCell 8i pro použití v superpočítači Roadrunner .
Obsah
Implementace
První vydání buňky na 90 nm CMOS
IBM v tomto procesu zveřejnila informace týkající se dvou různých verzí buňky, časného technického vzorku označeného DD1 a vylepšené verze označené DD2 určené pro produkci.
Označení | Die oblast | První zveřejněno | Zvýšení |
---|---|---|---|
DD1 | 221 mm² | ISSCC 2005 | |
DD2 | 235 mm² | Cool Chips duben 2005 | vylepšené jádro OOP |
Hlavním vylepšením v DD2 bylo malé prodloužení matrice pro uložení většího jádra PPE, o kterém se uvádí, že „obsahuje více zdrojů pro provádění SIMD / vektorů“. Některé předběžné informace vydané společností IBM odkazují na variantu DD1. Výsledkem je, že některé rané žurnalistické účty schopností buňky se nyní liší od produkčního hardwaru.
Buňkový půdorys
[Powerpoint materiál doprovázející prezentaci STI od Dr. Petera Hofstee], obsahuje fotografii přetaženého nástroje DD2 Cell s hranicemi funkčních jednotek, které jsou také titulkem, což odhaluje rozdělení křemíkové oblasti podle funkční jednotky takto:
Jednotka funkce buňky | Plocha (%) | Popis |
---|---|---|
Rozhraní XDR | 5.7 | rozhraní do systémové paměti Rambus |
řadič paměti | 4.4 | spravuje externí paměť a L2 cache |
512 KiB L2 cache | 10.3 | mezipaměť paměti pro OOP |
OOP jádro | 11.1 | Procesor PowerPC |
test | 2.0 | nespecifikováno "testovat a dekódovat logiku" |
EIB | 3.1 | procesory propojující prvky sběrnice |
SPE (každá) x 8 | 6.2 | synergický koprocesní prvek |
Řadič I / O | 6.6 | externí I / O logika |
Rambus FlexIO | 5.7 | externí signalizace pro I / O piny |
SPE půdorys
Další podrobnosti týkající se interní implementace SPE zveřejnili inženýři IBM, včetně Petera Hofstee , hlavního architekta IBM pro prvek synergického zpracování, ve vědecké publikaci IEEE.
Tento dokument obsahuje fotografii 2,54 x 5,81 mm SPE implementovanou v 90 nm SOI . V této technologii obsahuje SPE 21 milionů tranzistorů, z nichž 14 milionů je obsaženo v polích (termín pravděpodobně označuje registrační soubory a místní úložiště) a 7 milionů tranzistorů je logických. Tato fotografie je přetažena hranicemi funkčních jednotek, které jsou také titulkem, což odhaluje rozdělení oblasti křemíku podle funkční jednotky následovně:
Funkční jednotka SPU | Plocha (%) | Popis | Trubka |
---|---|---|---|
jediná přesnost | 10.0 | jedna přesná jednotka provádění FP | dokonce |
dvojnásobná přesnost | 4.4 | jednotka s dvojitou přesností FP | dokonce |
jednoduché pevné | 3.25 | jednotka s pevným bodem | dokonce |
kontrola vydání | 2.5 | krmí prováděcí jednotky | |
vpřed makro | 3.75 | krmí prováděcí jednotky | |
GPR | 6.25 | univerzální registrační soubor | |
obměňovat | 3.25 | permutační exekuční jednotka | zvláštní |
větev | 2.5 | pobočková exekuční jednotka | zvláštní |
kanál | 6.75 | kanálové rozhraní (tři samostatné bloky) | zvláštní |
LS0-LS3 | 30.0 | čtyři 64 KiB bloky místního obchodu | zvláštní |
MMU | 4,75 | jednotka správy paměti | |
DMA | 7.5 | jednotka přímého přístupu do paměti | |
BIU | 9.0 | jednotka rozhraní sběrnice | |
RTB | 2.5 | integrovaný testovací blok pole (ABIST) | |
ATO | 1.6 | atomová jednotka pro atomové aktualizace DMA | |
HB | 0,5 | obskurní |
Pochopení odesílacích kanálů je důležité k napsání efektivního kódu. V architektuře SPU lze odeslat (spustit) dvě instrukce v každém hodinovém cyklu pomocí expedičních kanálů označených jako sudé a liché . Dvě trubky poskytují různé prováděcí jednotky, jak je uvedeno v tabulce výše. Když to IBM rozdělilo, většina aritmetických instrukcí se provádí na sudém kanálu, zatímco většina paměťových instrukcí se provádí na lichém kanálu. Jednotka permutace je úzce spojena s paměťovými instrukcemi, protože slouží k zabalení a vybalení datových struktur umístěných v paměti do formátu SIMD s více operandy, který SPU počítá nejefektivněji.
Na rozdíl od jiných návrhů procesorů poskytujících odlišné prováděcí kanály může každá instrukce SPU odeslat pouze v jednom určeném kanálu. V konkurenčních návrzích může být navrženo více než jedno potrubí pro zpracování extrémně běžných pokynů, jako je přidání , což umožňuje současné provádění více dvou nebo více těchto pokynů, což může sloužit ke zvýšení efektivity nevyvážených pracovních toků. V souladu s extrémně spartánskou filozofií designu není pro SPU několikanásobně zajištěno provedení.
Porozumění omezením restriktivního návrhu dvou kanálů je jedním z klíčových konceptů, které musí programátor pochopit, aby mohl napsat efektivní SPU kód na nejnižší úrovni abstrakce. Pro programátory pracující na vyšších úrovních abstrakce dobrý kompilátor automaticky vyváží souběžnost potrubí, kde je to možné.
Síla a výkon SPE
Jak bylo testováno společností IBM při náročném zatížení transformací a osvětlením [průměrné IPC 1,4], je výkonnostní profil této implementace pro jeden procesor SPU kvalifikován takto:
Napětí (V) | Frekvence (GHz) | Výkon (W) | Die Temp (C) |
---|---|---|---|
0,9 | 2.0 | 1 | 25 |
0,9 | 3.0 | 2 | 27 |
1.0 | 3.8 | 3 | 31 |
1.1 | 4.0 | 4 | 38 |
1.2 | 4.4 | 7 | 47 |
1.3 | 5.0 | 11 | 63 |
Položka pro provoz 2,0 GHz při 0,9 V představuje konfiguraci s nízkou spotřebou. Další položky ukazují špičkovou stabilní pracovní frekvenci dosaženou při každém přírůstku napětí. Obecně platí, že v obvodech CMOS stoupá ztrátový výkon v hrubém vztahu k V ^ 2 * F, druhé mocnině napětí krát pracovní frekvenci.
Ačkoli měření výkonu poskytovaná autory IBM postrádají přesnost, vyjadřují dobrý pocit z celkového trendu. Tyto obrázky ukazují, že součást je schopna běžet nad 5 GHz za podmínek zkušební laboratoře - i když při teplotě matrice příliš vysoké pro standardní komerční konfigurace. První komerčně dostupné procesory Cell byly společností IBM hodnoceny na 3,2 GHz, což je provozní rychlost, kde tento graf naznačuje teplotu matrice SPU v pohodlné blízkosti 30 stupňů.
Všimněte si, že jeden SPU představuje 6% oblasti matrice procesoru buňky. Údaje o výkonu uvedené v tabulce výše představují jen malou část celkového rozpočtu na energii.
IBM veřejně oznámila svůj záměr implementovat Cell na budoucí technologii pod uzlem 90 nm za účelem zlepšení spotřeby energie. Snížená spotřeba energie by mohla potenciálně umožnit zvýšení stávajícího designu na 5 GHz nebo vyšší, aniž by došlo k překročení tepelných omezení stávajících produktů.
Buňka při 65 nm
První zmenšení buňky bylo v 65 nm uzlu. Redukce na 65 nm snížila stávající matrici 230 mm² na základě procesu 90 nm na polovinu její současné velikosti, přibližně 120 mm², což výrazně snížilo také výrobní náklady IBM.
Dne 12. března 2007 společnost IBM oznámila, že ve výrobě East Fishkill začala vyrábět 65 nm buňky. Vyráběné čipy jsou zjevně pouze pro vlastní servery IBM typu blade , které jako první získaly 65 nm buňky. Společnost Sony představila v listopadu 2007 třetí generaci PS3, model s kapacitou 40 GB bez kompatibility s PS2, u kterého bylo potvrzeno použití 65 nm buňky. Díky zmenšenému článku se snížila spotřeba energie z 200 W na 135 W.
Zpočátku bylo známo pouze to, že 65 nm-buňky taktují až na 6 GHz a běží na napětí jádra 1,3 V, jak je ukázáno na ISSCC 2007. To by dalo čipu teoretický špičkový výkon 384 GFLOPS v přesnosti čtvrtiny FP8 ( 48 GFLOP v duální přesnosti FP64), což je významné zlepšení vrcholu 204,8 GFLOPS (duální přesnost 25,6 GFLOP v dvoustupňovém režimu FP64), který by buňka o délce 3,2 GHz o frekvenci 90 nm mohla poskytnout s 8 aktivními SPU. IBM dále oznámila, že implementovala nové funkce pro úsporu energie a duální napájení pro pole SRAM. Tato verze ještě nebyla dlouho zmiňovanou „Cell +“ s vylepšeným výkonem Double Precision s plovoucí desetinnou čárkou, která poprvé spatřila světlo světa v polovině roku 2008 v superpočítači Roadrunner v podobě blade QS22 PowerXCell. Ačkoli IBM hovořila a dokonce dříve ukazovala vyšší taktované buňky, rychlost hodin zůstala konstantní na 3,2 GHz, a to i pro Roadrunner „Cell +“ s povolenou dvojitou přesností. Udržováním konstantní rychlosti hodin se IBM místo toho rozhodla snížit spotřebu energie. Klastry PowerXCell jsou dokonce nejlepší klastry IBM Blue Gene (371 MFLOPS / Watt), které jsou již mnohem energeticky účinnější než klastry vyrobené z konvenčních procesorů (265 MFLOPS / Watt a nižší).
Budoucí vydání v CMOS
Vyhlídky na 45 nm
Na ISSCC 2008 IBM oznámila Cell v 45 nm uzlu. IBM uvedla, že bude vyžadovat o 40 procent méně energie při stejné hodinové rychlosti než její předchůdce 65 nm a že oblast matrice se zmenší o 34 procent. 45 nm buňka vyžaduje méně chlazení a umožňuje levnější výrobu, a to i díky použití mnohem menšího chladiče. Hromadná výroba byla původně zahájena koncem roku 2008, ale byla přesunuta na začátek roku 2009 .
Vyhlídky nad 45 nm
Společnosti Sony, IBM a Toshiba oznámily, že v lednu 2006 začnou pracovat na buňce o velikosti pouhých 32 nm, ale jelikož se proces zmenšování v továrnách obvykle odehrává v globálním měřítku, a nikoli v individuálním měřítku, šlo pouze o veřejný závazek, 32 nm.