Implementace buněčného mikroprocesoru - Cell microprocessor implementations

První komerční mikroprocesor Cell , Cell BE, byl navržen pro Sony PlayStation 3. IBM navrhla PowerXCell 8i pro použití v superpočítači Roadrunner .

Obsah

1 Implementace
- 1.1 První vydání buňky na 90 nm CMOS
- 1.2 Budoucí vydání v CMOS
  - 1.2.1 Vyhlídky na 45 nm
  - 1.2.2 Vyhlídky nad 45 nm
2 Reference

Implementace

První vydání buňky na 90 nm CMOS

IBM v tomto procesu zveřejnila informace týkající se dvou různých verzí buňky, časného technického vzorku označeného DD1 a vylepšené verze označené DD2 určené pro produkci.

**Známé buněčné varianty v 90 nm procesu**
Označení	Die oblast	První zveřejněno	Zvýšení
DD1	221 mm²	ISSCC 2005
DD2	235 mm²	Cool Chips duben 2005	vylepšené jádro OOP

Hlavním vylepšením v DD2 bylo malé prodloužení matrice pro uložení většího jádra PPE, o kterém se uvádí, že „obsahuje více zdrojů pro provádění SIMD / vektorů“. Některé předběžné informace vydané společností IBM odkazují na variantu DD1. Výsledkem je, že některé rané žurnalistické účty schopností buňky se nyní liší od produkčního hardwaru.

Buňkový půdorys

[Powerpoint materiál doprovázející prezentaci STI od Dr. Petera Hofstee], obsahuje fotografii přetaženého nástroje DD2 Cell s hranicemi funkčních jednotek, které jsou také titulkem, což odhaluje rozdělení křemíkové oblasti podle funkční jednotky takto:

**Jednotky funkce buňky a stopa**
Jednotka funkce buňky	Plocha (%)	Popis
Rozhraní XDR	5.7	rozhraní do systémové paměti Rambus
řadič paměti	4.4	spravuje externí paměť a L2 cache
512 KiB L2 cache	10.3	mezipaměť paměti pro OOP
OOP jádro	11.1	Procesor PowerPC
test	2.0	nespecifikováno "testovat a dekódovat logiku"
EIB	3.1	procesory propojující prvky sběrnice
SPE (každá) x 8	6.2	synergický koprocesní prvek
Řadič I / O	6.6	externí I / O logika
Rambus FlexIO	5.7	externí signalizace pro I / O piny

SPE půdorys

Další podrobnosti týkající se interní implementace SPE zveřejnili inženýři IBM, včetně Petera Hofstee , hlavního architekta IBM pro prvek synergického zpracování, ve vědecké publikaci IEEE.

Tento dokument obsahuje fotografii 2,54 x 5,81 mm SPE implementovanou v 90 nm SOI . V této technologii obsahuje SPE 21 milionů tranzistorů, z nichž 14 milionů je obsaženo v polích (termín pravděpodobně označuje registrační soubory a místní úložiště) a 7 milionů tranzistorů je logických. Tato fotografie je přetažena hranicemi funkčních jednotek, které jsou také titulkem, což odhaluje rozdělení oblasti křemíku podle funkční jednotky následovně:

**Funkční jednotky a stopa SPU**
Funkční jednotka SPU	Plocha (%)	Popis	Trubka
jediná přesnost	10.0	jedna přesná jednotka provádění FP	dokonce
dvojnásobná přesnost	4.4	jednotka s dvojitou přesností FP	dokonce
jednoduché pevné	3.25	jednotka s pevným bodem	dokonce
kontrola vydání	2.5	krmí prováděcí jednotky
vpřed makro	3.75	krmí prováděcí jednotky
GPR	6.25	univerzální registrační soubor
obměňovat	3.25	permutační exekuční jednotka	zvláštní
větev	2.5	pobočková exekuční jednotka	zvláštní
kanál	6.75	kanálové rozhraní (tři samostatné bloky)	zvláštní
LS0-LS3	30.0	čtyři 64 KiB bloky místního obchodu	zvláštní
MMU	4,75	jednotka správy paměti
DMA	7.5	jednotka přímého přístupu do paměti
BIU	9.0	jednotka rozhraní sběrnice
RTB	2.5	integrovaný testovací blok pole (ABIST)
ATO	1.6	atomová jednotka pro atomové aktualizace DMA
HB	0,5	obskurní

Pochopení odesílacích kanálů je důležité k napsání efektivního kódu. V architektuře SPU lze odeslat (spustit) dvě instrukce v každém hodinovém cyklu pomocí expedičních kanálů označených jako sudé a liché . Dvě trubky poskytují různé prováděcí jednotky, jak je uvedeno v tabulce výše. Když to IBM rozdělilo, většina aritmetických instrukcí se provádí na sudém kanálu, zatímco většina paměťových instrukcí se provádí na lichém kanálu. Jednotka permutace je úzce spojena s paměťovými instrukcemi, protože slouží k zabalení a vybalení datových struktur umístěných v paměti do formátu SIMD s více operandy, který SPU počítá nejefektivněji.

Na rozdíl od jiných návrhů procesorů poskytujících odlišné prováděcí kanály může každá instrukce SPU odeslat pouze v jednom určeném kanálu. V konkurenčních návrzích může být navrženo více než jedno potrubí pro zpracování extrémně běžných pokynů, jako je přidání , což umožňuje současné provádění více dvou nebo více těchto pokynů, což může sloužit ke zvýšení efektivity nevyvážených pracovních toků. V souladu s extrémně spartánskou filozofií designu není pro SPU několikanásobně zajištěno provedení.

Porozumění omezením restriktivního návrhu dvou kanálů je jedním z klíčových konceptů, které musí programátor pochopit, aby mohl napsat efektivní SPU kód na nejnižší úrovni abstrakce. Pro programátory pracující na vyšších úrovních abstrakce dobrý kompilátor automaticky vyváží souběžnost potrubí, kde je to možné.

Síla a výkon SPE

Jak bylo testováno společností IBM při náročném zatížení transformací a osvětlením [průměrné IPC 1,4], je výkonnostní profil této implementace pro jeden procesor SPU kvalifikován takto:

**Vztah rychlosti a teploty**
Napětí (V)	Frekvence (GHz)	Výkon (W)	Die Temp (C)
0,9	2.0	1	25
0,9	3.0	2	27
1.0	3.8	3	31
1.1	4.0	4	38
1.2	4.4	7	47
1.3	5.0	11	63

Položka pro provoz 2,0 GHz při 0,9 V představuje konfiguraci s nízkou spotřebou. Další položky ukazují špičkovou stabilní pracovní frekvenci dosaženou při každém přírůstku napětí. Obecně platí, že v obvodech CMOS stoupá ztrátový výkon v hrubém vztahu k V ^ 2 * F, druhé mocnině napětí krát pracovní frekvenci.

Ačkoli měření výkonu poskytovaná autory IBM postrádají přesnost, vyjadřují dobrý pocit z celkového trendu. Tyto obrázky ukazují, že součást je schopna běžet nad 5 GHz za podmínek zkušební laboratoře - i když při teplotě matrice příliš vysoké pro standardní komerční konfigurace. První komerčně dostupné procesory Cell byly společností IBM hodnoceny na 3,2 GHz, což je provozní rychlost, kde tento graf naznačuje teplotu matrice SPU v pohodlné blízkosti 30 stupňů.

Všimněte si, že jeden SPU představuje 6% oblasti matrice procesoru buňky. Údaje o výkonu uvedené v tabulce výše představují jen malou část celkového rozpočtu na energii.

IBM veřejně oznámila svůj záměr implementovat Cell na budoucí technologii pod uzlem 90 nm za účelem zlepšení spotřeby energie. Snížená spotřeba energie by mohla potenciálně umožnit zvýšení stávajícího designu na 5 GHz nebo vyšší, aniž by došlo k překročení tepelných omezení stávajících produktů.

Buňka při 65 nm

První zmenšení buňky bylo v 65 nm uzlu. Redukce na 65 nm snížila stávající matrici 230 mm² na základě procesu 90 nm na polovinu její současné velikosti, přibližně 120 mm², což výrazně snížilo také výrobní náklady IBM.

Dne 12. března 2007 společnost IBM oznámila, že ve výrobě East Fishkill začala vyrábět 65 nm buňky. Vyráběné čipy jsou zjevně pouze pro vlastní servery IBM typu blade , které jako první získaly 65 nm buňky. Společnost Sony představila v listopadu 2007 třetí generaci PS3, model s kapacitou 40 GB bez kompatibility s PS2, u kterého bylo potvrzeno použití 65 nm buňky. Díky zmenšenému článku se snížila spotřeba energie z 200 W na 135 W.

Zpočátku bylo známo pouze to, že 65 nm-buňky taktují až na 6 GHz a běží na napětí jádra 1,3 V, jak je ukázáno na ISSCC 2007. To by dalo čipu teoretický špičkový výkon 384 GFLOPS v přesnosti čtvrtiny FP8 ( 48 GFLOP v duální přesnosti FP64), což je významné zlepšení vrcholu 204,8 GFLOPS (duální přesnost 25,6 GFLOP v dvoustupňovém režimu FP64), který by buňka o délce 3,2 GHz o frekvenci 90 nm mohla poskytnout s 8 aktivními SPU. IBM dále oznámila, že implementovala nové funkce pro úsporu energie a duální napájení pro pole SRAM. Tato verze ještě nebyla dlouho zmiňovanou „Cell +“ s vylepšeným výkonem Double Precision s plovoucí desetinnou čárkou, která poprvé spatřila světlo světa v polovině roku 2008 v superpočítači Roadrunner v podobě blade QS22 PowerXCell. Ačkoli IBM hovořila a dokonce dříve ukazovala vyšší taktované buňky, rychlost hodin zůstala konstantní na 3,2 GHz, a to i pro Roadrunner „Cell +“ s povolenou dvojitou přesností. Udržováním konstantní rychlosti hodin se IBM místo toho rozhodla snížit spotřebu energie. Klastry PowerXCell jsou dokonce nejlepší klastry IBM Blue Gene (371 MFLOPS / Watt), které jsou již mnohem energeticky účinnější než klastry vyrobené z konvenčních procesorů (265 MFLOPS / Watt a nižší).

Budoucí vydání v CMOS

Vyhlídky na 45 nm

Na ISSCC 2008 IBM oznámila Cell v 45 nm uzlu. IBM uvedla, že bude vyžadovat o 40 procent méně energie při stejné hodinové rychlosti než její předchůdce 65 nm a že oblast matrice se zmenší o 34 procent. 45 nm buňka vyžaduje méně chlazení a umožňuje levnější výrobu, a to i díky použití mnohem menšího chladiče. Hromadná výroba byla původně zahájena koncem roku 2008, ale byla přesunuta na začátek roku 2009 .

Vyhlídky nad 45 nm

Společnosti Sony, IBM a Toshiba oznámily, že v lednu 2006 začnou pracovat na buňce o velikosti pouhých 32 nm, ale jelikož se proces zmenšování v továrnách obvykle odehrává v globálním měřítku, a nikoli v individuálním měřítku, šlo pouze o veřejný závazek, 32 nm.

Languages

In other projects