100 000 rublů - R10000

NEC VR10000.

R10000 s kódovým označením "T5", je RISC implementace mikroprocesor MIPS IV instrukční sady architektury (ISA), vyvinutý společností MIPS Technologies, Inc. (MTI), pak rozdělení Silicon Graphics, Inc. (SGI). Hlavními designéry jsou Chris Rowen a Kenneth C. Yeager. R10000 mikroarchitektury je známá jako Andách, což je zkratka pro architekturu s Non-sekvenční Dynamic Execution Scheduling. R10000 z velké části nahrazuje R8000 v high-endu a R4400 jinde. MTI byla bezvadná polovodičová společnost ; R10000 vyrobila společnost NEC aToshiba . Předchozí výrobci mikroprocesorů MIPS, jako je Integrated Device Technology (IDT) a tři další, nevyráběli R10000, protože jeho výroba byla dražší než R4000 a R4400.

Dějiny

R10000 byl představen v lednu 1996 s hodinovými frekvencemi 175 MHz a 195 MHz. Verze 150 MHz byla představena v produktové řadě O2 v roce 1997, ale krátce poté byla ukončena z důvodu preference zákazníků pro verzi 175 MHz. R10000 nebyl k dispozici ve velkých objemech až později v tomto roce kvůli problémům s výrobou ve slévárnách MIPS. Verze 195 MHz byla po celý rok 1996 nedostatečná a v důsledku toho měla cenu 3 000 USD.

Dne 25. září 1996 společnost SGI oznámila, že R10000 vyrobené společností NEC v období od března do konce července téhož roku byly vadné, čerpající příliš mnoho proudu a způsobující vypnutí systémů během provozu. Společnost SGI připomněla 10 000 R10 000, které byly v důsledku toho dodány v systémech, což ovlivnilo výnosy společnosti.

V roce 1997 umožnila verze R10000 vyrobená v 0,25 µm procesu mikroprocesoru dosáhnout 250 MHz.

Uživatelé

Uživatelé R10000 zahrnují:

Popis

Výstřel NEC VR10000.

R10000 je čtyřcestný superskalární design, který implementuje přejmenování registrů a provádí pokyny mimo pořadí . Jeho design je odklonem od předchozích mikroprocesorů MTI, jako je R4000, což je mnohem jednodušší skalární design v pořadí, který do značné míry spoléhá na vysoký taktovací výkon.

R10000 načte čtyři instrukce v každém cyklu z mezipaměti instrukcí . Tyto instrukce jsou dekódovány a poté umístěny do celých front, plovoucí desetinné čárky nebo instrukcí načítání/ukládání v závislosti na typu instrukce. Dekódovací jednotce pomáhají předem dekódované instrukce z mezipaměti instrukcí, které ke každé instrukci připojí pět bitů, aby jednotka rychle identifikovala, ve které prováděcí jednotce se instrukce provádí, a přeskupila formát instrukce pro optimalizaci dekódování proces.

Každá z instrukčních front může přijímat až čtyři instrukce z dekodéru, čímž se vyhnete jakémukoli zúžení. Fronty instrukcí vydávají své instrukce svým prováděcím jednotkám dynamicky v závislosti na dostupnosti operandů a prostředků. Každá z front kromě fronty načítání/ukládání může vydat až dvě instrukce v každém cyklu svým prováděcím jednotkám. Fronta načítání/ukládání může vydat pouze jednu instrukci. R10000 tak může vydat až pět pokynů v každém cyklu.

Celočíselná jednotka

Celočíselná jednotka se skládá ze souboru celočíselného registru a tří kanálů , dvou celých čísel a jednoho úložiště zatížení. Soubor celočíselného registru je široký 64 bitů a obsahuje 64 položek, z nichž 32 jsou architektonické registry a 32 jsou přejmenovací registry, které implementují přejmenování registru. Soubor registru má sedm portů pro čtení a tři porty pro zápis. Oba celočíselné kanály mají sčítač a logickou jednotku. Ovšem pouze první potrubí má řadicí páku a hardware pro potvrzení predikce podmíněných větví. Druhý kanál slouží k přístupu k multiplikátoru a rozdělovači. Násobky jsou propojeny a mají latenci šesti cyklů pro 32bitová celá čísla a deset pro 64bitová celá čísla. Divize není propojena. Dělič používá neobnovující algoritmus, který produkuje jeden bit za cyklus. Latence pro 32bitové a 64bitové dělení jsou 35, respektive 67 cyklů.

Jednotka s plovoucí desetinnou čárkou

Jednotka s plovoucí desetinnou čárkou (FPU) se skládá ze čtyř funkčních jednotek, sčítače, multiplikátoru, dělicí jednotky a jednotky odmocniny. Sčítačka a multiplikátor jsou propojeny, ale jednotky dělení a odmocniny nikoli. Sčítání a násobení má latenci tří cyklů a sčítač a multiplikátor mohou v každém cyklu přijmout novou instrukci. Dělící jednotka má latenci 12 nebo 19 cyklů v závislosti na tom, zda je dělení jednoduchá přesnost nebo dvojitá přesnost.

Druhá odmocnina provede odmocninu a vzájemnou odmocninu . Odmocninové instrukce mají latenci 18 nebo 33 cyklů pro jednoduchou přesnost nebo dvojitou přesnost. Každou 20 nebo 35 cyklů lze pro dělenou jednotku vydat novou odmocninu s jednoduchou přesností a dvojitou přesností. Reciproční odmocniny mají delší latence, 30 až 52 cyklů pro jednoduchou přesnost (32bitová) a dvojitou přesnost (64bitová).

Soubor registru s plovoucí desetinnou čárkou obsahuje šedesát čtyři 64bitových registrů, z nichž je třicet dva architektonických a zbývající jsou přejmenovací registry. Sčítač má své vlastní vyhrazené porty pro čtení a zápis, zatímco multiplikátor sdílí své s děličem a druhou odmocninou.

Jednotky dělení a odmocniny používají algoritmus SRT . MIPS IV ISA má instrukci násobení - přidání. Tato instrukce je implementována R10000 s bypassem-výsledek násobení může obejít soubor registru a být doručen do přidávacího kanálu jako operand, nejedná se tedy o fúzované násobení – přidání a má čtyřcyklovou latenci.

Kešky

R10000 má dvě poměrně velké mezipaměti na čipu, mezipaměť instrukcí 32 kB a mezipaměť dat 32 kB. Mezipaměť instrukcí je obousměrná set-asociativní a má velikost řádku 128 bajtů. Instrukce jsou částečně dekódovány připojením čtyř bitů ke každé instrukci (které mají délku 32 bitů), než jsou umístěny do mezipaměti.

Mezipaměť dat 32 kB je duálně portována prostřednictvím obousměrného prokládání. Skládá se ze dvou bank 16 KB a každá banka je obousměrně set-asociativní. Mezipaměť má 64bajtové řádky, používá protokol zpětného zápisu a je virtuálně indexována a fyzicky označena, aby bylo možné indexovat mezipaměť ve stejném cyklu hodin a zachovat soudržnost se sekundární mezipamětí.

Externí sekundární sjednocená mezipaměť podporovala kapacity mezi 512 KB a 16 MB. Je implementován pomocí komoditních synchronních statických pamětí s náhodným přístupem (SSRAM). Ke mezipaměti se přistupuje prostřednictvím vlastní 128bitové sběrnice, která je chráněna 9bitovým kódem pro opravu chyb (ECC). Cache a sběrnice pracují na stejné hodinové frekvenci jako R10000, jejíž maximální frekvence byla 200 MHz. Na 200 MHz poskytovala sběrnice špičkovou šířku pásma 3,2 GB/s. Mezipaměť je obousměrně nastavená asociativně, ale aby se předešlo vysokému počtu pinů, R10000 předpovídá, jakým způsobem se přistupuje.

Adresování

MIPS IV je 64bitová architektura, ale aby se snížily náklady, R10000 neimplementuje celou fyzickou nebo virtuální adresu . Místo toho má 40bitovou fyzickou adresu a 44bitovou virtuální adresu, takže je schopen adresovat 1 TB fyzické paměti a 16 TB virtuální paměti .

Lavinový systémový autobus

R10000 používá sběrnici Avalanche , 64bitovou sběrnici, která pracuje na frekvencích až 100 MHz. Avalanche je multiplexovaná adresová a datová sběrnice, takže při 100 MHz poskytuje maximální teoretickou šířku pásma 800 MB/s, ale její maximální šířka pásma je 640 MB/s, protože k přenosu adres vyžaduje určité cykly.

Řadič systémového rozhraní podporuje bezlepkové symetrické multiprocesing (SMP) až čtyř mikroprocesorů. Systémy využívající R10000 s externí logikou lze škálovat na stovky procesorů. Příkladem takového systému je Origin 2000 .

Výroba

R10000 se skládá z přibližně 6,8 milionu tranzistorů, z nichž přibližně 4,4 milionu je obsaženo v primárních cache. Matrice měří 16,640 x 17,934 mm, pro oblast raznice 298,422 mm 2 . Je vyroben v 0,35 µm procesu a zabalen do 599-padového keramického pole grid grid (LGA). Než byla R10000 představena, zpráva o mikroprocesoru , pokrývající fórum mikroprocesorů z roku 1994, hlásila, že byla zabalena do 527-pinového keramického mřížkového pole (CPGA); a že prodejci také zkoumali možnost použití 339-pinového vícečipového modulu (MCM) obsahujícího mikroprocesorovou matici a 1 MB mezipaměti.

Deriváty

R10000 byl rozšířen o několik po sobě jdoucích derivátů. Všechny deriváty po R12000 mají svoji taktovací frekvenci co nejnižší, aby se udržel ztrátový výkon v rozsahu 15 až 20 W, takže je lze hustě zabalit do vysoce výkonných výpočetních systémů (HPC) společnosti SGI .

12 000 rublů

Výstřel NEC VR12000.

R12000 je derivátem R10000, který byl zahájen MIPS a dokončen SGI. Byl vyroben společnostmi NEC a Toshiba. Verze vyrobená společností NEC se nazývá VR12000. Mikroprocesor byl představen v listopadu 1998. Je dostupný na frekvencích 270, 300 a 360 MHz. R12000 byl vyvinut jako řešení mezery po zrušení projektu „Beast“, který měl dodat nástupce R10000. Mezi uživatele R12000 patří společnosti NEC, Siemens-Nixdorf , SGI a Tandem Computers (a později Compaq, po akvizici společnosti Tandem).

R12000 vylepšuje mikroarchitekturu R10000: vložením dalšího stupně potrubí pro zlepšení taktovací frekvence vyřešením kritické cesty; zvýšení počtu záznamů v tabulce historie větví, zlepšení predikce; modifikace instrukčních front tak, aby zohledňovaly věk instrukce ve frontě, což umožňuje provedení starších instrukcí před novějšími, pokud je to možné.

R12000 vyrobili společnosti NEC a Toshiba v 0,25 µm CMOS procesu se čtyřmi úrovněmi hliníkového propojení . Nové použití nového postupu neznamená, že R12000 byl jednoduchý smršťovač s vylepšenou mikroarchitekturou; rozložení matrice je optimalizováno tak, aby využívalo výhody 0,25 µm procesu. NEC vyrobený VR12000 obsahoval 7,15 milionu tranzistorů a měřil 15,7 x 14,6 mm (229,22 mm 2 ).

R12000A

R12000A je derivát R12000 vyvinutý společností SGI. Představený v červenci 2000, pracuje na 400 MHz a byl vyroben NEC 0,18 µm procesem s hliníkovými propojovacími články .

14 000 rublů

R14000 je dalším vývojem R12000 oznámeným v červenci 2001. R14000 pracuje na 500 MHz, což je umožněno 0,13 µm CMOS procesem s pěti úrovněmi měděného propojení , s nimiž je vyroben. Nabízí vylepšení mikroarchitektury R12000 podporou SSRAM s dvojitou datovou rychlostí (DDR) pro sekundární mezipaměť a systémovou sběrnici 200 MHz.

R14000A

R14000A je dalším vývojem R14000 oznámeným v únoru 2002. Pracuje na 600 MHz, rozptyluje přibližně 17 W a byl vyroben společností NEC Corporation v 0,13 µm CMOS procesu se sedmi úrovněmi měděného propojení.

16 000 rublů

R16000 s kódovým názvem „N0“ je poslední derivát R10000. Je vyvinut společností SGI a vyrobeno společností NEC v procesu 0,11 µm s osmi úrovněmi propojení mědi. Mikroprocesor byl představen dne 9. ledna 2003, debutoval na frekvenci 700 MHz pro palivo a byl také použit v jejich Onyx4 Ultimate Vision . V dubnu 2003 byla pro Origin 350 představena verze 600 MHz . Vylepšení jsou 64 kB instrukcí a datové mezipaměti.

R16 000A

R16000A označuje mikroprocesory R16000 s taktovací frekvencí vyšší než 700 MHz. První R16000A je verze 800 MHz, představená 4. února 2004. Později byla představena verze 900 MHz a tato verze byla po nějakou dobu nejrychleji veřejně známým R16000A - SGI později odhalilo, že vybraným bylo dodáno 1,0 GHz R16000 zákazníky. Uživatelé R16000 zahrnovali společnosti HP a SGI. SGI použila mikroprocesor na svých pracovních stanicích Fuel a Tezro ; a servery a superpočítače Origin 3000 . Společnost HP použila R16000A na svých serverech odolných proti poruchám NonStop Himalaya S-Series zděděných od společnosti Tandem přes Compaq.

18 000 rublů

R18000 je zrušený další vývoj mikroarchitektury R10000, který přinesl zásadní vylepšení společnosti Silicon Graphics, Inc. popsané na sympoziu Hot Chips v roce 2001. R18000 byl navržen speciálně pro servery a superpočítače ccNUMA společnosti SGI. Každý uzel by měl dva R18000 připojené přes multiplexovanou sběrnici k systémovému řadiči, který by propojil mikroprocesory s jejich lokální pamětí a zbytkem systému přes síť hyper krychlí.

R18000 vylepšil fronty instrukcí s plovoucí desetinnou čárkou a zrevidoval jednotku s plovoucí desetinnou čárkou tak, aby obsahovala dvě jednotky pro násobení a přidání, čímž se čtyřnásobek maximálního počtu FLOPS. Dělení a odmocnina by byly prováděny v samostatných nepropojených jednotkách souběžně s jednotkami násobení-přidání. Výrazně přepracováno bylo také systémové rozhraní a hierarchie paměti. Mělo by to 52bitovou virtuální adresu a 48bitovou fyzickou adresu. Obousměrná multiplexovaná adresová a datová systémová sběrnice dřívějších modelů by byla nahrazena dvěma jednosměrnými linkami DDR, 64bitovou multiplexovanou adresou a cestou pro zápis a 128bitovou cestou pro čtení. Cesty lze sdílet s jiným R18000 prostřednictvím multiplexování. Sběrnici lze také konfigurovat v konfiguraci SysAD nebo Avalanche pro zpětnou kompatibilitu se systémy R10000.

R18000 by měl mít 1 MB čtyřsměrně nastavenou asociativní sekundární mezipaměť, která by měla být zahrnuta on-die; doplněna volitelnou terciární mezipamětí postavenou z jedné datové rychlosti (SDR) nebo dvojité datové rychlosti (DDR) SSRAM nebo DDR SDRAM s kapacitami 2 až 64 MB. Mezipaměť L3 by měla své značky mezipaměti, ekvivalentní 400 kB, umístěné na ploše, aby se snížila latence. Ke mezipaměti L3 by se přistupovalo prostřednictvím 144bitové sběrnice, z nichž 128 bitů je pro data a 16 bitů pro ECC. Taktovací frekvence mezipaměti L3 by byla programovatelná.

R18000 měl být vyroben v procesu NEC UX5, 0,13 µm CMOS procesu s devíti úrovněmi propojení mědi . Aby bylo hustě zabaleno do systémů, používalo by napájení 1,2 V a odvádělo méně tepla než současné serverové mikroprocesory.

Poznámky

Reference