Maxwell (mikroarchitektura) - Maxwell (microarchitecture)

Nvidia Maxwell
Datum vydání únor 2014
Proces výroby TSMC 28 nm
Dějiny
Předchůdce Kepler
Nástupce Pascal

Maxwell je kódové označení pro mikroarchitekturu GPU vyvinutou společností Nvidia jako nástupce mikroarchitektury Kepler . Maxwell architektura byla zavedena v pozdějších modelech řady GeForce 700 a je také použit v řadě GeForce 800 , série GeForce 900 a Quadro série Mxxx, stejně jako některé Jetson produkty, všechny vyráběny s TSMC je nm 28 procesu.

První produkty na bázi Maxwell byly GeForce GTX 750 a GeForce GTX 750 Ti. Oba byly vydány 18. února 2014, oba s kódovým číslem čipu GM107. Dříve GPU řady GeForce 700 používaly čipy Kepler s kódovými čísly G K 1xx. GPU GM10x se také používají v modelech GeForce 800M a Quadro Kxxx. Druhá generace produktů na bázi Maxwell byla představena 18. září 2014 s GeForce GTX 970 a GeForce GTX 980, následovaná GeForce GTX 960 22. ledna 2015, GeForce GTX Titan X 17. března 2015 a GeForce GTX 980 Ti 1. června 2015. Tyto GPU mají čísla čipových kódů GM 2 0x.

Společnost Maxwell představila vylepšený design Streaming Multiprocessor (SM), který zvyšoval energetickou účinnost, šestou a sedmou generaci PureVideo HD a CUDA Compute Capability 5.2.

Architektura je pojmenována po Jamesi Clerkovi Maxwellovi , zakladateli teorie elektromagnetického záření.

Architektura Maxwell se v systému používá na čipu (SOC), procesoru mobilní aplikace, Tegra X1 .

První generace Maxwell (GM10x)

Čip Maxwell 107 na grafické kartě GTX 750 Ti s odstraněným chladičem.

První generace Maxwell GPU (GM107 / GM108) byly vydány jako GeForce GTX 745, GTX 750/750 Ti, GTX 850M / 860M (GM107) a GeForce 830M / 840M (GM108). Tyto nové čipy představily několik dalších funkcí zaměřených na spotřebitele, protože Nvidia se místo toho více zaměřila na zvýšení energetické účinnosti GPU. Mezipaměť L2 byla zvýšena z 256 KiB na Kepleru na 2 MiB na Maxwellu, což snižuje potřebu větší šířky pásma paměti. V souladu s tím byla paměťová sběrnice snížena ze 192 bitů na Kepleru (GK106) na 128 bitů, což snížilo oblast matrice, náklady a odběr energie.

Přenosový multiprocesorový design „SMX“ od společnosti Kepler byl také přestavěn a rozdělen, přičemž pro Maxwell byl přejmenován na „SMM“. Struktura plánovače warpů byla zděděna od Keplera, přičemž texturové jednotky a jádra FP64 CUDA byla stále sdílena, ale rozložení většiny prováděcích jednotek bylo rozděleno tak, aby každý plánovač warpů v SMM ovládal jednu sadu 32 jader FP32 CUDA, jednu sadu 8 jednotek nakládání / ukládání a jedna sada 8 jednotek speciálních funkcí. To je v kontrastu s Keplerem, kde každý SMX měl 4 plánovače, které plánovaly do sdíleného fondu prováděcích jednotek. Ten si vynutil použití příčníku v celé SMX, který používal zbytečnou energii, aby umožnil sdílení všech prováděcích jednotek. Naopak modulárnější design společnosti Maxwell umožňuje jemnější a efektivnější alokaci zdrojů, což šetří energii, když pracovní zátěž není pro sdílené zdroje optimální. Nvidia tvrdí, že 128 CUDA jádro SMM má 90% výkonu 192 CUDA jádra SMX, zatímco účinnost se zvyšuje o faktor 2. Také každý grafický procesorový cluster neboli GPC obsahuje až 4 jednotky SMX v Kepleru a až 5 SMM jednotek v první generaci Maxwell.

GM107 také podporuje CUDA Compute Capability 5.0 ve srovnání s 3,5 na GPU GK110 / GK208 a 3,0 na GPU GK10x. Dynamic Parallelism a HyperQ, dvě funkce v GPU GK110 / GK208, jsou také podporovány v celé produktové řadě Maxwell. Maxwell také poskytuje nativní sdílené paměti atomové operace pro 32bitová celá čísla a nativní sdílenou paměť 32bitové a 64bitové porovnávání a swap (CAS), které lze použít k implementaci dalších atomových funkcí.

Kodér videa Nvidia, NVENC, byl upgradován na 1,5 až 2krát rychlejší než na GPU založených na Kepleru, což znamená, že může kódovat video šestkrát až osmkrát rychlostí přehrávání. Nvidia také požaduje osm až desetinásobné zvýšení výkonu v dekódování videa PureVideo Feature Set E kvůli mezipaměti video dekodéru, spojené se zvýšením efektivity paměti. Nicméně, H.265 nepodporuje plné hardwarové dekódování první generace Maxwell GPU, se spoléhat na kombinaci hardwaru a softwaru dekódování. Při dekódování videa se na GPU Maxwell používá nový stav nízké spotřeby „GC5“, který šetří energii.

U grafických procesorů Maxwell se předpokládalo, že používají vykreslování na základě dlaždic , ale ve skutečnosti používají kachlová mezipaměť.

Bramborové hranolky

  • GM107
  • GM108

Druhá generace Maxwell (GM20x)

Záběr GPU GM200 nalezený uvnitř karet GeForce GTX 980 Ti

GPU Maxwell druhé generace představily několik nových technologií: Dynamic Super Resolution, Delta Generation Color Compression třetí generace, vzorkování programování více pixelů, Nvidia VXGI (Real-Time-Voxel- Global Illumination ), VR Direct, akcelerace multi-projekce, vzorkování více snímků Anti-Aliasing (MFAA) (nicméně byla odstraněna podpora pro Coverage-Sampling Anti-Aliasing (CSAA)) a rozhraní Direct3D12 API na úrovni funkcí 12_1. Byla přidána také podpora HDMI 2.0.

Poměr ROP k řadiči paměti byl změněn z 8: 1 na 16: 1. Některé z ROP jsou však v GTX 970 obecně nečinné, protože není k dispozici dostatek povolených SMM, které by jim umožnily pracovat, což snižuje jeho maximální rychlost plnění.

Polymorph Engine zodpovědný za mozaikování byl upgradován na verzi 3.0 v grafických procesorech Maxwell druhé generace druhé generace, což mělo za následek lepší výkon mozaiky na jednotku / hodiny.

Druhá generace Maxwell má také až 4 SMM jednotky na GPC, ve srovnání s 5 SMM jednotkami na GPC.

GM204 podporuje CUDA Compute Capability 5.2 (ve srovnání s 5,0 na GP10 GM107 / GM108, 3,5 na GPU GK110 / GK208 a 3,0 na GPU GK10x).

GPU GM20x mají upgradovaný NVENC, který podporuje kódování HEVC a přidává podporu pro rozlišení kódování H.264 při 1440p / 60FPS a 4K / 60FPS (ve srovnání s NVENC na GPU Max10 první generace GM10x, které podporovaly pouze kódování H.264 1080p / 60FPS).

Po stížnostech spotřebitelů Nvidia odhalila, že je schopna deaktivovat jednotlivé jednotky, z nichž každá obsahuje 256 kB L2 cache a 8 ROP, aniž by deaktivovala celé řadiče paměti. To se děje za cenu rozdělení paměťové sběrnice na vysokorychlostní a nízkorychlostní segmenty, ke kterým nelze při čtení přistupovat současně, protože jednotka L2 / ROP spravující oba řadiče GDDR5 sdílí zpětný kanál pro čtení a datovou sběrnici pro zápis mezi řadiči GDDR5. To znemožňuje současné čtení z obou řadičů GDDR5 nebo simultánní zápis do obou řadičů GDDR5. Toto se používá v GeForce GTX 970, kterou lze tedy popsat jako 3,5 GB ve vysokorychlostním segmentu na 224bitové sběrnici a 512 MB v nízkorychlostním segmentu na 32bitové sběrnici. Maximální rychlosti takového GPU lze stále dosáhnout, ale maximální rychlost je dosažitelná pouze v případě, že jeden segment provádí operaci čtení, zatímco druhý segment provádí operaci zápisu.

Bramborové hranolky

  • GM200
  • GM204
  • GM206

Výkon

Teoretický výkon zpracování jedné procesory Maxwell GPU ve FLOPS se počítá jako 2 (operace na instrukci FMA na jádro CUDA na cyklus) × počet jader CUDA × rychlost hodin jádra (v Hz).

Teoretický výkon zpracování s dvojnásobnou přesností u GPU Maxwell je 1/32 výkonu s jedinou přesností (který byl zaznamenán jako velmi nízký ve srovnání s předchozí generací Kepler ).

Nástupce

Nástupce Maxwella má kódové označení Pascal . Architektura Pascal nabízí jednotnou paměť s vyšší šířkou pásma a NVLink .

Viz také

Reference