NVLink - NVLink

NVLink
Výrobce	Nvidia
Typ	Multi- GPU a CPU technologie
Předchůdce	Škálovatelné rozhraní rozhraní

<The šablony Infobox informace Přístroj je považován za slučování . ›

NVLink je drátové sériové vícepruhové komunikační spojení blízkého dosahu vyvinuté společností Nvidia . Na rozdíl od PCI Express může zařízení sestávat z více NVLinků a zařízení používají ke komunikaci místo centrálního rozbočovače síťovou síť . Protokol byl poprvé oznámen v březnu 2014 a využívá proprietární vysokorychlostní signalizační propojení (NVHS).

Zásada

NVLink je drátový komunikační protokol pro polovodičovou komunikaci blízkého dosahu vyvinutý společností Nvidia, který lze použít pro přenos dat a řídicích kódů v systémech procesorů mezi CPU a GPU a výhradně mezi GPU. NVLink specifikuje připojení point-to-point s datovými rychlostmi 20, 25 a 50 Gbit/s (v1.0/v2.0/v3.0 resp.) Na diferenciální pár. Osm diferenciálních párů tvoří „dílčí odkaz“ a dva „dílčí odkazy“, jeden pro každý směr, tvoří „odkaz“. Celková datová rychlost pro dílčí odkaz je 25 GByt/s a celková datová rychlost pro odkaz je 50 GByt/s. Každý GPU V100 podporuje až šest odkazů. Každý GPU je tedy schopen podporovat až 300 GByte/s v celkové obousměrné šířce pásma. Dosud představené produkty NVLink se zaměřují na vysoce výkonný aplikační prostor. NVLink 3.0, oznámený 14. května 2020, zvyšuje rychlost přenosu dat na diferenciální pár z 25 Gbit/s na 50 Gbit/s při současném snížení počtu párů na NVLink na polovinu z 8 na 4. S 12 odkazy pro GPU A100 na bázi Ampere to přináší celková šířka pásma až 600 GB/s.

Výkon

Následující tabulka ukazuje srovnání základních metrik na základě standardních specifikací:

Propojit	Přenosová rychlost	Kód linky	Efektivní rychlost užitečného zatížení na jízdní pruh a směr	Maximální celková délka jízdního pruhu (PCIe: včetně 5 "pro desky plošných spojů)	Realizováno v designu
PCIe 1.x	2,5 GT/s	8b/10b	~ 0,25 GB/s	20 "= ~ 51 cm
PCIe 2.x	5 GT/s	8b/10b	~ 0,5 GB/s	20 "= ~ 51 cm
PCIe 3.x	8 GT/s	128b/130b	~ 1 GB/s	20 "= ~ 51 cm	Pascal , Volta , Turing
PCIe 4.0	16 GT/s	128b/130b	~ 2 GB/s	8−12 palců = ~ 20–30 cm	Volta na Xavieru (8x, 4x, 1x), Ampere , Power 9
PCIe 5.0	32 GT/s	128b/130b	~ 4 GB/s
PCIe 6.0	64 GT/s	128b/130b	~ 8 GB/s
NVLink 1.0	20 Gbit/s		~ 2,5 GB/s		Pascal , výkon 8+
NVLink 2.0	25 Gbit/s		~ 3,125 GB/s		Volta , NV Přepínač pro Volta Power 9
NVLink 3.0	50 Gbit/s		~ 6,25 GB/s		Ampere , NVSwitch pro Ampere
NVLink 4.0	?? Gbit/s		~?. ?? GB/s		CPU centra Nvidia Grace Datacenter/Server, mikroarchitektura Nvidia GPU příští generace

Následující tabulka ukazuje srovnání příslušných parametrů sběrnice pro polovodiče v reálném světě, které všechny nabízejí NVLink jako jednu ze svých možností:

Polovodič	Varianta doručení na palubu /autobus	Propojit	Rychlost přenosové technologie (na jízdní pruh)	Dráhy na dílčí odkaz (out + in)	Rychlost dat dílčího odkazu (podle směru dat)	Sub-link nebo jednotka Počet	Celková rychlost přenosu dat (out + in)	Celkem pruhy (out + in)	Celková rychlost přenosu dat (out + in)
Nvidia GP100	P100 SXM, P100 PCI-E	PCIe 3.0	08 GT/s	16 + 16 Ⓑ	128 Gbit/s = 16 GByt/s	1	016 + 016 GByt/s	32 Ⓒ	032 GB/s
Nvidia GV100	V100 SXM2, V100 PCI-E	PCIe 3.0	08 GT/s	16 + 16 Ⓑ	128 Gbit/s = 16 GByt/s	1	016 + 016 GByt/s	32 Ⓒ	032 GB/s
Nvidia TU104	GeForce RTX 2080 , Quadro RTX 5000	PCIe 3.0	08 GT/s	16 + 16 Ⓑ	128 Gbit/s = 16 GByt/s	1	016 + 016 GByt/s	32 Ⓒ	032 GB/s
Nvidia TU102	GeForce RTX 2080 Ti, Quadro RTX 6000/8000	PCIe 3.0	08 GT/s	16 + 16 Ⓑ	128 Gbit/s = 16 GByt/s	1	016 + 016 GByt/s	32 Ⓒ	032 GB/s
Nvidia Xavier	(obecný)	PCIe 4.0 Ⓓ 2 jednotky: x8 (duální) 1 jednotka: x4 (duální) 3 jednotky: x1	16 GT/s	08 + 08 Ⓑ 0 4 + 04 Ⓑ 1 + 010	128 Gbit/s = 16 GByte/s 64 Gbit/s = 08 GByt/s 16 Gbit/s = 02 GByte/s	Ⓓ 2 1 3	Ⓓ 032 + 032 GB/s 8 + 8 GB/s 6 + 6 GB/s 0000 0000	40 Ⓑ	80 GB/s
IBM Power9	(obecný)	PCIe 4.0	16 GT/s	16 + 16 Ⓑ	256 Gbit/s = 32 GByt/s	3	096 + 096 GByt/s	96	192 GByt/s
Nvidia GA100 Nvidia GA102	Ampér A100	PCIe 4.0	016 GT/s	16 + 16 Ⓑ	256 Gbit/s = 32 GByt/s	1	032 + 032 GByt/s	32 Ⓒ	064 GB/s
Nvidia GP100	P100 SXM, (není k dispozici s P100 PCI-E)	NVLink 1.0	20 GT/s	08 + 08 Ⓐ	160 Gbit/s = 20 GByt/s	4	080 + 080 GByt/s	64	160 GB/s
Nvidia Xavier	(obecný)	NVLink 1.0	20 GT/s	08 + 08 Ⓐ	160 Gbit/s = 20 GByt/s
IBM Power8+	(obecný)	NVLink 1.0	20 GT/s	08 + 08 Ⓐ	160 Gbit/s = 20 GByt/s	4	080 + 080 GByt/s	64	160 GB/s
Nvidia GV100	V100 SXM2 (není k dispozici s V100 PCI-E)	NVLink 2.0	25 GT/s	08 + 08 Ⓐ	200 Gbit/s = 25 GByt/s	6	150 + 150 GB/s	96	300 GB/s
IBM Power9	(obecný)	NVLink 2.0 (porty BlueLink)	25 GT/s	08 + 08 Ⓐ	200 Gbit/s = 25 GByt/s	6	150 + 150 GB/s	96	300 GB/s
NVSwitch pro Voltu	(obecné) (plně připojený přepínač 18x18)	NVLink 2.0	25 GT/s	08 + 08 Ⓐ	200 Gbit/s = 25 GByt/s	2 * 8 + 2 = 18	450 + 450 GByt/s	288	900 GB/s
Nvidia TU104	GeForce RTX 2080 , Quadro RTX 5000	NVLink 2.0	25 GT/s	08 + 08 Ⓐ	200 Gbit/s = 25 GByt/s	1	025 + 025 GByt/s	16	050 GB/s
Nvidia TU102	GeForce RTX 2080 Ti, Quadro RTX 6000/8000	NVLink 2.0	25 GT/s	08 + 08 Ⓐ	200 Gbit/s = 25 GByt/s	2	050 + 050 GByt/s	32	100 GB/s
Nvidia GA100	Ampér A100	NVLink 3.0	50 GT/s	04 + 04 Ⓐ	200 Gbit/s = 25 GByt/s	12	300 + 300 GByt/s	96	600 GB/s
Nvidia GA102	GeForce RTX 3090 Quadro RTX A6000	NVLink 3.0	28,125 GT/s	04 + 04 Ⓐ	112,5 Gbit/s = 14,0625 GByt/s	4	56,25 + 56,25 GByt/s	16	112,5 GByt/s
NVSwitch pro Ampere	(obecné) (plně připojený přepínač 18x18)	NVLink 3.0	50 GT/s	08 + 08 Ⓐ	400 Gbit/s = 50 GByt/s	2 * 8 + 2 = 18	900 + 900 GB/s	288	1 800 GB/s

Poznámka : Sloupce datové rychlosti byly zaokrouhleny aproximací přenosovou rychlostí, viz odstavec výkonu v reálném světě

Ⓐ : hodnota vzorku; Mělo by být možné sdružování dílčích odkazů NVLink

Ⓑ : hodnota vzorku; Měly by být možné i jiné zlomky pro využití pruhu PCIe

Poznámka : jedna (ne! 16) dráha PCIe přenáší data přes diferenciální pár

Dodatečně : různá omezení konečně možných kombinací mohou platit kvůli muxování pinů čipů a designu desek

jednotku dual : interface lze konfigurovat buď jako kořenový rozbočovač, nebo jako koncový bod

obecné : holý polovodič bez jakýchkoli specifických omezení pro návrh desky

Výkon v reálném světě lze určit uplatněním různých zapouzdřovacích daní a také míry využití. Ty pocházejí z různých zdrojů:

128b/130b kód linky (viz např. Přenos dat PCI Express pro verze 3.0 a vyšší)
Ovládací znaky odkazu
Hlavička transakce
Možnosti ukládání do vyrovnávací paměti (závisí na zařízení)
Využití DMA na straně počítače (závisí na jiném softwaru, obvykle zanedbatelné na benchmarcích)

Tato fyzická omezení obvykle snižují rychlost přenosu dat na 90 až 95% přenosové rychlosti. Benchmarky NVLink ukazují dosažitelnou přenosovou rychlost přibližně 35,3 Gbit/s (hostitel na zařízení) pro připojení NVLink 40 Gbit/s (2 subpásové uplinky) směrem k GPU P100 v systému, který je poháněn sadou procesorů IBM Power8 .

Použití s zásuvnými deskami

U různých verzí zásuvných desek (existuje ještě malý počet špičkových herních a profesionálních grafických desek GPU s touto funkcí), které odhalují další konektory pro jejich připojení do skupiny NVLink, podobný počet mírně se měnících, relativně kompaktních , Propojovací konektory na bázi DPS existují. Vzhledem k jejich fyzickému a logickému designu se obvykle spojí pouze desky stejného typu. U některých nastavení je třeba k dosažení plné rychlosti přenosu dat použít dvě stejné zástrčky. Nyní je typická zástrčka ve tvaru písmene U s jemným konektorem mřížky na každém z koncových tahů tvaru odvráceného od diváka. Šířka zástrčky určuje, jak daleko musí být zasunovací karty usazeny na hlavní desce hostitelského počítačového systému - vzdálenost pro umístění karty je obvykle určena shodnou zástrčkou (známé dostupné šířky zástrček jsou 3 až 5 slotů a také závisí na typu desky). Propojení je pro svůj strukturální design a vzhled často označováno jako Scalable Link Interface (SLI) z roku 2004, i když moderní design založený na NVLink má zcela odlišnou technickou povahu s odlišnými funkcemi v základních úrovních ve srovnání s předchozím designem. Hlášená zařízení v reálném světě jsou:

Quadro GP100 (dvojice karet bude využívat až 2 můstky; nastavení realizuje buď 2 nebo 4 připojení NVLink s rychlostí až 160 GB/s - může se podobat NVLink 1.0 s 20 GT/s)
Quadro GV100 (pár karet bude potřebovat až 2 můstky a realizovat až 200 GB/s - může to připomínat NVLink 2.0 s 25 GT/sa 4 odkazy)
GeForce RTX 2080 na bázi TU104 (s jediným můstkem „GeForce RTX NVLink-Bridge“)
GeForce RTX 2080 Ti na bázi TU102 (s jediným můstkem „GeForce RTX NVLink-Bridge“)
Quadro RTX 5000 na bázi TU104 (s jediným můstkem „NVLink“ až 50 GB/s - může se podobat NVLink 2.0 s 25 GT/sa 1 odkazem)
Quadro RTX 6000 na bázi TU102 (s jediným můstkem „NVLink HB“ až 100 GB/s - může se podobat NVLink 2.0 s 25 GT/s a 2 odkazy)
Quadro RTX 8000 na bázi TU102 (s jediným můstkem „NVLink HB“ až 100 GB/s - může se podobat NVLink 2.0 s 25 GT/s a 2 odkazy)

Servis softwaru a programování

U produktových řad Tesla, Quadro a Grid nabízí NVML-API (Nvidia Management Library API) sadu funkcí pro programové ovládání některých aspektů propojení NVLink v systémech Windows a Linux, jako je vyhodnocení komponent a verze spolu se stavem/chybou dotazování a monitorování výkonu. Dále s poskytnutím knihovny NCCL (Nvidia Collective Communications Library) bude vývojářům ve veřejném prostoru umožněno realizovat např. Výkonné implementace pro umělou inteligenci a podobná výpočetně náročná témata na vrcholu NVLink. Stránka „3D nastavení“ »„ Konfigurace SLI, Surround, PhysX “na ovládacím panelu Nvidia a ukázková aplikace CUDA „ simpleP2P “používají taková API k realizaci svých služeb s ohledem na jejich funkce NVLink. Na platformě Linux poskytuje aplikace příkazového řádku s podřízeným příkazem „nvidia-smi nvlink“ podobnou sadu pokročilých informací a ovládání.

Dějiny

Dne 5. dubna 2016 společnost Nvidia oznámila, že NVLink bude implementován do GP100 GP100 na bázi Pascal na bázi mikroarchitektury , jak se používá například v produktech Nvidia Tesla P100. Se zavedením vysoce výkonné počítačové základny DGX-1 bylo možné mít až osm modulů P100 v jediném rackovém systému připojeném až ke dvěma hostitelským CPU. Nosná deska (...) umožňuje vyhrazenou desku pro směrování připojení NVLink - každý P100 vyžaduje 800 pinů, 400 pro napájení PCIe + a dalších 400 pro NVLink, čímž se přidá až téměř 1600 tras desek pouze pro NVLinks (. ..). Každý procesor má přímé připojení ke 4 jednotkám P100 přes PCIe a každý P100 má po jednom NVLink ke 3 dalším P100 ve stejné skupině CPU plus jeden další NVLink k jednomu P100 v druhé skupině CPU. Každý NVLink (propojovací rozhraní) nabízí obousměrný 20 GB/s až 20 GB/s dolů, se 4 odkazy na GP100 GPU, pro celkovou šířku pásma 80 GB/s nahoru a dalších 80 GB/s dolů. NVLink podporuje směrování, takže v designu DGX-1 jsou pro každý P100 přímo dosažitelné celkem 4 z ostatních 7 P100 a zbývající 3 jsou dosažitelné pouze jedním skokem. Podle vyobrazení v blogových publikacích Nvidia od roku 2014 NVLink umožňuje sdružování jednotlivých odkazů pro zvýšení výkonu z bodu do bodu, takže například design se dvěma P100 a všechna propojení vytvořená mezi těmito dvěma jednotkami by umožnila plnou šířku pásma NVLink 80 GB /s mezi nimi.

Na GTC2017 představila Nvidia svoji generaci GPU Volta a naznačila integraci revidované verze 2.0 NVLink, která by umožnila celkové datové rychlosti I/O 300 GB/s pro jeden čip pro tento design, a dále oznámila možnost pre -objednávky s příslibem dodávky Q3/2017 vysoce výkonných počítačů DGX-1 a DGX-Station, které budou vybaveny GPU moduly typu V100 a NVLink 2.0 bude realizován buď v síti (dvě skupiny čtyř modulů V100 s inter -group connectivity) nebo plně propojený způsob jedné skupiny čtyř modulů V100.

V letech 2017–2018 dodaly IBM a Nvidia superpočítače Summit a Sierra pro americké ministerstvo energetiky, které kombinují rodinu procesorů IBM POWER9 a architekturu Nvidia Volta s využitím NVLink 2.0 pro propojení CPU-GPU a GPU-GPU a InfiniBand EDR pro systém se propojuje.

V roce 2020 společnost Nvidia oznámila, že od 1. ledna 2021 již nebude přidávat nové profily ovladačů SLI na řadu RTX 2000 a starší.

Languages

In other projects

NVLink - NVLink

Obsah

Zásada

Výkon

Použití s zásuvnými deskami

Servis softwaru a programování

Dějiny

Viz také

Reference

Languages

In other projects

NVLink - NVLink

Zásada

Výkon

Použití s ​​zásuvnými deskami

Servis softwaru a programování

Dějiny

Viz také

Reference

Použití s zásuvnými deskami