Nvidia avtäcker "Hopper" – 80 miljarder transistorer och mångdubbel AI-prestanda

Vid 2020 års upplaga av teknikkonferensen GTC uppdaterade Nvidia produktkatalogen med grafikarkitekturen "Ampere" för datacenter, som senare under samma år intog konsumentsegmentet. Nu går årets upplaga GTC av stapeln och Nvidias VD Jensen Huang kliver upp på den digitala scenen för att berätta om användningsområden där bolagets produkter används. För teknikentusiaster är dock Huangs slutkläm den mest intressanta, eftersom den består av nästa arkitektur – "Hopper"

► Berzelius är Sveriges snabbaste superdator för AI och maskininlärning

Det färska tillskottet fortsätter på Nvidias inslagna spår som har maskininlärning och artificiell intelligens (AI) i centrum. Med "Ampere" storsatsade företaget på ett upplägg där grafikkretsen A100 finns tillgänglig i allt från separata instickskort till fullskaliga datacenterlösningar. Samma upplägg gäller "Hopper"-kretsen H100, men med en prestandaökning som enligt Nvidia är flera storleksklasser på sina håll.

H100 är en monolitisk krets som bygger på TSMC:s 4-nanometersnod. Transistorantalet vrids upp till hisnande 80 miljarder, vilket är nära 50 procent fler än hos A100. I likhet med föregångaren sällskapas H100 av 80 GB grafikminne, men här uppgraderas minnestypen till HBM3 och med upp till 50 procent högre minnesbandbredd än A100. När H100 tar plats i det något mindre kraftfulla instickskortet H100 PCIE stannar minnesbandbredden på 2 TB/s, medan fullfjädrade SXM-formatet uppgraderar till 3 TB/s.

Specifikationer Nvidia H100, A100

Egenskap	H100 (SXM)	H100 (PCI Express)	A100
Arkitektur	Hopper	Hopper	Ampere
CUDA-kärnor	16 896	14 592	6 912
SM-kluster	132 st.	114 st.	108 st.
Tensor-kärnor	528 st.	456 st.	432 st.
Boost-frekvens	?	?	~ 1,41 GHz
Minnesfrekvens	4,8 Gbps HBM3	? HBM3	2,4 Gbps HBM2e
Minnesbuss	5 120 bitar	5 120 bitar	5 120 bitar
Minnesbandbredd	3 TB/s	2 TB/s	1,54 TB/s
Grafikminne	80 GB	80 GB	40/80 GB
INT8-Tensor	4 000*/2 000 TOP/s	3 200*/1 600 TOP/s	624 TOP/s
FP8-Tensor	4 000*/2 000 TFLOP/s	3 200*/1 600 TFLOP/s	Saknas
FP16-Tensor	2 000*/1 000 TFLOP/s	1 600*/800 TFLOP/s	312 TFLOP/s
TF32-Tensor	1 000*/500 TFLOP/s	800*/400 TFLOP/s	156 TFLOP/s
Kommunikationslänk	Nvlink 4, 7 länkar (900 GB/s) PCI Express 5.0 (128 GB/s)	Nvlink 4, 7 länkar (600 GB/s) PCI Express 5.0 (128 GB/s)	Nvlink 3, 12 länkar (600 GB/s)
Grafikkrets	H100	H100	A100 (826 mm2)
Transistorantal	80 miljarder	80 miljarder	54,2 miljarder
TDP	700 W	350 W	400 W
Tillverkningsteknik	TSMC 4nm	TSMC 4nm	TSMC 7nm
Gränssnitt	SXM5	PCI Express	SXM4

* Vid användning av Sparsity-funktionaliteten.

SXM-formatet är en lösning skräddarsydd för Nvidias skalbara serversystem med DGX-moduler som grundenhet, vilka kan kombineras till "Superpod"-kluster. I en DGX-låda paras åtta H100 SXM med dubbla ~~AMD Epyc~~ Intel "Sapphire Rapids"-processorer, 2 TB systemminne och 30 TB SSD-lagring. Varje H100 SXM-enhet har ett effektuttag om 700 watt, vilket är en ökning om 300 watt ställt mot A100-ditot. Instickskortet med H100 sörplar 350 watt och kretsen är nedskalad med ungefär 15 procent, varför den teoretiska prestandan är något lägre.

Nvidia snålar inte med de teoretiska prestandasifforna och specificerar nivåer för olika precision – med och utan stöd av Tensor-kärnor. Fullständiga jämförelser med föregående arkitektur står att läsa i tabellen och jämförande bilder ovan. Företaget exemplifierar med att tiden som krävs för att träna ett neuralt nätverk kan reduceras från över en vecka till under ett dygn. Eftersom det är Nvidias egna siffror bör de dock tas med en nypa salt och ses som ett bästa scenario.

Därutöver understryker bolaget att en ny instruktionsuppsättning med grafteori i centrum levereras med "Hopper", vilket är ännu en aspekt i linje med AI-fokus. De kraftfulla kretsarna får därtill stöd för utökade virtualiseringsfunktioner. Bland dessa tillkommer ett sätt att i mjukvara dela upp hårdvaran i instanser med helt isolerade resurser, något som enligt Nvidia hittills endast varit möjligt med processorer.

Prestanda för en enskild krets behöver dock inte betyda någonting om kommunikation mellan kretsar och andra system inte håller jämna steg. Grafikjätten talar därför om hur DGX-enheterna är utrustade med senaste snittets NVLink-växlare och nätverkskretsar. Nätverkskretsen heter Connectx-7 och finns även inbyggd på instickskortet med H100. DGX-lådorna har två sådana kretsar, som öppnar för Ethernet på 800 Gbps.

Kommunikation och tungdrivna beräkningar var ledmotivet när Nvidia för ett år sedan avtäckte den egna ARM-baserade processorn "Grace", som med sin skyhöga bandbredd ska debutera första halvan nästa år. Det är en 72-kärnig pjäs som är särskilt anpassad för att fungera väl med Nvidias grafikkretsar i serversammanhang. Nu visar Nvidia att de tänkt till ordentligt, eftersom "Grace" framöver ska kombineras med inget mindre än "Hopper", för en komplett produkt som delar namn med datorpionjären Grace Hopper.

Processorn “Grace” kommunicerar med “Hopper” över Nvlink, vilket tillåter hastigheter i upp till 900 GB/s mellan processor och grafikkrets. Precis som vid avtäckandet av processorn utlovas 10 gånger högre prestanda än Nvidias nuvarande DGX-serie med x86-arkitektur och AMD-processor och är särskilt anpassat för beräkningar i storleksskalan terabyte. Kombinationen är inte begränsad till en av varje, utan flera “Grace” kan kombineras med flera “Hopper”, där exempelvis en processor med åtta grafikkretsar är en av många möjliga konstellationer.

När "Ampere" avtäcktes konstaterades att arkitekturen för datacenter inte är identisk som för konsumentorienterade grafikkort, det delade namnet till trots. Det är ingen högoddsare att många av de utstickande egenskaperna hos "Hopper" inte har någon plats i grafikkort för privatpersoner, men mycket pekar mot att "Hopper" i likhet med "Volta" aldrig kommer att användas för sådana produkter. Istället är "Ada Lovelace" på tapeten, där dubbelt antal CUDA-kärnor, högt effektuttag och tillverkning på TSMC:s 5 nanometer är informationen som cirkulerar i skrivande stund.