Vid 2020 års upplaga av teknikkonferensen GTC uppdaterade Nvidia produktkatalogen med grafikarkitekturen "Ampere" för datacenter, som senare under samma år intog konsumentsegmentet. Nu går årets upplaga GTC av stapeln och Nvidias VD Jensen Huang kliver upp på den digitala scenen för att berätta om användningsområden där bolagets produkter använd. För teknikentusiaster är dock Huangs slutkläm den mest intressanta, eftersom den består av nästa arkitektur – "Hopper"

Berzelius är Sveriges snabbaste superdator för AI och maskininlärning

Det färska tillskottet fortsätter på Nvidias inslagna spår som har maskininlärning och artificiell intelligens (AI) i centrum. Med "Ampere" storsatsade företaget på ett upplägg där grafikkretsen A100 finns tillgänglig i allt från separata instickskort till fullskaliga datacenterlösningar. Samma upplägg gäller "Hopper"-kretsen H100, men med en prestandaökning som enligt Nvidia är flera storleksklasser på sina håll.

Z29nqvbU.png
Skärmklipp 2022-03-22 16.41.35.png
Skärmklipp 2022-03-22 16.35.38.png
Skärmklipp 2022-03-22 16.36.23.png
M9bCl58E.png

H100 är en monolitisk krets som bygger på TSMC:s 4-nanometersnod. Transistorantalet vrids upp till hisnande 80 miljarder, vilket är nära 50 procent fler än hos A100. I likhet med föregångaren sällskapas H100 av 80 GB grafikminne, men här uppgraderas minnestypen till HBM3 och med upp till 50 procent högre minnesbandbredd än A100. När H100 tar plats i det något mindre kraftfulla instickskortet H100 PCIE stannar minnesbandbredden på 2 TB/s, medan fullfjädrade SXM-formatet uppgraderar till 3 TB/s.

Specifikationer Nvidia H100, A100

Egenskap

H100 (SXM)

H100 (PCI Express)

A100

Arkitektur

Hopper

Hopper

Ampere

CUDA-kärnor

16 896

14 592

6 912

SM-kluster

132 st.

114 st.

108 st.

Tensor-kärnor

528 st.

456 st.

432 st.

Boost-frekvens

?

?

~ 1,41 GHz

Minnesfrekvens

4,8 Gbps HBM3

? HBM3

2,4 Gbps HBM2e

Minnesbuss

5 120 bitar

5 120 bitar

5 120 bitar

Minnesbandbredd

3 TB/s

2 TB/s

1,54 TB/s

Grafikminne

80 GB

80 GB

40/80 GB

INT8-Tensor

4 000*/2 000 TOP/s

3 200*/1 600 TOP/s

624 TOP/s

FP8-Tensor

4 000*/2 000 TFLOP/s

3 200*/1 600 TFLOP/s

Saknas

FP16-Tensor

2 000*/1 000 TFLOP/s

1 600*/800 TFLOP/s

312 TFLOP/s

TF32-Tensor

1 000*/500 TFLOP/s

800*/400 TFLOP/s

156 TFLOP/s

Kommunikationslänk

Nvlink 4, 7 länkar (900 GB/s)
PCI Express 5.0 (128 GB/s)

Nvlink 4, 7 länkar (600 GB/s)
PCI Express 5.0 (128 GB/s)

Nvlink 3, 12 länkar (600 GB/s)

Grafikkrets

H100

H100

A100 (826 mm2)

Transistorantal

80 miljarder

80 miljarder

54,2 miljarder

TDP

700 W

350 W

400 W

Tillverkningsteknik

TSMC 4nm

TSMC 4nm

TSMC 7nm

Gränssnitt

SXM5

PCI Express

SXM4

* Vid användning av Sparsity-funktionaliteten.

SXM-formatet är en lösning skräddarsydd för Nvidias skalbara serversystem med DGX-moduler som grundenhet, vilka kan kombineras till "Superpod"-kluster. I en DGX-låda paras åtta H100 SXM med dubbla AMD Epyc-processorer, 2 TB systemminne och 30 TB SSD-lagring. Varje H100 SXM-enhet har ett effektuttag om 700 watt, vilket är en ökning om 300 watt ställt mot A100-ditot. Instickskortet med H100 sörplar 350 watt och kretsen är nedskalad med ungefär 15 procent, varför den teoretiska prestandan är något lägre.

Skärmklipp 2022-03-22 18.26.32.png
Skärmklipp 2022-03-22 16.40.12.png

Nvidia snålar inte med de teoretiska prestandasifforna och specificerar nivåer för olika precision – med och utan stöd av Tensor-kärnor. Fullständiga jämförelser med föregående arkitektur står att läsa i tabellen och jämförande bilder ovan. Företaget exemplifierar med att tiden som krävs för att träna ett neuralt nätverk kan reduceras från över en vecka till under ett dygn. Eftersom det är Nvidias egna siffror bör de dock tas med en nypa salt och ses som ett bästa scenario.

2bSCLigY.png

Därutöver understryker bolaget att en ny instruktionsuppsättning med grafteori i centrum levereras med "Hopper", vilket är ännu en aspekt i linje med AI-fokus. De kraftfulla kretsarna får därtill stöd för utökade virtualiseringsfunktioner. Bland dessa tillkommer ett sätt att i mjukvara dela upp hårdvaran i instanser med helt isolerade resurser, något som enligt Nvidia hittills endast varit möjligt med processorer.

Prestanda för en enskild krets behöver dock inte betyda någonting om kommunikation mellan kretsar och andra system inte håller jämna steg. Grafikjätten talar därför om hur DGX-enheterna är utrustade med senaste snittets NVLink-växlare och nätverkskretsar. Nätverkskretsen heter Connectx-7 och finns även inbyggd på instickskortet med H100. DGX-lådorna har två sådana kretsar, som öppnar för Ethernet på 800 Gbps.

OX8KW-0g.png
GOutm8sw.png

Kommunikation och tungdrivna beräkningar var ledmotivet när Nvidia för ett år sedan avtäckte den egna ARM-baserade processorn "Grace", som med sin skyhöga bandbredd ska debutera första halvan nästa år. Det är en 72-kärnig pjäs som är särskilt anpassad för att fungera väl med Nvidias grafikkretsar i serversammanhang. Nu visar Nvidia att de tänkt till ordentligt, eftersom "Grace" framöver ska kombineras med inget mindre än "Hopper", för en komplett produkt som delar namn med datorpionjären Grace Hopper.

Processorn “Grace” kommunicerar med “Hopper” över Nvlink, vilket tillåter hastigheter i upp till 900 GB/s mellan processor och grafikkrets. Precis som vid avtäckandet av processorn utlovas 10 gånger högre prestanda än Nvidias nuvarande DGX-serie med x86-arkitektur och AMD-processor och är särskilt anpassat för beräkningar i storleksskalan terabyte. Kombinationen är inte begränsad till en av varje, utan flera “Grace” kan kombineras med flera “Hopper”, där exempelvis en processor med åtta grafikkretsar är en av många möjliga konstellationer.

När "Ampere" avtäcktes konstaterades att arkitekturen för datacenter inte är identisk som för konsumentorienterade grafikkort, det delade namnet till trots. Det är ingen högoddsare att många av de utstickande egenskaperna hos "Hopper" inte har någon plats i grafikkort för privatpersoner, men mycket pekar mot att "Hopper" i likhet med "Volta" aldrig kommer att användas för sådana produkter. Istället är "Ada Lovelace" på tapeten, där dubbelt antal CUDA-kärnor, högt effektuttag och tillverkning på TSMC:s 5 nanometer är informationen som cirkulerar i skrivande stund.