Nvidias Ampere-arkitektur gör premiär i datacenterkortet A100

Med Ampere introducerar Nvidia ett nytt format för flyttalsberäkningar och möjligheten att dela upp kortet i flera oberoende enheter.

Nvidias tillställning GTC 2020 riktas mot professionella grafiker och årets upplaga är det första där företagets VD håller i presentationen i sitt privata kök, som resultat av pandemin runt COVID-19. Utöver att diskutera hårdvara, mjukvara och verktyg för professionella grafiker avtäcks också Nvidias nya grafikarkitektur Ampere, vilken ligger till grund för samtliga segment i företagets kommande generation produkter.

Ampere-1.jpg

Ampere introduceras som en del av grafikkretsen GA100 vilken används för datacenterberäkningar. GA100 tillverkas på TSMC:s 7-nanometersteknik vilken enligt företaget optimerats för Nvidias behov, men exakt vad denna optimering utgörs av förklaras inte i detalj. Grafikkretsen består av totalt 8 192 CUDA-kärnor för FP32-beräkningar, 4 096 kärnor för FP64-beräkningar och 512 Tensor-kärnor.

Specifikationer – Ampere vs Volta vs Pascal

Egenskap

A100

V100

P100

Arkitektur

Ampere

Volta

Pascal

FP32-kärnor

6 912

5 120

3 584

Boost-frekvens

~ 1,41 GHz

1 530 MHz

1 480 MHz

Minnesfrekvens

2,4 Gbps HBM2

1,75 Gbps HBM2

1,4 Gbps HBM2

Minnesbuss

5 120-bitars

4 096-bitars

4 096-bitars

Minnesbandbredd

1,6 TB/s

0,9 TB/s

0,72 TB/s

Grafikminne

40 GB

16 GB/32 GB

16 GB

Enkelprecision

19,5 TFLOP/s

15,7 TFLOP/s

10,6 TFLOP/s

Dubbelprecision

9,7 TFLOP/s
(halv FP32)

7,8 TFLOP/s
(halv FP32)

5,3 TFLOP/s
(halv FP32)

INT8-Tensor

624 TOP/s

Saknas

Saknas

FP16-Tensor

312 TFLOP/s

125 TFLOP/s

Saknas

TF32-Tensor

156 TFLOP/s

Saknas

Saknas

Kommunikationslänk

Nvlink 3
12 länkar (600 GB/s)

Nvlink 2
6 länkar (300 GB/s)

Nvlink 1
4 länkar (160 GB/s)

Grafikkrets

A100
(826 mm2)

GV100
(815 mm2)

GP100
(610 mm2)

Transistorantal

54,2 miljarder

21.1 miljarder

15,3 miljarder

TDP

400 W

300 W/350 W

300 W

Tillverkningsteknik

TSMC 7nm

TSMC 12nm FFN

TSMC 16nm FinFET

Gränssnitt

SXM4

SXM2/SXM3

SXM

Beräkningsenheterna kan samsas med totalt 48 GB HBM2-minne som ansluter över en 6 144-bitars minnesbuss. Kretsens storlek hamnar på massiva 826 mm², en yta som huserar 54 miljarder transistorer. GA100 introducerar bland annat tredje generationens Tensor-kärnor för beräkningar av artificiell intelligens och maskininlärning.

Ampere-4.jpg
Ampere-4.jpg
Ampere-5.jpg
Ampere-7.jpg

Med Ampere introducerar Nvidia ett nytt format för flyttalsberäkningar vid namn Tensor Float32 (TF32). Fördelen med Tensor Float32 är att formatet kombinerar omfånget hos FP32 med precisionen som fås med FP16. Formatet kan också ackumulera flyttalsberäkningar från FP16 till FP32, vilket innebär att utvecklare inte tvingas ändra koden för att kunna använda Tensor Float32.

Detta ska bland annat ge dubbelt så snabb exekvering av flyttalsberäkningar utspridda i små delar. Totalt sett överstiger kapaciteten för FP8-beräkningar kapaciteten hos Volta-arkitekturen med 20×. A100 tillämpar en 3D-paketering där både grafikkretsar och minneskretsar placeras på samma substrat. Minneskretsarna är av typen HBM2, vilket genom den direkta anslutningen mot grafikkretsarna ger en total bandbredd om 1,6 TB/s.

Ampere-2.jpg

Ampere introducerar också en ny funktion vid namn MIG, en förkortning av Multi-Instance GPU. Det handlar om förmågan att förvandla ett enskilt grafikkort till flera. Med A100 innebär det att ett enskilt grafikkort kan skala upp till sju grafikkort som kan agera oberoende av varandra.

Nvidia liknar detta med att företagets tidigare arkitekturer varit kraftfulla som ett rymdskepp, men att detta rymdskepp inte kan göra något annat medan dess massiva last fraktas. Med Ampere och MIG kan utvecklare istället dela upp denna last i mindre delar och låta rymdskeppen "lyfta" så fort lasten är redo att levereras.

Funktionen kan också användas för att dela upp beräkningsresurserna mellan olika användare, så att ett enskilt A100-grafikkort kan fördelas mellan sju olika utvecklare. Det kan användas för att låta olika grupper av utvecklare hyra en kraftfull del av en A100, vilket innebär att dess beräkningsresurser inte går förlorade om en enskild användare inte utnyttjar dess fulla kapacitet.

MIG ligger till grund för Nvidias förmåga att skala upp beräkningar i datacenter, från färre tunga applikationer till en större mängd små applikationer. När det gäller beräkningar av artificiell intelligens levererar Ampere sex gånger bättre prestanda ställt mot den Volta-baserade föregångaren V100, till endast 75 procent fler transistorer. Sett till analysförmåga (eng. Inference) är A100 sju gånger snabbare än V100, något Nvidia demonstrerar med röstigenkänning.

Ampere-8.jpg

Röstigenkänningen används dock inte på människotal utan läten från fåglar. Genom att analysera fågerkvitter avgör A100-systemet var i världen fåglarna har sin hemvist, där systemet levererar svar på blott 3,4 millisekunder genom att utföra cirka 80 förfrågningar per sekund. Detta åstadkoms dock på en MIG-enhet, och när samma test utförs på samtliga sju MIG-enheter utförs över 540 förfrågningar per sekund.

Det första grafikkortet som tillämpar GA100-kretsen heter Tesla A100, som skalar ned den fullständiga kapaciteten i GA100. Det innebär att endast 108 av den fullständiga kretsens 128 SM-enheter finns representerade, vilket också medför totalt 6 912 FP32-kärnor, 3 456 FP64-kärnor och 432 Tensor-kärnor. Grafikkortet gör entre i det integrerade datorsystemet Nvidia DGX A100, som erbjuder totalt 5 petaflops beräkningskraft.

Systemet består av åtta Tesla A100-grafikkort vilka kommunicerar med dubbla AMD Rome-processorer med 64 kärnor vardera. Systemets lagring sköts av en NVME-ansluten SSD på 15 TB som kommunicerar över PCI Express 4.0. DGX A100 är primärt tänkt att användas i datacenter för beräkningar av vetenskapliga uppgifter och artificiell intelligens.

Ampere-9.jpg
Ampere-10.jpg

Nvidia meddelar att DGX A100 låter företaget baka in nog med prestanda i ett serversystem med en kostnad på 1 miljon USD som med traditionella system skulle kosta uppemot 11 miljoner USD. Ett serversystem baserat på DGX A100 kombinerar flera användningsområden i ett, med en energikonsumtion på 28 kW. När Nvidia jämför detta med energikonsumtionen hos tidigare serversystem där olika system arbetar med olika användningsområden uppgår dessa till totalt 630 kW.

Nvidia DGX A100 finns tillgänglig att köpa nu till den beskedliga prislappen 199 000 USD, motsvarande cirka 2,5 miljoner kronor inklusive moms.

Skicka en rättelse
32

Sydkorea och Kina påbörjar jakten efter 6G

Utrullningen av 5G-nätverken är fortfarande långt ifrån färdig, men redan nu börjar Kina och Sydkorea arbeta mot 6G. Läs mer

52

Quiz: Vad kan du om RTS-genren?

Ikväll släpps Command & Conquer Remastered och vi firar genom att utmana läsarna på en lurig frågesport om realtidsstrategi. Läs mer

44

Spacex skickar upp ytterligare 60 satelliter till Starlink-nätverket

Spacex fortsätter att arbeta på rymdbaserad internetanslutning och har nu 480 satelliter för ändamålet i omlopp runt jorden. Läs mer

16

EVGA lanserar nätaggregatserien Supernova GT

Supernova GT lovar verkningsgrad i 80 Plus Gold-klassen med uteffekter om 650 eller 750 watt. Läs mer

16

EA fortsätter sitt återtåg till Steam

En diger samling klassiska titlar från spelutgivaren EA hittar ut på Steam, dessutom till reapris. Läs mer

22

Doom portas till handvevad spelkonsol

En spelutvecklare meddelar att han lyckats med konsten att porta Doom till den handvevade spelkonsolen Playdate. Läs mer

3

AOC lanserar tre krökta skärmar i G2-serien

Gamingskärmar i formaten 29 och 34 tum med upplösningar om 2 560 × 1 080 pixlar och radien 1500R på agendan. Läs mer

I samarbete med Lenovo
7

Testpilot: Lenovo Legion 7i – Gaminglaptop med Intel Comet Lake

Björn Endre tar en titt på den bärbara datorn Lenovo Legion 7i, en kompakt dator med toppkomponenter från Intel och Nvidia. Läs mer

198

Veckans Fråga: Använder du ett dedikerat ljudkort?

Sound Blasters glansdagar är över sedan länge men vi vill veta hur många som ändå har ett dedikerat ljudkort nuförtiden. Läs mer

64

Google sägs samla in data i Chrome även när inkognitoläget är aktiverat

Google stäms på 50 miljarder kronor och anklagas för att spara information om vad användare gör i webbläsaren Chromes inkognitoläge. Läs mer

52

AMD RDNA 2 och Big Navi till PC innan konsoler

RDNA 2-baserade "Big Navi" för datorer ska ut på marknaden innan nästa generations konsoler, lovar AMD under investerarkonferens. Läs mer

19

Intel "Tiger Lake" ger AMD "Renoir" en match i 3DMark

Det är jämnt skägg mellan Intels kommande Gen12 Xe-grafik och AMD:s Vega-skodda APU:er i grafiktestet 3DMark. Läs mer