Nvidias Ampere-arkitektur gör premiär i datacenterkortet A100

Med Ampere introducerar Nvidia ett nytt format för flyttalsberäkningar och möjligheten att dela upp kortet i flera oberoende enheter.

Nvidias tillställning GTC 2020 riktas mot professionella grafiker och årets upplaga är det första där företagets VD håller i presentationen i sitt privata kök, som resultat av pandemin runt COVID-19. Utöver att diskutera hårdvara, mjukvara och verktyg för professionella grafiker avtäcks också Nvidias nya grafikarkitektur Ampere, vilken ligger till grund för samtliga segment i företagets kommande generation produkter.

Ampere-1.jpg

Ampere introduceras som en del av grafikkretsen GA100 vilken används för datacenterberäkningar. GA100 tillverkas på TSMC:s 7-nanometersteknik vilken enligt företaget optimerats för Nvidias behov, men exakt vad denna optimering utgörs av förklaras inte i detalj. Grafikkretsen består av totalt 8 192 CUDA-kärnor för FP32-beräkningar, 4 096 kärnor för FP64-beräkningar och 512 Tensor-kärnor.

Specifikationer – Ampere vs Volta vs Pascal

Egenskap

A100

V100

P100

Arkitektur

Ampere

Volta

Pascal

FP32-kärnor

6 912

5 120

3 584

Boost-frekvens

~ 1,41 GHz

1 530 MHz

1 480 MHz

Minnesfrekvens

2,4 Gbps HBM2

1,75 Gbps HBM2

1,4 Gbps HBM2

Minnesbuss

5 120-bitars

4 096-bitars

4 096-bitars

Minnesbandbredd

1,6 TB/s

0,9 TB/s

0,72 TB/s

Grafikminne

40 GB

16 GB/32 GB

16 GB

Enkelprecision

19,5 TFLOP/s

15,7 TFLOP/s

10,6 TFLOP/s

Dubbelprecision

9,7 TFLOP/s
(halv FP32)

7,8 TFLOP/s
(halv FP32)

5,3 TFLOP/s
(halv FP32)

INT8-Tensor

624 TOP/s

Saknas

Saknas

FP16-Tensor

312 TFLOP/s

125 TFLOP/s

Saknas

TF32-Tensor

156 TFLOP/s

Saknas

Saknas

Kommunikationslänk

Nvlink 3
12 länkar (600 GB/s)

Nvlink 2
6 länkar (300 GB/s)

Nvlink 1
4 länkar (160 GB/s)

Grafikkrets

A100
(826 mm2)

GV100
(815 mm2)

GP100
(610 mm2)

Transistorantal

54,2 miljarder

21.1 miljarder

15,3 miljarder

TDP

400 W

300 W/350 W

300 W

Tillverkningsteknik

TSMC 7nm

TSMC 12nm FFN

TSMC 16nm FinFET

Gränssnitt

SXM4

SXM2/SXM3

SXM

Beräkningsenheterna kan samsas med totalt 48 GB HBM2-minne som ansluter över en 6 144-bitars minnesbuss. Kretsens storlek hamnar på massiva 826 mm², en yta som huserar 54 miljarder transistorer. GA100 introducerar bland annat tredje generationens Tensor-kärnor för beräkningar av artificiell intelligens och maskininlärning.

Ampere-4.jpg
Ampere-4.jpg
Ampere-5.jpg
Ampere-7.jpg

Med Ampere introducerar Nvidia ett nytt format för flyttalsberäkningar vid namn Tensor Float32 (TF32). Fördelen med Tensor Float32 är att formatet kombinerar omfånget hos FP32 med precisionen som fås med FP16. Formatet kan också ackumulera flyttalsberäkningar från FP16 till FP32, vilket innebär att utvecklare inte tvingas ändra koden för att kunna använda Tensor Float32.

Detta ska bland annat ge dubbelt så snabb exekvering av flyttalsberäkningar utspridda i små delar. Totalt sett överstiger kapaciteten för FP8-beräkningar kapaciteten hos Volta-arkitekturen med 20×. A100 tillämpar en 3D-paketering där både grafikkretsar och minneskretsar placeras på samma substrat. Minneskretsarna är av typen HBM2, vilket genom den direkta anslutningen mot grafikkretsarna ger en total bandbredd om 1,6 TB/s.

Ampere-2.jpg

Ampere introducerar också en ny funktion vid namn MIG, en förkortning av Multi-Instance GPU. Det handlar om förmågan att förvandla ett enskilt grafikkort till flera. Med A100 innebär det att ett enskilt grafikkort kan skala upp till sju grafikkort som kan agera oberoende av varandra.

Nvidia liknar detta med att företagets tidigare arkitekturer varit kraftfulla som ett rymdskepp, men att detta rymdskepp inte kan göra något annat medan dess massiva last fraktas. Med Ampere och MIG kan utvecklare istället dela upp denna last i mindre delar och låta rymdskeppen "lyfta" så fort lasten är redo att levereras.

Funktionen kan också användas för att dela upp beräkningsresurserna mellan olika användare, så att ett enskilt A100-grafikkort kan fördelas mellan sju olika utvecklare. Det kan användas för att låta olika grupper av utvecklare hyra en kraftfull del av en A100, vilket innebär att dess beräkningsresurser inte går förlorade om en enskild användare inte utnyttjar dess fulla kapacitet.

MIG ligger till grund för Nvidias förmåga att skala upp beräkningar i datacenter, från färre tunga applikationer till en större mängd små applikationer. När det gäller beräkningar av artificiell intelligens levererar Ampere sex gånger bättre prestanda ställt mot den Volta-baserade föregångaren V100, till endast 75 procent fler transistorer. Sett till analysförmåga (eng. Inference) är A100 sju gånger snabbare än V100, något Nvidia demonstrerar med röstigenkänning.

Ampere-8.jpg

Röstigenkänningen används dock inte på människotal utan läten från fåglar. Genom att analysera fågerkvitter avgör A100-systemet var i världen fåglarna har sin hemvist, där systemet levererar svar på blott 3,4 millisekunder genom att utföra cirka 80 förfrågningar per sekund. Detta åstadkoms dock på en MIG-enhet, och när samma test utförs på samtliga sju MIG-enheter utförs över 540 förfrågningar per sekund.

Det första grafikkortet som tillämpar GA100-kretsen heter Tesla A100, som skalar ned den fullständiga kapaciteten i GA100. Det innebär att endast 108 av den fullständiga kretsens 128 SM-enheter finns representerade, vilket också medför totalt 6 912 FP32-kärnor, 3 456 FP64-kärnor och 432 Tensor-kärnor. Grafikkortet gör entre i det integrerade datorsystemet Nvidia DGX A100, som erbjuder totalt 5 petaflops beräkningskraft.

Systemet består av åtta Tesla A100-grafikkort vilka kommunicerar med dubbla AMD Rome-processorer med 64 kärnor vardera. Systemets lagring sköts av en NVME-ansluten SSD på 15 TB som kommunicerar över PCI Express 4.0. DGX A100 är primärt tänkt att användas i datacenter för beräkningar av vetenskapliga uppgifter och artificiell intelligens.

Ampere-9.jpg
Ampere-10.jpg

Nvidia meddelar att DGX A100 låter företaget baka in nog med prestanda i ett serversystem med en kostnad på 1 miljon USD som med traditionella system skulle kosta uppemot 11 miljoner USD. Ett serversystem baserat på DGX A100 kombinerar flera användningsområden i ett, med en energikonsumtion på 28 kW. När Nvidia jämför detta med energikonsumtionen hos tidigare serversystem där olika system arbetar med olika användningsområden uppgår dessa till totalt 630 kW.

Nvidia DGX A100 finns tillgänglig att köpa nu till den beskedliga prislappen 199 000 USD, motsvarande cirka 2,5 miljoner kronor inklusive moms.

Skicka en rättelse
I samarbete med Huawei
60

Huawei P40 Pro: Fantastisk hårdvara med app-butik under uppbyggnad

Testpiloterna konstaterar att Huawei P40 Pro levererar hårdvara i yppersta toppklass medan mjukvarubiten kräver en del kreativitet. Läs mer

22

Linus Torvalds byter till AMD efter 15 år med Intel

Efter 15 år med en rad Intel-processorer i tjänst byter Linux-fadern Linus Torvalds läger till en AMD Threadripper 3970X. Läs mer

38

Logitech avtäcker G915 TKL – trådlöst och kompakt tangentbord

Med G915 TKL krymper Logitech det fullstora trådlösa tangentbordet G915 till kompakt TKL-format med mekaniska lågprofil-brytare. Läs mer

19

Intel Core i9-10900K får små vinster med "delidding" och flytande metall

Erfarne överklockarprofilen der8auers test av Intel Core i9-10900K visar små vinster med "delidding" och flytande metall. Läs mer

44

Telia lanserar expanderat 5G-nät med Ericsson-teknik i juni

Telia följer konkurrenterna med att lansera ett utökat 5G-nätverk under juni månad, med Ericsson som teknikleverantör. Läs mer

22

Test: Utmärkta Dell XPS 13 9300 hämmas av den högupplösta skärmen

Dell XPS 13 fortsätter att tänja gränserna mellan skärm och chassi. Årets modell får dessutom Intels Athena-certifiering. Läs mer

22

Noctua introducerar svart Chromax-version av kylaren NH-U12A

Det brunbeiga färgschemat för populära Noctua-kylaren NH-U12A får sällskap av en svart Chromax-variant efter sommaren. Läs mer

84

Nya uppgifter anger höjda klockfrekvenser för Ryzen 3000 "Matisse Refresh"

Sommarens uppdatering av Ryzen 3000-familjen ska introducera både höjda klockfrekvenser och optimerad boost-prestanda. Läs mer

I samarbete med MSI
77

Minecraft RTX – ray tracing-prestanda med DLSS

I april lanserades Minecraft med RTX och vi laddar upp testmaskinen för att utvärdera prestandan med och utan DLSS. Läs mer

54

Hur skulle du ersätta en gammal server?

I forumet söker medlemmen tomle råd om hur en gammal server ska ersättas med ny hårdvara. Har du tips att dela med dig av? Läs mer

68

Nya uppgifter bekräftar dubblerad kapacitet till AMD "Big Navi"

Årets grafikkort från AMD inkluderar en rejäl uppgradering i form av Navi 21 och förfinade varianter av dagens Navi 10. Läs mer

115

Tele 2 och Tre drar igång 5G-nätverk

Från och med juni månad kan Tele 2-kunder surfa över 5G i mobilen, och konkurrenten Tre drar igång sitt nätverk samma månad. Läs mer