Nvidias Ampere-arkitektur gör premiär i datacenterkortet A100

Med Ampere introducerar Nvidia ett nytt format för flyttalsberäkningar och möjligheten att dela upp kortet i flera oberoende enheter.

Nvidias tillställning GTC 2020 riktas mot professionella grafiker och årets upplaga är det första där företagets VD håller i presentationen i sitt privata kök, som resultat av pandemin runt COVID-19. Utöver att diskutera hårdvara, mjukvara och verktyg för professionella grafiker avtäcks också Nvidias nya grafikarkitektur Ampere, vilken ligger till grund för samtliga segment i företagets kommande generation produkter.

Ampere-1.jpg

Ampere introduceras som en del av grafikkretsen GA100 vilken används för datacenterberäkningar. GA100 tillverkas på TSMC:s 7-nanometersteknik vilken enligt företaget optimerats för Nvidias behov, men exakt vad denna optimering utgörs av förklaras inte i detalj. Grafikkretsen består av totalt 8 192 CUDA-kärnor för FP32-beräkningar, 4 096 kärnor för FP64-beräkningar och 512 Tensor-kärnor.

Specifikationer – Ampere vs Volta vs Pascal

Egenskap

A100

V100

P100

Arkitektur

Ampere

Volta

Pascal

FP32-kärnor

6 912

5 120

3 584

Boost-frekvens

~ 1,41 GHz

1 530 MHz

1 480 MHz

Minnesfrekvens

2,4 Gbps HBM2

1,75 Gbps HBM2

1,4 Gbps HBM2

Minnesbuss

5 120-bitars

4 096-bitars

4 096-bitars

Minnesbandbredd

1,6 TB/s

0,9 TB/s

0,72 TB/s

Grafikminne

40 GB

16 GB/32 GB

16 GB

Enkelprecision

19,5 TFLOP/s

15,7 TFLOP/s

10,6 TFLOP/s

Dubbelprecision

9,7 TFLOP/s
(halv FP32)

7,8 TFLOP/s
(halv FP32)

5,3 TFLOP/s
(halv FP32)

INT8-Tensor

624 TOP/s

Saknas

Saknas

FP16-Tensor

312 TFLOP/s

125 TFLOP/s

Saknas

TF32-Tensor

156 TFLOP/s

Saknas

Saknas

Kommunikationslänk

Nvlink 3
12 länkar (600 GB/s)

Nvlink 2
6 länkar (300 GB/s)

Nvlink 1
4 länkar (160 GB/s)

Grafikkrets

A100
(826 mm2)

GV100
(815 mm2)

GP100
(610 mm2)

Transistorantal

54,2 miljarder

21.1 miljarder

15,3 miljarder

TDP

400 W

300 W/350 W

300 W

Tillverkningsteknik

TSMC 7nm

TSMC 12nm FFN

TSMC 16nm FinFET

Gränssnitt

SXM4

SXM2/SXM3

SXM

Beräkningsenheterna kan samsas med totalt 48 GB HBM2-minne som ansluter över en 6 144-bitars minnesbuss. Kretsens storlek hamnar på massiva 826 mm², en yta som huserar 54 miljarder transistorer. GA100 introducerar bland annat tredje generationens Tensor-kärnor för beräkningar av artificiell intelligens och maskininlärning.

Ampere-4.jpg
Ampere-4.jpg
Ampere-5.jpg
Ampere-7.jpg

Med Ampere introducerar Nvidia ett nytt format för flyttalsberäkningar vid namn Tensor Float32 (TF32). Fördelen med Tensor Float32 är att formatet kombinerar omfånget hos FP32 med precisionen som fås med FP16. Formatet kan också ackumulera flyttalsberäkningar från FP16 till FP32, vilket innebär att utvecklare inte tvingas ändra koden för att kunna använda Tensor Float32.

Detta ska bland annat ge dubbelt så snabb exekvering av flyttalsberäkningar utspridda i små delar. Totalt sett överstiger kapaciteten för FP8-beräkningar kapaciteten hos Volta-arkitekturen med 20×. A100 tillämpar en 3D-paketering där både grafikkretsar och minneskretsar placeras på samma substrat. Minneskretsarna är av typen HBM2, vilket genom den direkta anslutningen mot grafikkretsarna ger en total bandbredd om 1,6 TB/s.

Ampere-2.jpg

Ampere introducerar också en ny funktion vid namn MIG, en förkortning av Multi-Instance GPU. Det handlar om förmågan att förvandla ett enskilt grafikkort till flera. Med A100 innebär det att ett enskilt grafikkort kan skala upp till sju grafikkort som kan agera oberoende av varandra.

Nvidia liknar detta med att företagets tidigare arkitekturer varit kraftfulla som ett rymdskepp, men att detta rymdskepp inte kan göra något annat medan dess massiva last fraktas. Med Ampere och MIG kan utvecklare istället dela upp denna last i mindre delar och låta rymdskeppen "lyfta" så fort lasten är redo att levereras.

Funktionen kan också användas för att dela upp beräkningsresurserna mellan olika användare, så att ett enskilt A100-grafikkort kan fördelas mellan sju olika utvecklare. Det kan användas för att låta olika grupper av utvecklare hyra en kraftfull del av en A100, vilket innebär att dess beräkningsresurser inte går förlorade om en enskild användare inte utnyttjar dess fulla kapacitet.

MIG ligger till grund för Nvidias förmåga att skala upp beräkningar i datacenter, från färre tunga applikationer till en större mängd små applikationer. När det gäller beräkningar av artificiell intelligens levererar Ampere sex gånger bättre prestanda ställt mot den Volta-baserade föregångaren V100, till endast 75 procent fler transistorer. Sett till analysförmåga (eng. Inference) är A100 sju gånger snabbare än V100, något Nvidia demonstrerar med röstigenkänning.

Ampere-8.jpg

Röstigenkänningen används dock inte på människotal utan läten från fåglar. Genom att analysera fågerkvitter avgör A100-systemet var i världen fåglarna har sin hemvist, där systemet levererar svar på blott 3,4 millisekunder genom att utföra cirka 80 förfrågningar per sekund. Detta åstadkoms dock på en MIG-enhet, och när samma test utförs på samtliga sju MIG-enheter utförs över 540 förfrågningar per sekund.

Det första grafikkortet som tillämpar GA100-kretsen heter Tesla A100, som skalar ned den fullständiga kapaciteten i GA100. Det innebär att endast 108 av den fullständiga kretsens 128 SM-enheter finns representerade, vilket också medför totalt 6 912 FP32-kärnor, 3 456 FP64-kärnor och 432 Tensor-kärnor. Grafikkortet gör entre i det integrerade datorsystemet Nvidia DGX A100, som erbjuder totalt 5 petaflops beräkningskraft.

Systemet består av åtta Tesla A100-grafikkort vilka kommunicerar med dubbla AMD Rome-processorer med 64 kärnor vardera. Systemets lagring sköts av en NVME-ansluten SSD på 15 TB som kommunicerar över PCI Express 4.0. DGX A100 är primärt tänkt att användas i datacenter för beräkningar av vetenskapliga uppgifter och artificiell intelligens.

Ampere-9.jpg
Ampere-10.jpg

Nvidia meddelar att DGX A100 låter företaget baka in nog med prestanda i ett serversystem med en kostnad på 1 miljon USD som med traditionella system skulle kosta uppemot 11 miljoner USD. Ett serversystem baserat på DGX A100 kombinerar flera användningsområden i ett, med en energikonsumtion på 28 kW. När Nvidia jämför detta med energikonsumtionen hos tidigare serversystem där olika system arbetar med olika användningsområden uppgår dessa till totalt 630 kW.

Nvidia DGX A100 finns tillgänglig att köpa nu till den beskedliga prislappen 199 000 USD, motsvarande cirka 2,5 miljoner kronor inklusive moms.

Skicka en rättelse
10

Test: HyperX x Ducky One 2 Mini – tangentbord i kompakt format

HyperX och Ducky slår sina kloka huvuden ihop och gör en begränsad utgåva av tangentbordet One 2 Mini, nu med HyperX egna brytare. Läs mer

70

Intels VD: "Dags att sluta fokusera på benchmark-resultat"

I ett meddelande till Computex 2020 konstaterar Intels VD Bob Swan att teknikbranschen bör fokusera mindre på benchmark-mjukvara. Läs mer

9

Macrent förvärvar Digital Inns konkursbo

Företag med fokus på uthyrning av Apple-produkter tar över Digital Inns verksamhet och lovar ta över garantiärenden. Läs mer

8

Begränsad upplaga – SweClockers jubileums-T-shirt nu i shoppen

I november 2019 firade SweClockers 20 år med medlemmarna. Nu kan T-shirten med jubileumsmotiv köpas i begränsad upplaga. Läs mer

23

Electronic Arts släpper källkoden till Command & Conquered Remastered Collection

Spelutgivaren håller sitt löfte och släpper källkoden till strategispelspaketet inför lanseringen under juni månad. Läs mer

18

Linuxuppdatering avslöjar AMD:s kommande grafikkort "Sienna Cichlid"

Ett hittills okänt Navi-grafikkort med bland annat förbättrad videoavkodning kan vara AMD:s kommande jättekrets "Big Navi". Läs mer

159

Medlemmen makatech önskar argument för att köra Linux på skrivbordet

Trots cirka 30 år på marknaden är det fortfarande bara runt två procent som använder Linux på sina skrivbord. Har forumet argument för att testa det? Läs mer

33

Sony satsar på fotografer och videoskapare med Xperia 1 II

Med funktioner hämtade från Sonys kameradivision ska Xperia 1 II särskilja sig som en 5G-bestyckad telefon för kameraproffs. Läs mer

62

Sony ställer in veckans Playstation 5-evenemang

På grund av rådande oroligheter i USA väljer Sony att skjuta veckans Playstation 5-tillställning på framtiden. Läs mer

77

Samsung lanserar rejält krökta spelskärmar i Odyssey G7-serien

Med Odyssey G7 i 27- och 32-tumsutförande bjuder Samsung på 240 Hz QLED och 1 millisekunds responstid i extremkrökt format. Läs mer

5

Snabbtitt: Gigabyte hyser Comet Lake-S med Z490 Aorus Pro AX

Med Intel Comet Lake-S ute i det vilda passar vi på att kika lite närmare på Gigabytes moderkort Z490 Aorus Pro AX som bland annat bjuder på trådlöst nätverk via Wifi 6. Läs mer

I samarbete med KFA2 och Nvidia
45

Så presterar mellanklassens Geforce RTX i spel med stöd för ray tracing

I denna genomgång synar redaktionen ray tracing-prestanda för tre grafikkort i mellanklassens Geforce RTX-serie. Läs mer