Nvidias Ampere-arkitektur gör premiär i datacenterkortet A100

Nvidias tillställning GTC 2020 riktas mot professionella grafiker och årets upplaga är det första där företagets VD håller i presentationen i sitt privata kök, som resultat av pandemin runt COVID-19. Utöver att diskutera hårdvara, mjukvara och verktyg för professionella grafiker avtäcks också Nvidias nya grafikarkitektur Ampere, vilken ligger till grund för samtliga segment i företagets kommande generation produkter.

Ampere introduceras som en del av grafikkretsen GA100 vilken används för datacenterberäkningar. GA100 tillverkas på TSMC:s 7-nanometersteknik vilken enligt företaget optimerats för Nvidias behov, men exakt vad denna optimering utgörs av förklaras inte i detalj. Grafikkretsen består av totalt 8 192 CUDA-kärnor för FP32-beräkningar, 4 096 kärnor för FP64-beräkningar och 512 Tensor-kärnor.

Specifikationer: Ampere 100

Egenskap	A100	V100	P100
Arkitektur	Ampere	Volta	Pascal
CUDA-kärnor	6 912	5 120	3 584
Boost-frekvens	~ 1,41 GHz	1 530 MHz	1 480 MHz
Minnesfrekvens	2,4 Gbps HBM2	1,75 Gbps HBM2	1,4 Gbps HBM2
Minnesbuss	5 120 bitar	4 096 bitar	4 096 bitar
Minnesbandbredd	1,54 TB/s	0,9 TB/s	0,72 TB/s
Grafikminne	40 GB	16 GB/32 GB	16 GB
Enkelprecision	19,5 TFLOP/s	15,7 TFLOP/s	10,6 TFLOP/s
Dubbelprecision	9,7 TFLOP/s (halv FP32)	7,8 TFLOP/s (halv FP32)	5,3 TFLOP/s (halv FP32)
INT8-Tensor	624 TOP/s	Saknas	Saknas
FP16-Tensor	312 TFLOP/s	125 TFLOP/s	Saknas
TF32-Tensor	156 TFLOP/s	Saknas	Saknas
Kommunikationslänk	Nvlink 3 12 länkar (600 GB/s)	Nvlink 2 6 länkar (300 GB/s)	Nvlink 1 4 länkar (160 GB/s)
Grafikkrets	A100 (826 mm2)	GV100 (815 mm2)	GP100 (610 mm2)
Transistorantal	54,2 miljarder	21.1 miljarder	15,3 miljarder
TDP	400 W	300 W/350 W	300 W
Tillverkningsteknik	TSMC 7nm	TSMC 12nm FFN	TSMC 16nm FinFET
Gränssnitt	SXM4	SXM2/SXM3	SXM

Beräkningsenheterna kan samsas med totalt 48 GB HBM2-minne som ansluter över en 6 144-bitars minnesbuss. Kretsens storlek hamnar på massiva 826 mm², en yta som huserar 54 miljarder transistorer. GA100 introducerar bland annat tredje generationens Tensor-kärnor för beräkningar av artificiell intelligens och maskininlärning.

Med Ampere introducerar Nvidia ett nytt format för flyttalsberäkningar vid namn Tensor Float32 (TF32). Fördelen med Tensor Float32 är att formatet kombinerar omfånget hos FP32 med precisionen som fås med FP16. Formatet kan också ackumulera flyttalsberäkningar från FP16 till FP32, vilket innebär att utvecklare inte tvingas ändra koden för att kunna använda Tensor Float32.

Detta ska bland annat ge dubbelt så snabb exekvering av flyttalsberäkningar utspridda i små delar. Totalt sett överstiger kapaciteten för FP8-beräkningar kapaciteten hos Volta-arkitekturen med 20×. A100 tillämpar en 3D-paketering där både grafikkretsar och minneskretsar placeras på samma substrat. Minneskretsarna är av typen HBM2, vilket genom den direkta anslutningen mot grafikkretsarna ger en total bandbredd om 1,6 TB/s.

Ampere introducerar också en ny funktion vid namn MIG, en förkortning av Multi-Instance GPU. Det handlar om förmågan att förvandla ett enskilt grafikkort till flera. Med A100 innebär det att ett enskilt grafikkort kan skala upp till sju grafikkort som kan agera oberoende av varandra.

Nvidia liknar detta med att företagets tidigare arkitekturer varit kraftfulla som ett rymdskepp, men att detta rymdskepp inte kan göra något annat medan dess massiva last fraktas. Med Ampere och MIG kan utvecklare istället dela upp denna last i mindre delar och låta rymdskeppen "lyfta" så fort lasten är redo att levereras.

Funktionen kan också användas för att dela upp beräkningsresurserna mellan olika användare, så att ett enskilt A100-grafikkort kan fördelas mellan sju olika utvecklare. Det kan användas för att låta olika grupper av utvecklare hyra en kraftfull del av en A100, vilket innebär att dess beräkningsresurser inte går förlorade om en enskild användare inte utnyttjar dess fulla kapacitet.

MIG ligger till grund för Nvidias förmåga att skala upp beräkningar i datacenter, från färre tunga applikationer till en större mängd små applikationer. När det gäller beräkningar av artificiell intelligens levererar Ampere sex gånger bättre prestanda ställt mot den Volta-baserade föregångaren V100, till endast 75 procent fler transistorer. Sett till analysförmåga (eng. Inference) är A100 sju gånger snabbare än V100, något Nvidia demonstrerar med röstigenkänning.

Röstigenkänningen används dock inte på människotal utan läten från fåglar. Genom att analysera fågerkvitter avgör A100-systemet var i världen fåglarna har sin hemvist, där systemet levererar svar på blott 3,4 millisekunder genom att utföra cirka 80 förfrågningar per sekund. Detta åstadkoms dock på en MIG-enhet, och när samma test utförs på samtliga sju MIG-enheter utförs över 540 förfrågningar per sekund.

Det första grafikkortet som tillämpar GA100-kretsen heter Tesla A100, som skalar ned den fullständiga kapaciteten i GA100. Det innebär att endast 108 av den fullständiga kretsens 128 SM-enheter finns representerade, vilket också medför totalt 6 912 FP32-kärnor, 3 456 FP64-kärnor och 432 Tensor-kärnor. Grafikkortet gör entre i det integrerade datorsystemet Nvidia DGX A100, som erbjuder totalt 5 petaflops beräkningskraft.

Systemet består av åtta Tesla A100-grafikkort vilka kommunicerar med dubbla AMD Rome-processorer med 64 kärnor vardera. Systemets lagring sköts av en NVME-ansluten SSD på 15 TB som kommunicerar över PCI Express 4.0. DGX A100 är primärt tänkt att användas i datacenter för beräkningar av vetenskapliga uppgifter och artificiell intelligens.

Nvidia meddelar att DGX A100 låter företaget baka in nog med prestanda i ett serversystem med en kostnad på 1 miljon USD som med traditionella system skulle kosta uppemot 11 miljoner USD. Ett serversystem baserat på DGX A100 kombinerar flera användningsområden i ett, med en energikonsumtion på 28 kW. När Nvidia jämför detta med energikonsumtionen hos tidigare serversystem där olika system arbetar med olika användningsområden uppgår dessa till totalt 630 kW.

Nvidia DGX A100 finns tillgänglig att köpa nu till den beskedliga prislappen 199 000 USD, motsvarande cirka 2,5 miljoner kronor inklusive moms.