Nvidias lansering av Ampere tidigare i veckan lämnade en del obesvarade frågor hängande i luften. För att råda bot på detta anordnar Nvidia en frågestund på Reddit där allt från HDMI 2.1 till hur man räknar antal CUDA-kärnor tas upp.

Angående just HDMI 2.1 bekräftas att samtliga tre kort som utannonserats har stöd för specifikationen vilket nu inkluderar 10-bitars HDR, som då kompletterar 8- och 12-bitars. Detta stöd fås dessutom med full bandbredd om 48 Gbps. Detsamma gäller AV1-kodning något som bara nämndes i samband med presentationen av Geforce RTX 3090, men stödet gäller alltså alla Ampere-modeller som avtäckts.

HDMI är inte det enda som tar klivet till 2.1 då samma versionsnummer gäller för den senaste implementationen av DLSS, där ett "ultra"-läge för 8K-uppskalning, variabel upplösning och VR-stöd är de tre nämnvärda förändringarna. Det handlar alltså om en smärre funktionsuppgradering och beryktade DLSS 3.0 lyser ännu med sin frånvaro.

Även Microsofts lagringsgränssnitt Directstorage avhandlas där Nvidia förklarar att målet är att utvecklare ska kunna få tillgång till det under år 2021. Med andra ord ser tekniken ut att i närtid förbli konsolexklusiv för Xbox Series X när det gäller faktisk implementation i spel. På frågan om PCI Express 3.0 eller 4.0 kommer att göra stor skillnad för Directstorage gör Nvidia gällande att det är en märkbar skillnad men att GPU-accelererad avkomprimering kommer att säkerställa god prestanda även med äldre gränssnitt.

På frågan om PCI Express 3.0 kommer att vara en begränsande faktor för Geforce RTX 3090 svarar bolaget att skillnaden mellan 3.0 och 4.0 "typiskt rör sig om mindre än några enstaka procent" och att skillnader i processorns prestanda är en större faktor. Det ska dock tilläggas att svaret specifikt handlar om RTX 3090 som har en imponerande minnesresurs om 24 GB och lär därför mer sällan behöva ta omvägar via PCI Express.

Angående hur Nvidia räknar CUDA-kärnor blir svaret mer komplicerat, och det är fortfarande inte fullt klarspråk som gäller:

The Ampere SM includes new datapath designs for FP32 and INT32 operations. One datapath in each partition consists of 16 FP32 CUDA Cores capable of executing 16 FP32 operations per clock. Another datapath consists of both 16 FP32 CUDA Cores and 16 INT32 Cores. As a result of this new design, each Ampere SM partition is capable of executing either 32 FP32 operations per clock, or 16 FP32 and 16 INT32 operations per clock. All four SM partitions combined can execute 128 FP32 operations per clock, which is double the FP32 rate of the Turing SM, or 64 FP32 and 64 INT32 operations per clock.

Doubling the processing speed for FP32 improves performance for a number of common graphics and compute operations and algorithms. [...]

Doubling math throughput required doubling the data paths supporting it, which is why the Ampere SM also doubled the shared memory and L1 cache performance for the SM. (128 bytes/clock per Ampere SM versus 64 bytes/clock in Turing). Total L1 bandwidth for GeForce RTX 3080 is 219 GB/sec versus 116 GB/sec for GeForce RTX 2080 Super.

Like prior NVIDIA GPUs, Ampere is composed of Graphics Processing Clusters (GPCs), Texture Processing Clusters (TPCs), Streaming Multiprocessors (SMs), Raster Operators (ROPS), and memory controllers.

Svaret konstaterar inte att beräkningsenheter (SM) är till hundra procent i paritet med sin motsvarighet i RXT 2000-seriens Turing-arkitektur. Det går dock att urskilja att hårdvaran sett till vad beräkningsenheterna och deras CUDA-kärnor kan prestera per klockcykel i de flesta meningsfulla scenarion faktiskt erbjuder dubblerad ökning ställt mot Turing.

Den sammanlagda kapaciteten för de fyra resurspartitionerna i en SM-enhet är 128 flyttalsberäkningar av typen FP32, en direkt dubblering av de 64 FP32-beräkningar Turing är kapabel till. Det innebär också att Ampere-korten kan utföra 128 FP32-beräkningar eller 64 integerberäkningar (INT32) och 64 FP32 per klockcykel, där Turing är begränsad till 64 FP32 eller 64 INT32 per klockcykel.

Nvidia har också dubblerat resurser utanför CUDA-kärnornas kapacitet för FP32 och INT32. Grafikkortens SM-enheter har också fått dubblerat L1-cache, där cache-bandbredden för Geforce RTX 3080 som exempel blir 219 GB/s jämfört med 116 GB/s för Geforce RTX 2080 Super. Utifrån dessa dessa detaljer förefaller det som att Nvidia faktiskt har fog för de påstådda antalen CUDA-kärnor i Geforce RTX 3000-familjen.

Frågestunden på Reddit finns sammanställd här.

Har du själv några frågetecken som kvarstår efter ovanstående Reddit-svar? Ja utöver oberoende testresultat förstås?