Under gårdagen rivstartade Nvidia sin utvecklarkonferens GTC, där bolagets VD Jensen Huang tog tillfället i akt att avtäcka den senaste generationens arkitektur för beräkningskretsar – Blackwell. I fokus ligger den nya monsterkretsen B200, vilken mer än dubblerar prestandan och transistorantalet från föregångaren H200 i Hopper-familjen.

blackwell.jpg

B200 består av två sammanlänkade kretsar med 192 GB HBM3E-minne.

Likt föregångarna Hopper och Ampere ligger Nvidia väldigt nära de fysiska begränsningarna för dagens litografimaskiner gällandes kretsstorlek (reticle limit) med Blackwell. Kretsen tillverkas på en förfinad variant av TSMC:s skräddarsydda 4N-process (4NP) med ökad transistordensitet, men dock inte till den nivån som behövs för att uppnå bolagets ambitiösa prestandamål.

För att kringå de fysiska begränsningarna vid kretstillverkningen består därför den nya B200-kretsen av dubbla Blackwell-kretsar på 104 miljarder transistorer vardera, där dessa sammanlänkas på samma substrat med ett nytt höghastighetsgränssnitt med en bandbredd på 10 TB/s. Sammanlänkningen är helt transparent, vilket innebär att kretsen agerar som en enskild enhet som har tillgång till hela minnespoolen av 192 GB HBM3E med en minnesbandbredd på 8 TB/s.

gb200_superchip.jpg

Även Blackwell får en "superkrets" där dubbla H200 kombineras med processorn Grace.

Med den föregående arkitekturen Hopper introducerade Nvidia sitt "superkrets"-koncept, där två beräkningskretsar kombineras med bolagets ARM-baserade processor Grace på samma kretskort. Detta blir även fallet för Blackwell, där GB200 sammanlänkar två B200-kretsar tillsammans med Grace-kretsen, där den sistnämnda består av 72 stycken ARM Neoverse V2-kärnor. Kommunikation mellan kretsarna hanteras av företagets gränssnitt Nvlink-C2C med en bandbredd på 900 GB/s.

blackwell_perf.jpg

Den nya "superkretsen" erbjuder mer än dubbel prestanda över föregångaren Hopper.

Gällandes prestanda redovisar Nvidia siffror från GB200-lösningen och ställer denna mot sin motsvarighet i Hopper-familjen. Vid FP8-instruktioner presterar Blackwell 2,5 gånger bättre än Hopper med en teoretisk beräkningskraft på 20 PFLOPS. Med Blackwell introduceras även stöd för flyttalsoperationer med lägre precision (FP4), vilket enligt bolaget ska vara användbart för inference-laster vid maskininlärning. Beräkningskraften vid den typen av operationer ligger på 40 PFLOPS.

Nvidias Blackwell-kretsar B200 och GB200 väntas gå in i massproduktion inom kort med leverans senare under året.