Arkitekturen Intel Xe

Intels satsning på arkitekturen Xe sträcker sig bortom gaming och är även, om inte främst, avsedd för generella beräkningar och datacenter. Bolaget kan bevisligen gör processorer i världsklass, men det finns många scenarion där de blir omsprungna av beräkningskort från AMD och Nvidia. För att möta de många olika behov där en arkitektur med tusentals beräkningsenheter briljerar gjorde Intel en minst sagt ambitiös satsning.

Intel-Architecture-Day-2020-Presentation-Slides-128.jpg

När det begav sig var Xe inte en arkitektur utan hela fyra stycken avgreningar avsedda fyra segment. Detta kan jämföras med AMD och Nvidia, som båda har två arkitekturer som de underhåller och löpande uppdaterar. För AMD:s del är det Radeon DNA (RDNA) för gaming och Compute DNA (CDNA) för datacenter, medan Nvidia nu senast har Ada Lovelace för gaming och Hopper för datacenter.

Intels strategi skulle bli mer finkornig. Den första arkitekturen är Xe-LP (Low Power), vars fokus är energieffektivitet och användning som integrerad grafikkrets i processorer. Den andra Xe-HPG (High Performance Gaming) för spelmarknaden. Den tredje Xe-HPC för (High Performance Computing) för servrar och datacenter. Och den fjärde, Xe-HP (High Performance), som var någon av oklar bastard placerad mellan Xe-HPG och Xe-HPC.

En tid in i utvecklingen strök Intel Xe-HP, då den enligt Intel utvecklades till Xe-HPG och Xe-HPC. Det ändamål den arkitekturen var tänkt för täcktes helt enkelt av de andra två, vars segment är mer tydligt definierade. Kvar blev "enbart" tre arkitekturer, vilket fortfarande är ett enormt åtagande för en aktör som är färsk på området.

I början av februari 2023 publicerades en intervju på hårdvarusajten Hardwareluxx, där Intel medgav att de tog sig an för mycket på en gång och att det hade varit bättre att börja med en arkitektur. Med tiden växte det fram att fyra olika arkitekturer var ett enormt åtagande, med höga utvecklingskostnader inom hårdvara och mjukvara. Att bolaget inte kunde fokusera sina resurser är också ett av många skäl till att drivrutinerna för bolagets Arc-grafikkort var minst sagt undermåliga vid lansering.

Värt att nämna är att tanken bakom flera arkitekturer var god. Det finns en anledning till varför AMD och Nvidia samkör två olika arkitekturer. En för gaming, en för datacenter. På så vis kan en design optimeras för olika ändamål, delar i arkitekturen som inte behövs kan plockas bort och transistorerna kan användas till annat. När det går som tänkt blir resultatet en mer effektiv design inom såväl prestanda som energiförbrukning och kostnad.

Exakt hur Intel väljer att göra framgent återstår att se, men det är klart att det blir färre avgreningar av Xe-arkitekturen. Med ovan i åtanke tillkommer andra utmaningar, då bolaget måste balansera behoven mellan olika segment. Behoven för datacenter, grafikkort för arbetsstationer eller gaming och integrerade grafikkretsar i processorer är väldigt olika.

För stort fokus på integrerad grafik begränsar prestanda och funktionalitet i högre segment som gaming eller datacenter, medan det omvända gör den integrerade lösningen för stor och mindre energieffektiv. Om man ska dra det hela till sin spets finns det inte en arkitektur som är bäst på allt – det är därför processorer och grafikkort båda existerar jämte varandra.

Intel Xe-HPG – arkitekturen för gaming

Här är det just Xe-HPG som ska avhandlas och den består i dagsläget av två grafikkretsar. Den ena är ACM-G11 som huserar i Intel Arc A380 och den andra är ACM-G10, vars kapacitet är fyrdubblad och tar plats i Arc A770 och Arc A750.

Xe HPG Microarchitecture-page-013.jpg
Xe HPG Microarchitecture-page-004.jpg

Grafikkretsen ACM-G10 består på ett övergripande plan av 8 Render Slices, vilka är själva grundbulten i arkitekturen. Vill Intel exempelvis göra en större eller mindre grafikkrets är det primärt att ändra antalet Render Silces som är nyckeln. Dessa Render Slices knyts samman och kommunicerar med varandra över ett L2-cacheminne på 16 MB och arbete mellan samtliga fördelas av en Global Dispatch-enhet. Till allt detta hör en minnesbuss med bredd på 256 bitar och stöd för GDDR6-minne.

Xe HPG Microarchitecture-page-003.jpg
Xe HPG Microarchitecture-page-007.jpg
Xe HPG Microarchitecture-page-008.jpg
Xe HPG Microarchitecture-page-009.jpg

Varje Render Slice huserar 4 Xe-kärnor vardera, vilka i sin tur har 16 vektorenheter (eng. Vector Engine) med 8 aritmetiska logiska enheter (ALU) i vardera. När detta räknas samman har grafikkretsen ACM-G10 totalt 512 beräkningsenheter (EU) och 4 096 ALU:s, vilket är den siffra som man skulle kunna säga motsvarar Nvidias CUDA-kärnor och AMD:s streamprocessorer. Vidare huserar varje Render Slice 8 texturenheter och 1 rastreringskärna (ROP), för totalt 512 respektive 32 stycken.

Xe HPG Microarchitecture-page-010.jpg
Xe HPG Microarchitecture-page-011.jpg
XeSS-page-001.jpg
XeSS-page-002.jpg
XeSS-page-003.jpg
XeSS-page-004.jpg
XeSS-page-005.jpg
XeSS-page-006.jpg
XeSS-page-007.jpg
XeSS-page-008.jpg
XeSS-page-009.jpg
XeSS-page-010.jpg
XeSS-page-011.jpg
XeSS-page-012.jpg
XeSS-page-013.jpg
XeSS-page-014.jpg
XeSS-page-015.jpg
XeSS-page-016.jpg
XeSS-page-017.jpg

Att ta fram arkitekturer handlar om att väga saker mot varandra och prioritera, och från Intels sida har de investerat i framtiden. Varje vektorenhet är parad med med en Xe Matrix Extension-kärna (XMX), vilket är Intels motsvarighet till Nvidias Tensor-kärnor, för totalt 512 stycken. Det här kommer dels till följd av Xe-arkitekturens fokus på datacenter, men att kunna utföra stora mängder matrisoperationer kommer även arkitekturen till del med andra tekniker för maskininlärning (ML) och artificiell intelligens (AI) på konsumentsidan. Däribland uppskalningstekniken Xe Super Sampling (XESS), vilket är bolagets motsvarighet till Nvidias Deep Learning Super Sampling (DLSS).

Ray Tracing-page-002.jpg
Ray Tracing-page-003.jpg
Ray Tracing-page-004.jpg
Ray Tracing-page-005.jpg
Ray Tracing-page-006.jpg
Ray Tracing-page-007.jpg
Ray Tracing-page-008.jpg
Ray Tracing-page-009.jpg
Ray Tracing-page-010.jpg
Ray Tracing-page-011.jpg
Ray Tracing-page-012.jpg
Ray Tracing-page-013.jpg
Ray Tracing-page-014.jpg

Intel har under lång tid investerat i ray tracing och det är något de tar fasta på med Alchemist. Varje Render Slice har 4 ray tracing-enheter för totalt 32 stycken, vilka är betydligt färre till antalet än vad Nvidia och AMD erbjuder, men kapaciteten hos varje är högre. Det här syns i tester där Intel Arc A770 klarar av att hålla jämna steg vid ray tracing som grafikkort från Nvidia med dubbla antalet RT-kärnor.

Xe Display Engine

Sett till bildanslutningar finns stöd för upp till HDMI 2.1 och Displayport 1.4a, men det uppges även vara "2.0 10G-redo". Det betyder att det officiellt finns stöd för Displayport 1.4a, men att själva hårdvaran klarar av Displayport 2.0 med UHBR 10 för en bandbredd om 40 Gbps. Att Intel valt en sådan formulering beror sannolikt på att det vid lansering inte fanns skärmar med stöd för gränssnittet och att de helt enkelt inte hade någonting att certifiera mot.

Xe HPG Microarchitecture-page-015.jpg

Det officiella stödet för Displayport 1.4a med HBR3 har en överföringshastighet om 32,4 Gbps, men 20 procent försvinner till följd av overhead med 8b/10b encoding och den faktiska dataöverföringen lägger sig därför på 25,92 Gbps. Med Displayport 2.0 och UHBR 10 finns en överföringshastighet om 40 Gbps, en skillnad som kan te sig relativt liten, men här går standarden också över till 128b/130b encoding med betydligt lägre overhead och den faktiska bandbredden lägger sig på 39,38 Gbps – 54 procent högre.

Sett till skärmstöd anger Intel tre exempel på vad grafikkorten klarar av att leverera. Upp till två skärmar i 8K UHD och 60 Hz med High Dynamic Range (HDR) påslaget, eller fyra 4K UHD-skärmar i 120 Hz med HDR. Likt AMD med RDNA 3 talar sig även Intel varma om skärmar med riktigt hög bildfrekvens, där 1 920 × 1 080 pixlar eller 2 560 × 1 440 pixlar i 360 Hz omnämns. Värt att påpeka är att alltsammans är med kompression via Display Stream Compression (DSC).

Jämfört mot konkurrensen lägger sig Intel över Nvidia, som trots att de har världens snabbaste grafikkort fortfarande enbart stödjer Displayport 1.4a, men efter AMD som har stöd för Displayport 2.1 UHBR 13.5 (53,17 Gbps, overhead inräknat). Idag har det ingen vidare praktisk betydelse och Intels grafikkort lär knappast stå pall för att driva spel i skyhöga upplösningar kombinerat med hög bildfrekvens.

Xe HPG Microarchitecture-page-014.jpg

En av styrkorna hos Intels grafikkort jämfört med både AMD och Nvidia är stöd för mediafunktioner med det Intel kallar Xe Media Engine. Den stödjer såväl encode som decode av VP9, H.264, H.265 "HEVC" och AV1, en uppsättning som inte gäller hos konkurrenterna.