Arkitekturen Haswell

Haswell_Tick_Tock.jpg

Tick-Tock går ut på att Intel vartannat år introducerar en ny tillverkningsteknik med en redan befintlig arkitektur (Tick), och att åren däremellan lansera en ny arkitektur (Tock) på en redan befintlig tillverkningsteknik. Den här modellen används för att minimera riskerna vid övergången till en ny geometri kan innebära och dikterar Intels utvecklingstakt. Haswell blir den fjärde arkitekturen som introduceras enligt Tick-Tock-modellen.

Likt tidigare är arkitekturen en evolutionär utveckling från föregående, i det här fallet Ivy Bridge, men bjuder i vanlig ordning på flera nya innovationer. En av de stora nyheterna är ett ökat fokus på energieffektivitet och mycket av de förbättringarna kan tillskrivas att Haswell, till skillnad från Ivy Bridge, är anpassad för företagets 22 nanometer med tillhörande FinFET-transistorer.

Haswell_1.jpg
Haswell_2.jpg
Haswell_3.jpg
Haswell_4.jpg
Haswell_5.jpg
Haswell_6.jpg
Haswell_7.jpg
Haswell_8.jpg

Ett led i fokuset på högre effektivitet är integrerad spänningsreglering. Detta kallas Fully Integrated Voltage Regulator (FIVR) och utlovar renare strömtillförsel och mer finmaskig justering av processorns spänningar för CPU, GPU, System Agent, I/O och PLL. Rippeln ska vara "nästan icke-existerande", med ett värsta scenario på plus/minus 0,002 volt. Variationer på grund av temperaturförändringar specificeras till ynka 0,001 volt.

Intel FIVR är uppbyggd i 20 celler, där varje kan leverera upp till 25 ampere. Cellerna är dessutom programmerbara till en kopplingsfrekvens på 30–140 MHz och innehåller 16 faser vardera – totalt 320 stycken. Denna design uppges ta upp endast 1/50-del av arean i jämförelse med traditionella VRM-designer.

Den integrerade spänningsregleringen ska resultera i lägre strömförbrukning i bärbara såväl som stationära datorer, samt ge möjligheten att reducera den totala arean på moderkortet. Nackdelen är dock att det som traditionellt varit en del på moderkortet nu måste kylas av processorns kylare.

Arkitekturen Haswell

Övergripande förblir arkitekturens Front End närmast identisk med Ivy Bridge. Nyheterna här är att Intel förbättrat Prefetchern och enheten för Branch Prediction, vilket företaget alltid gör vid ett generationsskifte för att öka arkitekturens IPC (instruktioner per klockcykel). L1-instruktionscacheminnet ligger kvar på 32 kilobyte och det ackompanjeras av en micro-ops cache av inklusive design.

Haswell_1.jpg
Haswell_2.jpg
Haswell_3.jpg
Haswell_4.jpg
Haswell_5.jpg
Haswell_6.jpg

Vidare till beräkningar finns fler OOO-resurser (out of order) än tidigare, med fler buffers till Haswells förfogande. Det här är en del i att öka den enkeltrådade prestandan samt att kunna tillgodogöra de två nya beräkningsportarna. De nya portarna möjliggör bland annat högre prestanda vid beräkningar i heltal, alternativt att processorkärnan kan exekvera flyttal och heltal samtidigt.

Haswell_7.jpg
Haswell_8.jpg
Haswell_9.jpg
Haswell_10.jpg

Med Sandy Bridge introducerades den nya instruktionsuppsättningen AVX (Advanced Vector Extension), vilken nu får utökad funktionalitet och stöps om till AVX2. Det innebär stöd för 256-bit heltalsberäkningar samt 256-bit FMA (Fused Multiply-Add). Det sistnämnda tillåter addition och multiplicering i samma instruktion, samt ökar den teoretiskt prestandan vid flyttal tvåfaldigt mot Ivy Bridge.

De utökade möjligheterna för flyttals märks av i andra led, där cacheminnets bandbredd fördubblas mot tidigare. Varje klockcykel kan två 256-bit instruktioner kan läsas in och en skrivas. Gränssnittet från L1- till L2-cacheminne har också fördubblats, vilket möjliggör en läsning varje klockcykel istället för varannan klockcykel som i Ivy Bridge.

Frikopplat L3-cacheminne

L3-cacheminnet får inte avnjuta samma förbättring i bandbredd, men det har skett förändringar även här. I Sandy Bridge och Ivy Bridge är processorkärnorna sammankopplade med L3-cacheminnet, vilket ger lägre fördröjningar men innebär även att de båda måste ha samma klockfrekvens och spänning. Det är inte den mest eleganta lösningen i kombination med den integrerade grafikdelen, som också nyttjar detta cacheminne.

Med Ivy Bridge körs L3-cacheminnet ofta i låga klockfrekvenser och låg spänning när grafikdelen behöver ta del av det. För att öka cacheminnets prestanda måste även processorkärnorna klockas upp tillsammans med det, vilket är väldigt energiineffektivt. I Haswell frikopplas L3-cacheminnet, vilket således innebär att den kan köras i en egen klockfrekvens med egen spänning. Nackdelen är något högre fördröjningar mellan cacheminnet och processorkärnorna.