I Bobcat har varje kärna tillgång till 512 kilobyte L2-cacheminnet. Joe Macri berättar att AMD kastade ut även den designen och började om från scratch med Jaguar. I vissa lägen behöver en kärna tillgång till mer data än en annan, vilket manade företaget att ta fram ett L2-cacheminne som kunde delas mellan fyra kärnor.

Delat L2-cacheminne

Jaguar_7.jpg
Jaguar_8.jpg

Varje kärna har 512 kilobyte L2-cacheminne som är 16-vägsassociativt, vilket även gäller för föregångaren Bobcat. Cacheminnet är inklusive, vilket innebär att all data i instruktionscachen och datacachen (L1 Icache och L1 Dcache) måste finnas skrivet i L2-cacheminnet. Detta ger mindre tillgängligt utrymme i utbyte mot ökad energieffektivitet och prestanda när flera kärnor behöver tillgång till varandras data. Cacheminnet körs som standard i halva klockfrekvensen av processorkärnorna och klockas endast upp till helfart vid behov.

Ett nytt gränssnitt slår samman allt L2-cacheminne och får det att fungera som en stor klump på 2 megabyte. Gränssnittet tillåter upp till 24 samtidigt parade läs- och skrivtransaktioner. Därtill finns 16 snoop filter för att sortera ut och använda data som redan finns i cacheminnet för att spara ström och klockcykler.

Jaguar_1.jpg

Sammanfattningsvis hävdar AMD att optimeringarna i Jaguar inbringar 15–20 procent högre IPC och över 10 procent högre klockfrekvens än Bobcat, samtidigt som designen är mer energieffektiv än om Bobcat flyttats över till 28 nanometer. Det finns även stöd för flera instruktioner i den nya designen: SSE 4,1, SSE 4.2, AES, CLMUL, MOVBE, F16C, BMI1 och AVX. Minnesadresseringen går numera även upp till 40-bit.

En byggsten för framtiden

Jaguar_13.jpg

Fyra kärnor och det delade L2-cacheminnet utgör vad AMD kallar för en beräkningsenhet. När företaget väljer att implementera denna arkitektur i en kretsdesign är det denna beräkningsenhet företaget har att arbeta med. I dagens artikel Temash/Kabini huserar en sådan beräkningsenhet, det vill säga fyra kärnor och 2 megabyte delat L2-cacheminnet.

Förutom att användas i företagets egna systemkretsar kommer Jaguar hitta in på annat håll. Det här är potentiellt företagets viktigaste processorarkitektur på väldigt länge då det är en kritisk byggsten för AMD:s avdelning för skräddarsydda processorer: Semi-Custom Business Unit.

Jaguar utvecklades i syfte att vara flexibel och modulär för användning i skräddarsydda systemkretsar för intresserade klienter. Designen ger även AMD möjligheten att snabbare möta nya marknadstrender. Det första exemplet är Kyoto, en systemkrets på 11 watt för användning i bland annat HP:s mikroservrar Moonshot, som lanseras under tredje kvartalet 2013.

Jaguar_10.jpg
Jaguar_9.jpg

Designen är även relativt enkel att flytta mellan olika kontraktstillverkare (foundry) och till mindre tillverkningstekniker, vilket gynnar både AMD i det egna utbudet och dess klienter. Exempel på detta är att AMD redan pratar om Jaguar på 20 nanometer. Den pålästa minns att möjligheten fanns även i Bobcat, men det var någonting AMD aldrig utnyttjade.

Varje makroblock är en del som måste byggas om från scratch för användning i en ny tillverkningsteknik, exempelvis vid flytt från 28 nanometer hos TSMC till 28 nanometer Globalfoundries eller vid en krympning. I Bobcat är dessa block tio till antalet, en siffra som krymper till fem med Jaguar. Det innebär snabbare övergångar till nya tillverkningstekniker.

Under presskonferensen berättar Joe Macri att storleken på en Jaguar-kärna tillverkas i 28 nanometer hos TSMC är 3,1 mm2 – marginellt större än Cortex-A15 från ARM som mäter 3,05 mm2 med samma tillverkningsteknik. Trots detta hävdar han att Jaguar är det högre presterande alternativet med god marginal.

Avdelningen Semi-Custom Business Unit har idag endast två bekräftade designer, dock väldigt stora sådana i form av Playstation 4 och Xbox One. Företaget antyder även flitigt under presskonferensen att fler är på gång och att en av dessa kan vara en OEM-tillverkare.