AMD Kaveri – Steamroller, GCN och 28 nanometer

Gemensamt för tidigare A-serier är att lanseringen inletts med bärbara datorer, för att senare anlända till stationära. Med lanseringen av fjärde generationen, Kaveri, bryter AMD traditionen och inleder istället med stationära.

AMD Tech Day  - January 14 NDA_33.jpg
AMD Tech Day  - January 14 NDA_11.jpg
AMD Tech Day  - January 14 NDA_10.jpg
AMD Tech Day  - January 14 NDA_29.jpg

Till skillnad från Richland, som var en uppfräschning av Trinity, bjuder Kaveri på flera nyheter. Förutom övergången till en ny tillverkningsteknik syns en förbättrad grafikdel enligt arkitekturen Graphics Core Next (GCN) och på CPU-sidan syns Steamroller – tredje generationens Bulldozer-arkitektur.

28 nanometer SHP hos Globalfoundries

När AMD lanserade den första A-serien (Llano) i mitten av 2011 var det med en 32 nanometerteknik från Globalfoundries. Det här ändrades inte med varken Trinity eller Richland, men 2,5 år senare är det alltså dags för AMD för ett nytt teknikkliv. Valet faller på Globalfoundries 28 nanometer Super High Performance (SHP).

AMD Tech Day  - January 14 NDA_8.jpg

Medan 28 nanometer i vanliga fall skulle vara ett relativt litet kliv framåt är det den här gången annorlunda. Tidigare 32 nanometerteknik som nyttjades av AMD var optimerad för kretsar med riktigt höga klockfrekvenser och var mindre optimal för GPU-arkitekturer, där transistordensitet oftast anses viktigare.

Den nya tekniken ändrar dock på detta och är bättre balanserad för att tillgodose behoven både CPU- och GPU-arkitekturen i Kaveri. Antalet transistorer uppgår till hela 2,41 miljarder med kretsarean 245 mm2, att jämföra mot Richland på 246 mm2 och 1,30 miljarder transistorer.

Tekniken bjuder även på markant förbättrad energieffektivitet vid låga TDP-värden, någonting AMD hoppas ska göra Kaveri till ett mer intressant alternativ för dels bärbara datorer, dels den växande marknaden stationära datorer i små formfaktorer och mikroservrar.

AMD Tech Day  - January 14 NDA_5.jpg
AMD Tech Day  - January 14 NDA_31.jpg
AMD Tech Day  - January 14 NDA_32.jpg
AMD Tech Day  - January 14 NDA_148.jpg

Övergången innebär däremot en tydlig kompromiss. Medan det praktiskt taget enbart handlar om fördelar vid lägre TDP-värden är det inte fallet vid högre. Till SweClockers berättar AMD att Kaveri har ett sweet spot på runt 45 watt, där prestanda/watt-förhållandet är som bäst. Kaveri ska "endast" prestera cirka 15 procent bättre på 95 watt än vid 45 watt, varför samtliga marknader förutom stationära inte kommer gå över det gyllene värdet.

Generellt talar AMD om ett bortfall på cirka 10 procent i maximal klockfrekvens för CPU-delen vid högre TDP-värden, någonting företaget kompenserar med en förbättrad arkitektur.

Steamroller – upp till 20 procent högre IPC

Bulldozer-arkitekturen skulle ta AMD tillbaka i prestandamatchen och efter en lång rad förseningar lanserades den i FX-serien. Processorerna kritiserades hårt till följd av dess höga strömförbrukning i förhållande till prestandan, någonting företaget förbättrade med Piledrier som bjuder på mindre arkitektoniska förbättringar och högre klockfrekvenser med bibehållen strömförbrukning.

AMD Tech Day  - January 14 NDA_12.jpg
AMD Tech Day  - January 14 NDA_13.jpg

Med Steamroller har AMD gjort större förändringar i grundarkitekturen Bulldozer. Modul-konceptet där två kärnor delar vissa resurser kvarstår, men det finns nu fler resurser att tillgå.

Den största förbättringar tillskrivs att varje modul har två Decode-enheter, en för vardera kärna. Det skiljer från tidigare där båda kärnor i en modul har en delad Decode. Därutöver syns ett flertal optimeringar i arkitekturens Front End.

De optimeringar som gjorts handlar inte om att förbättra beräkningsenheterna för heltal och flyttal, som lämnats till stor del orörda. Istället handlar det om att "mata kärnorna" snabbare, vilket ska ge upp till 20 procent högre IPC. Någonting AMD förändrat är flyttalsenheten, där företaget uppger sig hittat komponenter som kunnat plockas bort utan att påverka prestandan negativt.

Någonting som främst kommer spela roll för mobila applikationer är en förändring i L2-cacheminnet. Målet med konsumentprocessorer är att snabbt utföra en uppgift och sedan försätta så stora delar av kretsen som möjligt i vila, vilket är nyckeln till varför Intel Haswell har ~50-60 procent längre drifttid än en motsvarande bärbar dator med den föregående arkitekturen Ivy Bridge.

AMD:s modul-design innebär att L2-cacheminnet delas av två kärnor. Med en storlek på hela 2 048 kB (2MB) är det en stor del som måste väckas upp även för mindre krävande uppgifter. Cacheminnet är numera flexibelt och kan justeras i steg om 512 KB, 1 024 KB, 1 536 KB och 2 048 KB. Den här förändringen är en av de stora anledningarna till varför Steamroller ska vara 15 procent mer energieffektiv än föregångaren Piledriver.

Graphics Core Next

Grafikarkitekturen i Kaveri är direkt tagen ur grafikkretsen Hawaii, som huserar den uppdaterade versionen av Graphics Core Next. Den nya versionen är framförallt mer strömeffektiv, till stor del tack vare att geometrienheterna kan utföra fler beräkningar utan att behöva flytta data fram och tillbaka till primärminnet.

AMD Tech Day  - January 14 NDA_14.jpg
AMD Tech Day  - January 14 NDA_15.jpg
AMD Tech Day  - January 14 NDA_16.jpg
AMD Tech Day  - January 14 NDA_17.jpg
Kaveri_press_deck_5_Trueaudio.jpg
AMD Tech Day  - January 14 NDA_25.jpg
AMD Tech Day  - January 14 NDA_26.jpg
AMD Tech Day  - January 14 NDA_27.jpg

Andra finesser i grafikdelen som inte finns i tidigare APU:er är stödet för Trueaudio och det nya gränssnittet Mantle. Arkitekturen är även särskilt anpassad för GPGPU-beräkningar, till skillnad från tidigare APU:er från AMD.

HSA och minnesarkitekturen HUMA

AMD har i åratal pratat om fördelarna med att utföra generella beräkningar med den integrerade grafikdelen (GPGPU). Trots att CPU och GPU suttit på samma krets har delningen av primärminnet varit mindre optimal.

Den största nackdelen har tidigare varit att processorkärnorna måste gå igenom flera steg för att komma åt, kopiera och använda data från grafikdelens minne, eller vice versa. Det är en tidskrävande process som i många fall eliminerar de potentiella fördelarna beräkningar med den integrerade grafikdelen har.

Kaveri_press_deck_4_HSA.jpg

Med Kaveri introducerar AMD Heterogenous Unified Memory Adress (HUMA). Både CPU och GPU delar fortfarande på primärminnet, den avgörande skillnaden är att de båda delar fysiskt och virtuellt minne. Det innebär att den enas data kan läsas av de andra utan kopieringar fram och tillbaka. HUMA är implementerat på hårdvarunivå och kräver således inga förändringar i operativsystemet.

AMD menar att den nya minnesarkitekturen är det som kommer göra GPGPU-beräkningar till vardagsmat inom konsumentapplikationer. Många utvecklare har dock is i magen och väntar på att ramverket OpenCL 2.0 ska färdigställas. Passande nog hävdar AMD att Kaveri är världens första krets med fullt stöd för OpenCL 2.0.