Intel Alder Lake är hybridprocessorer med prestandafokus

Permalänk
Cyberman

Intel Alder Lake är hybridprocessorer med prestandafokus

Intel bekräftar officellt sina kommande prestandaprocessorer Alder Lake, vilka kombinerar högpresterande kärnor med energieffektiva sådana.

Läs hela artikeln här

Permalänk
Medlem

Lätt nu för konsumenten att välja......

Permalänk
Medlem

Ska bli spännande att se hur dessa presterar. Man blir ju sugen på att invänta LGA 1700 och DDR5-moderkorten för ett gigantiskt hopp från mitt. Bah! Denna konstanta väntan.

Permalänk
Medlem

Någon som sett någon spekulation om tex en 8 core 16 trådar av dagens Intel skulle stå sig mot en Alder Lake 8 core + 8 core.
Tänker på att 16 trådar i SMT motsvarar en 8 core till 16 core CPU beroende hur effektivt SMT trådarna kan utnyttjas.
Tror ni att Alder Lake blir utan SMT och skulle de 8 svaga kärnorna i Alder Lake kunna ger mer prestanda i praktiken jämfört med 16 SMT trådar?

Permalänk
Datavetare

Så är egentligen är det två konkreta saker här:

1. Målet är att lansera Alder Lake 2021, vilket betyder att det är garanterat på deras 10 nm "SuperFin".
2. Man använder Golden Cove, d.v.s. efterföljaren till Willow Cove, som "stora" kärnor.

Väldigt lite är känt kring Golden Cove utöver att Intel sagt att den kommer ha "signifikant ökning av IPC".

Det kan ju blir rätt bra förutsatt att ryktena kring IPC i Golden Cove inte är helt uppåt väggarna, de skvallrar om ~50 % högre jämfört med Skylake (Sunny Cove är ju ~18 % och Willow Cove ska ligga ~25 % högre, så är ett rätt stort hopp till Golden Cove då).

Edit: tydligen är det exakt samma mikroarkitektur i Sunny Cove och Willow Cove, skillnaden är att Willow Cove har 150 % större L2$ och 50 % större L3$. Svårt att se hur det skulle kunna ge mer än några få procent högre IPC, så skeptiskt till 25 % högre IPC mot Skylake.

Det betyder i alla fall att om ny Rocket Lake S kör på en bak-portering av Coves så är det i praktiken Sunny Cove då läckorna kring Rocket Lake S har visat samma L2$ storlek som Sunny Cove (512 kB).

Permalänk
Medlem

Man får nog vänta och se vad det levererar i verkligheten, har varit lite mycket snack och ingen verkstad på senare tid.

Permalänk
Medlem

Jag förstår inte riktigt poängen med att ha energieffektiva kärnor i stationära datorer. Är det bara för att Intels 10nm är så kass att TFP:n flyger i taket annars?

Permalänk
Datavetare
Skrivet av 14ccKemiskt:

Jag förstår inte riktigt poängen med att ha energieffektiva kärnor i stationära datorer. Är det bara för att Intels 10nm är så kass att TFP:n flyger i taket annars?

Om det faktiskt finns substans i att Golden Cove kommer ha IPC runt 50 % högre än Skylake får man nog utgå från att det kommer kräva en rätt gigantisk CPU-kärna för att uppnå.

Om så är fallet är det enda rimliga sättet att få en rimlig total storlek på kretsen att endera hålla nere antalet kärnor, fast det kan mycket väl bli som på Android att det kvittar om att jag kärnor faktiskt ger något i praktiken, PR-mässigt går det inte att pusha en high-end Android-telefon med mindre än att den har 8 kärnor idag.

Kort och gott, Intel kanske känner att de måste klämma in 16 kärnor i deras high-end desktop CPU 2021. Om ryktena kring Apples CPU stämmer kommer ju MBP vara utrustad med 12 kärnor 2021, d.v.s. en relativt slimmad bärbar dator.

Vill man köra glaset halvfullt finns det faktiskt en viss poäng med en hybrid-design även på desktop, i alla fall efter att man inser att Intel ändrade strategin en del för Atom med Tremont. Atom är fortfarande primärt designad för att maximera perf/W, inte absolut perf. Tremont har faktiskt rätt hög IPC, den är i Skylake/Ivy Bridge nivå fast det är inte möjligt att klocka Atom-designen lika högt.

Det man sagt kring nyheterna i Gracemont är: högre IPC samt bättre SIMD prestanda. Inte alls orimligt att tolka detta som att Gracemont kommer har IPC helt i nivå med Skylake, fast maximal frekvens lär stanna runt 3 GHz strecket.

En 8+8 konfiguration där de stora kärnorna har ~50 % högre IPC och klockar i alla fall 4,5 GHz (verkar ju som Willow Cove kommer nå 4,7 GHz initialt och AnandTech fick känslan att 5 GHz kommer vara nåbart med högre TDP) och de små har samma IPC som Skylake och maxar på 3 GHz har en all-core prestanda motsvarande en 16 kärnig Skylake på ~4,5 GHz.

Att schemalägga big.little för en stationär är faktiskt långt simplare än att göra det för en bärbar. På en stationär kör man bara policy: så länge det finns någon "stor" kärna ledig, lägg alltid jobbet där. Ger inte optimal perf/W, utan optimal absolut perf.

Sedan kan man notera att programvara tenderar hamna i en av två fack: latenskritiska program använder typiskt väldigt få CPU-kärnor, men behöver så snabba kärnor som möjligt. Rendering, simulering och liknande kan effektivt använda alla kärnor så där vill man ha maximal all-core prestanda. 8 stora kärnor är mer än nog för det första fallet, där handlar det oftast om <4 kärnor.

Vad jag ändå har på känn är att ovan ändå kommer bli lite pannkaka, tror det kommer fungera rent tekniskt så är inte det. Tror helt enkelt Apples kommande CPU kommer vara så bra att 16" MBP och iMac helt enkelt kommer matcha prestandan, fast med en CPU-design som är långt mer energieffektiv. I det läget lär Microsoft börja forcera en övergång till ARM64 på Windows för att inte MacOS tid som ett 10 % OS ska vara historia.

Permalänk
Medlem
Skrivet av Yoshman:

...
I det läget lär Microsoft börja forcera en övergång till ARM64 på Windows för att inte MacOS tid som ett 10 % OS ska vara historia.

Ska bli spännande se hur speciellt Intel reagerar på det. De har ju betett sig som barnrumpor så fort någon ens antyder på x86-emulering. Men nåväl, alla kan väl i teorin hoppa på ARM-tåget.

Permalänk
Datavetare
Skrivet av scara:

Ska bli spännande se hur speciellt Intel reagerar på det. De har ju betett sig som barnrumpor så fort någon ens antyder på x86-emulering. Men nåväl, alla kan väl i teorin hoppa på ARM-tåget.

ARM64 tåget

Detta är exempel på ARM, man kommer nog aldrig lyckas få en sådan CPU gå lika snabbt som x86

ldm r0, {r0, r3} sub r0, r3, r0 cmp r0, #71 movls r0, #0 movhi r0, #1 bx lr

detta är motsvarande på ARM64,

ldp x1, x0, [x0] sub x0, x0, x1 cmp x0, 71 cset w0, hi ret

d.v.s. dessa är två helt distinkta instruktionsuppsättningar.

För fullständighets skull kan vi ta med x86_64, den är skiljer sig ungefär lika mycket från de andra som de skiljer sig från varandra

mov rax, QWORD PTR [rdi+8] sub rax, QWORD PTR [rdi] cmp rax, 71 seta al ret

Just exemplet ovan visar inte det, men generellt är fördelen med ARM att det ger extremt kompakt (få instruktioner) kod. Betydligt kompaktare än ARM64, x86 och x86_64 i genomsnitt*. Nackdelen är att det som gör ARM-kod så kompat gör det också extremt komplicerat att skapa en high-end CPU för den ISAn (toksvårt att få riktigt hög IPC).

ARM64 tenderar vara väldigt snarlik x86_64 i kodstorlek. Fast här är ISA specifikt designad för att göra det enkelt att nå brutal ILP (Instruction Level Parallelism). Genomsnittlig ILP är övre gränsen för IPC, av det vi ser från både Apple och ARM pekar det på att ILP för ARM64 vida överstiger ILP hos x86_64 i "normala" program.

* Har Ubuntu 20.04 på ARM, ARM64 och x86_64. Tar man t.ex. "bash" (är exakt samma program) är storlekarna

CPU

Size (MB)

ARM

0,9

ARM64

1,2

x86_64

1,2

Permalänk
Medlem
Skrivet av Yoshman:

generellt är fördelen med ARM att det ger extremt kompakt (få instruktioner) kod. Betydligt kompaktare än ARM64, x86 och x86_64 i genomsnitt*. Nackdelen är att det som gör ARM-kod så kompat gör det också extremt komplicerat att skapa en high-end CPU för den ISAn (toksvårt att få riktigt hög IPC).

ARM64 tenderar vara väldigt snarlik x86_64 i kodstorlek. Fast här är ISA specifikt designad för att göra det enkelt att nå brutal ILP (Instruction Level Parallelism). Genomsnittlig ILP är övre gränsen för IPC, av det vi ser från både Apple och ARM pekar det på att ILP för ARM64 vida överstiger ILP hos x86_64 i "normala" program.

* Har Ubuntu 20.04 på ARM, ARM64 och x86_64. Tar man t.ex. "bash" (är exakt samma program) är storlekarna

CPU

Size (MB)

ARM

0,9

ARM64

1,2

x86_64

1,2

Intressant.
Om ARM-varianten bara landar på 0,9MB. Antyder det om att det konsekvent blir en fördel i bruket av CPU'ns cacheminne?
Det är ju kul om L1 och L2 räcker så långt som det bara går för maximal exekveringshastighet.

Permalänk
Datavetare
Skrivet av lastninja:

Intressant.
Om ARM-varianten bara landar på 0,9MB. Antyder det om att det konsekvent blir en fördel i bruket av CPU'ns cacheminne?
Det är ju kul om L1 och L2 räcker så långt som det bara går för maximal exekveringshastighet.

Cache är bara viktigt till en viss gräns. Fördubbling av cache-storlek minskar "miss-rate" ungefär med en faktor √2. I de flesta fall har moderna high-end x86 så pass mycket cache att "hit-rate" är väl över 90 %, d.v.s. en minskning av "miss-rate" med faktor 1,4 gör i praktiken väldigt lite.

Vi lär få ett smakprov på det med Willow Cove där L2$ storleken ökat med 150 % och L3$ ökat med 50 % över Sunny Cove samtidigt som man kör med samma mikroarkitektur. Min gissning är att det kommer ge några få procentenheter i genomsnitt, ökning av L2$ kan ge lite mer i specifika fall.

Vinsten för ARM finns ändå, då främst på de enklaste modellerna som tenderar ha väldigt liten cache (typ 8-16 kB L1$ och ibland ingen L2$)

Mer spännande att se vad Intel ska försöka sig på i Golden Cove (stora kärnan i Alder Lake). Själva säger Intel att Golden Cove ska få "strong IPC increase" och ryktet säger ~50 % höger IPC över Skylake.

Frågan är vad man ens kan göra får att nå något sådant (och det lite tragiska är att även om man lyckas når man inte ens IPC hos dagens Iphone CPU, fast den klockar ju <3 GHz man når faktiskt inte ens riktigt Cortex X1 i IPC).

En sak som jag, utan att förstå i detalj vad det betyder på gate-nivå, kan tänka mig är att utnyttja följande fall som borde hända hyfsat ofta i framförallt Intels Coves givet deras brutalt stora "out-of-order" fönster (det är väsentligt större än någon annan CPU-design)

Tänk fallet att CPUn spekulerat hundratals instruktioner i förväg (Sunny Cove kan spekulera över 300 instruktioner), sedan kommer man till en punkt där taget hopp betyder att man hoppar över en/några få instruktioner för att sedan fortsätta samma väg oavsett om det felspekulerade hoppet togs eller ej. Kanske är något likt det man pillar med i Golden Cove. Om det är så borde det inte ta så där gigantiskt många transistorer, fast det är självklart något som även kan göras i andra CPU-designer (med lite mindre utväxling då de inte har fullt så stort out-of-order fönster, historiskt har Intel haft det största men det kan ju ändras)

Permalänk
Medlem
Skrivet av Yoshman:

Cache är bara viktigt till en viss gräns. Fördubbling av cache-storlek minskar "miss-rate" ungefär med en faktor √2. I de flesta fall har moderna high-end x86 så pass mycket cache att "hit-rate" är väl över 90 %, d.v.s. en minskning av "miss-rate" med faktor 1,4 gör i praktiken väldigt lite.

Vi lär få ett smakprov på det med Willow Cove där L2$ storleken ökat med 150 % och L3$ ökat med 50 % över Sunny Cove samtidigt som man kör med samma mikroarkitektur. Min gissning är att det kommer ge några få procentenheter i genomsnitt, ökning av L2$ kan ge lite mer i specifika fall.

Vinsten för ARM finns ändå, då främst på de enklaste modellerna som tenderar ha väldigt liten cache (typ 8-16 kB L1$ och ibland ingen L2$)

Mer spännande att se vad Intel ska försöka sig på i Golden Cove (stora kärnan i Alder Lake). Själva säger Intel att Golden Cove ska få "strong IPC increase" och ryktet säger ~50 % höger IPC över Skylake.

Frågan är vad man ens kan göra får att nå något sådant (och det lite tragiska är att även om man lyckas når man inte ens IPC hos dagens Iphone CPU, fast den klockar ju <3 GHz man når faktiskt inte ens riktigt Cortex X1 i IPC).

En sak som jag, utan att förstå i detalj vad det betyder på gate-nivå, kan tänka mig är att utnyttja följande fall som borde hända hyfsat ofta i framförallt Intels Coves givet deras brutalt stora "out-of-order" fönster (det är väsentligt större än någon annan CPU-design)

Tänk fallet att CPUn spekulerat hundratals instruktioner i förväg (Sunny Cove kan spekulera över 300 instruktioner), sedan kommer man till en punkt där taget hopp betyder att man hoppar över en/några få instruktioner för att sedan fortsätta samma väg oavsett om det felspekulerade hoppet togs eller ej. Kanske är något likt det man pillar med i Golden Cove. Om det är så borde det inte ta så där gigantiskt många transistorer, fast det är självklart något som även kan göras i andra CPU-designer (med lite mindre utväxling då de inte har fullt så stort out-of-order fönster, historiskt har Intel haft det största men det kan ju ändras)

Coolt!! Tack för svaret, och utvecklandet+spekulationerna.
Tanken var ju att ju mindre kod, desto mer att få plats i lilla L1. Alltså att x86 (32-bit) och ARM (32-bit) borde ha massiva fördelar cachehanteringsmässigt jämfört med alla nyare 64-bits arkitekturer. Ska bli kul att se vad Golden Cove bjuder till bordet, och om de lyckas så som du säger ..utan att "trasa sönder" säkerheten, som skett med tidigare "intel features" (tex i Haswell) som sedan måste disablas.

out-of-order arkitekturerna har ju haft massa fördelar (och säkerhetsnackdelar), men måste erkänna att in-order var roligare att programmera för. Lite som bilmekanikerna som tyckte dom tappade kontroll när motor&växellåda&dyl skulle styras av en dator, där mecket och förståelsen för diverse problem blev svårare för att mycket skulle tunas o styras digitalt, så känns det likadant med out-of-order execution, att man tappat kontroll.