X3D-processorerna kräver extra utveckling, de har bl.a. mer komplicerad paketering. Att man fokuserar på icke-X3D initialt kanske inte blir så konstigt när man ser detta
https://tpucdn.com/review/amd-ryzen-7-9700x/images/performance-matchup-7800x3d.png
Spel är det avvikande fallet, nästan allt annat påverkas inte alls av mer L3-cache. Tvärtom blir det lite långsammare p.g.a. att den större L3-cachen har lite högre latens samt sättet den paketeras gör att CPU-frekvensen blir lite lägre.
Spel är stort på PC, men är fortfarande så att en klar majoritet av alla datorer används primärt till annat än spel.
Det som är en "clean slate" design är i första hand front-end, back-end är rätt likt Zen4. Den stora nyheten är att Zen5 är första Zen-designen från AMD som kan avkoda mer än 4-instruktioner.
Både AMD och Intel har identifierat front-end som en viktig orsak till att de har hamnat rätt långt efter Apple och numera även Qualcomm och Arm i "prestanda per cykel". Alla de 3 senare har front-ends som är 8-10 wide.
Att göra en 8 wide x86-frontend är dyrt. Exakt hur dyrt får vi snart erfara då det är vad Intel stoppat in i Lion Cove (Lunar/Arrow Lake). Det är betydligt dyrare än att göra en ARM64 8-wide, det är ungefär kvadratisk kostnad mot linjär kostnad m.a.p. bredd då x86 instruktioner har variabel storlek medan de alltid är 4 bytes på ARM64.
Ett sätt att öka bredden med mer linjär kostnad är att inte göra den 8-bred, utan att göra två st 4-breda som jobbar parallellt. Det är exakt vad Zen5 använder. Intel har redan testat detta med bra resultat i Crestmont som har två st 3-breda avkodare (för kommande Skymont kör man 3 st 3-wide, får se om det är bra/dåligt...).
Nackdelen med flera smalare avkodare är att det inte ger lika stor prestandaökning. Sättet AMD/Intel använder detta är att varje gång man kommer till en hoppinstruktion så börjar den "andra" avkodaren direkt hämta instruktioner där hoppet landar (i Skymont kan man då hantera två hopp samma cykel på detta sätt).
Angående effekterna av denna rätt stora förändring i Zen5 verkar utkristallisera sig allt mer. I genomsnitt ger det högre IPC, men precis som de läckta GB6 siffrorna där man först kunde misstänka "det kommer av engineering sample..." då specifikt ett deltest visade på konsekvent lägre prestanda hos Zen5 mot Zen4 (Dijkstra testet) ser vi nu andra applikationer med liknande prestandaflaskhalsar (t.ex compress/uncompress med 7-zip) uppvisa samma beteende.
Vad alla dessa primärt behöver är extremt snabb svarstid på mer eller mindre slumpmässiga minnesaccesser. Det verkar ha blivit långsammare som del i denna omdesign av CPU-kärnan.
Inget konstigt att det blir så, men historiskt har AMD/Intel alltid kunnat "gömma" sådana effekter då de ändå fått högre prestanda p.g.a. högre frekvens.
Edit: huvudförändringen är så klart införande av 512-bit datapath för AVX-512 (noterbart något man valde att inte göra för mobilversionen av Zen5). Vi ser också att vissa "AI-workload" som kan dra bra nytta av detta är de som ser störst relativ prestandaökning.