Detta är ett utmärkt exempel på hur en benchmark som ur väldigt många aspekter är en riktigt bra test på att ge en indikation på "interaktiv prestanda" totalt kan missförstås när man inte inser vad som faktiskt mäts.
För det första måste man förstå vad Geekbench faktiskt försöker ge ett mått på: interaktiv prestanda. Det betyder att man specifik testar systemet när det kan utnyttja sina boost-funktioner till max, vilken kylning och hur mycket CPUn drar i genomsnitt är alltså i praktiken totalt irrelevant i just detta test.
Nästa del kräver lite insikt i de program, bibliotek och algoritmer som testas. De flesta är enkeltrådade och det är helt naturligt då interaktiva laster tenderar i de flesta fall nästan helt sakna skalning med CPU-kärnor. Då bör vän av ordningen fråga sig: men vi ser ju lysande skalning i multitrådtesterna!!! Exakt, den är helt orimligt hög givet vad som faktiskt testas.
Enkeltrådtestet i GB4/5 en av de bästa benchmarks man hittar när det kommer till att ge en bild av generell prestanda i interaktiva program. Framförallt om man separerar ut det i heltalstester och flyttalstester (dessa delresultat är listade). Men man måste även här tänka på att bärbara kommer prestera i nivå med stationära då det enda som spelar roll är vilken turbofrekvens som kan hållas i <1s, vilket inte är något dåligt utan det är helt rätt tänkt då interaktiv prestanda primärt är latensstyrt och därför nästan helt styrs av hur bra CPUn är på att hantera "race-to-sleep" fall.
Ett av de högsta resultat som finns för ej överklockade CPUer i GB5 databasen kommer från en ES av Tiger Lake U (så 15-25 W TDP). Det är inte bevis att Geekbench är trasigt, utan det visar att testet faktiskt är ett bra mått på det man försöker mäta!
Just GB4 har ett stort problem (som är åtgärdat i GB5, det genom att minnestesterna är borttagna just p.g.a. att de var rätt värdelösa för det just denna benchmark mäter): minnestesterna. Kikar man på Intel-resultatet ser man att den plattformen verkar köra single-channel och rätt långsamt RAM. I interaktiva applikationer spelar det sällan någon roll, men i GB4 påverkas totalresultat orimligt mycket. Kikar man enbart på heltalsresultaten får man ändå en bra bild, de påverkar väldigt lite av minneshastighet.
Tillbaka till multitrådresultaten. Kolla in hur t.ex. 7900X presterar jämfört med 9900K/10900F, mer än 10k högre poäng trots lägre frekvens. Så där är ännu en vink om att man kanske inte mäter vad många tror man mäter.
Multitrådresultaten i GB4 är ett mått på ett användarfall som jag undrar överhuvudtaget existerar. Man mäter inte prestanda i ett program som använder flera trådar för att lösa samma problem (det hade varit en vettig benchmark för desktop, är ju det fallet t.ex. spel har), just detta fall presterar ring-buss-designen riktigt bra i (bättre än Skylake SP). Vad man mäter är prestanda när man kör en instans av ett enkeltrådat program på varje CPU-tråd. Sådana fall finns på serversidan, det är till och med något av ett normalfall, men hur många öppnar/läser 16-20 PDF dokument parallellt (ett av deltesterna verifierar just detta...)?
Skylake SP och Zen/Zen2 har en cache-design som fungerar bäst just i dessa typiska server-fall, d.v.s. många enkeltrådade fall som körs parallellt. Desktop Skylake kommer få problem med skalningen (bandbredden för L3$ skalar långt bättre i Skylake SP/Zen/Zen2 med kärnor jämfört med vanliga Skylake) här p.g.a. ringbussen. Om man använder flera trådar för att lösa ett och samma problem får man aldrig perfekt skalning p.g.a. synkronisering, men detta är "best-case" för ring-bussen då den klarar sig normalt minst dåligt i dessa fall.
Tittar man enbart på enkeltrådprestanda, vilket i praktiken är det enda denna benchmark mäter på ett vettigt sätt, ser man precis det man brukar se: Zen2 har bättre IPC för flyttal, Skylake har bättre IPC för heltal. Då varje körning tar <1s ser man också att 4900HS i detta fall har en maxfrekvens på hela 4,39 GHz och en genomsnittlig frekvens på 4,369 MHz i enkeltrådfallet. D.v.s. boostfunktionen fungerar numera utmärkt! Men det är inte en frekvens som kan hållas ens på en kärna under lång tid (vilket är helt OK, det är inte normalfallet för interaktiva laster).
Något står inte helt rätt till med 10900F, den borde nå 5,2 GHz i det fallet men når bara 5,0 GHz som mest och "bara" 4,784 GHz i genomsnitt (då det är en paus mellan varje körning, åter igen just för att testa "race-to-sleep" borde inte kylningen spela roll).
Så den enda rimliga slutsats jag skulle dra från detta är: AMD har fått till en boost-funktion som är lika bra som "speed-shift" i Skylake. I enkeltrådfall har Skylake fortfarande en (liten) fördel i IPC för heltal medan Zen2 leder i flyttal. D.v.s. inget har ändrats sedan förra sommaren. i7-1065G7 (Ice Lake U, 15 W TDP) har ungefär samma absoluta enkeltrådresultat som i9-10900F. Det är alltså inte ett fel i testet, utan för vad Geekbench faktiskt testar så är det nog rätt mycket en korrekt bild!
Kritiken man kan ha mot GB4 är att resultatet från multitrådtestet kanske inte är representativt för något verkligt fall. Inte helt enkelt att fixa då interaktiva laster ytterst sällan drar någon relevant nytta av mer än en handfull kärnor som mest (har svårt att få min 8-kärninga Samsung S10 att någonsin använda mer än 2-3 kärnor, men det är väntat då 8 kärnor där är mer PR än vettig desig...)