Intel "Rocket Lake" bekänner färg i Geekbench

Permalänk
Medlem
Skrivet av Dinkefing:

Varför skulle Apples M1 göras rättvisst i MT i GB5 om nu AMD eller Intels mobila varianter överskattas enligt dig?

För att M1 kan bibehålla de frekvenser de kör i testet pga lägre effekt och värme. Intel/AMD klarar det inte alls pga TDP/effekt-begränsningar, och vid vanliga laster som tar mer än några sekunder kommer de tappa frekvenser och prestanda ganska fort. Men M1 håller prestandan över tid och kan hållas vid maxbelastning effektivt över lång tid (timmar), detta utan att bli extremt varm eller suga ut batteriet snabbt

Permalänk
Medlem
Skrivet av medbor:

För att M1 kan bibehålla de frekvenser de kör i testet pga lägre effekt och värme. Intel/AMD klarar det inte alls pga TDP/effekt-begränsningar, och vid vanliga laster som tar mer än några sekunder kommer de tappa frekvenser och prestanda ganska fort. Men M1 håller prestandan över tid och kan hållas vid maxbelastning effektivt över lång tid (timmar), detta utan att bli extremt varm eller suga ut batteriet snabbt

Jag förstår men ändå inte. Eftersom GB5 är så pass kort varför skulle då AMD och Intels dito överskattas? Det är inte många program som utnyttjar så mycket frekvensanvändning som Geekbench. Finns det ens några?

Jag tror att Apples visar sig bäst på bärbara men på stationära M1X tror jag inte det kommer göra sig lika bra lika imponerande då alla får relativt fritt spelrum med värmen.

Permalänk
Medlem
Skrivet av Dinkefing:

Jag förstår men ändå inte. Eftersom GB5 är så pass kort varför skulle då AMD och Intels dito överskattas? Det är inte många program som utnyttjar så mycket frekvensanvändning som Geekbench. Finns det ens några?

Jag tror att Apples visar sig bäst på bärbara men på stationära M1X tror jag inte det kommer göra sig lika bra lika imponerande då alla får relativt fritt spelrum med värmen.

Eftersom GB5 är ett så kort test så kan alla processorer använda maximala frekvenser genom hela det korta testet, det kommer inte hända vid vanliga laster som är multitrådade på samma sätt då de brukar pågå över längre tid än så (så att temp/effekt i laptops blir en seriös faktor).

M1 har inte alls en lika stor skillnad här eftersom dess prestanda fungerar vid så låg effekt att den kan hållas över tid utan att överhetta

Andra tester kommer visa på den tappade frekvensen som Intel/AMD råkar ut för på vanliga laster, därmed blir GB5 missvisande jämfört med andra längre tester som inte håller maxfrekvensen genom hela

På desktop finns ju inte samma problem, då kan man hålla hög effekt över tid med rätt kylning (och ingen batteridrift )

Permalänk
Medlem
Skrivet av Dinkefing:

Då bårde de inte benämnas 125W varianter utan nåstanstans över 200W. Intel ljuger sina konsumenter rakt upp i huvudet. Här kan man läsa vad en 10900K egentligen drar för att visa sina överdrivna Geekbench resultat. Det är milsvid skillnad mellan AMD's och Intel's dito. Det ända Intel varit bra på är att övervolta sina modeller. Hade Rocket Lake varit 10nm eller 7nm hade strömtillförseln varit mycket mindre. Kom håg att de fortfarande ligger på 14nm och är begränsade av just det utöverer övervoltning och överklockning.

https://www.tomshardware.com/reviews/amd-ryzen-7-5800x-zen-3-...

Nog för att AMD haft fördelar att ligga på 7nm mot Intels 14 men kom ihåg Intels 14nm är någonstans runt 8-10nm TSMC.

Hur har Intel ljugit? Tror inte de nånsin ens berättat för sina konsumenter hur mycket deras processorer drar i ström. Det är först när man gräver sig djupare ner i PL1 och PL2 som strömförbrukningen kommer fram, och även här stämmer allt precis som det ska.

Permalänk
Medlem
Skrivet av the squonk:

Här har du exakt samma CPU(min) på Windows och Linux, med skillnaden att Windows-systemet kör 3800MHz minne och Linux-systemet 2933MHz minne. Linux är bättre i typ allt utom bildbehandling, som ju Windows tar med det 866MHz snabbare minnet. En annan skillnad är att Linux-systemet körde på luft och Windows-systemet med en 360 rad.

https://browser.geekbench.com/v5/cpu/compare/2746310?baseline...

Den där versionen av Geekbench har en bug på Linux där "Image inpainting" deltestet konsekvent har ungefär halva poängen jämfört med Windows.
Det har rättats till i senare versioner.

Permalänk
Medlem
Skrivet av I000:

11900k har 8 kärnor - 16 trådar
5950x har 16 kärnor - 32 trådar

Jag misstänker att du tänkte på 5900X som har 12 kärnor - 24 trådar 😉

Nu vet jag inte vad du menar? Det jag svarade på var frågan "(5950x: 1704 och har på papper 4.9GHz vid single core. (hur väl stämmer detta ni som har 5950x?))" Vad har antalet kärnor att göra med hur högt de boostar?

5950X är speecad att ha en max boost på 4,9 GHz out of the box men AMD har varit ganska sparsmakad gällande de specsen. De flesta 5950X har minst 2 ofta fler (beroende på hur bra kisel) som klarar 5 GHz+. Min egen har tex core 0,1,2,3,4 som klarar 5075/5025/5000/5100/5000 GHz out of the box utan PBO eller curve optimizer. Med tweaking kan jag se 0 och 3 uppe i 5150 GHz.

Permalänk
Medlem

Så i9 är den enda modell som uppvisar högre enkeltrådad prestanda än konkurrentens motsvarigheter? i7 och i5 ligger under 5000-seriens motsvarigheter och i flertrådat är de lång efter. Förväntade mig något mer omskakande.
Känns som att en R5 eller något är mer värt i mellan segment och att en 5950X fortfarande är den bästa helhetslösningen för folk som behöver mycket prestanda.

Permalänk
Medlem
Skrivet av FattarNiInte:

Den där versionen av Geekbench har en bug på Linux där "Image inpainting" deltestet konsekvent har ungefär halva poängen jämfört med Windows.
Det har rättats till i senare versioner.

Ser man på, ännu mer fördel för Linux irl alltså.

Permalänk
Datavetare
Skrivet av inquam:

Så i9 är den enda modell som uppvisar högre enkeltrådad prestanda än konkurrentens motsvarigheter? i7 och i5 ligger under 5000-seriens motsvarigheter och i flertrådat är de lång efter. Förväntade mig något mer omskakande.
Känns som att en R5 eller något är mer värt i mellan segment och att en 5950X fortfarande är den bästa helhetslösningen för folk som behöver mycket prestanda.

Den i7-110700K som nämns i artikeln måste ha haft någon mysko konfiguration då den inte boostade speciellt högt. Har kommit in flera nya resultat där boost:en ligger på mer förväntande ~5,0 GHz och då blir resultatet
~1800 / ~11000 för i7-11070K.

Permalänk
Medlem
Skrivet av Yoshman:

Den i7-110700K som nämns i artikeln måste ha haft någon mysko konfiguration då den inte boostade speciellt högt. Har kommit in flera nya resultat där boost:en ligger på mer förväntande ~5,0 GHz och då blir resultatet
~1800 / ~11000 för i7-11070K.

Svårt med siffrorna? i7 11700K ska det vara såklart

Permalänk
Datavetare
Skrivet av medbor:

Svårt med siffrorna? i7 11700K ska det vara såklart

Det är måndag! Verkar fått ett överskott på nollor över helgen och de slet sig i texten ovan

Permalänk
Medlem
Skrivet av Yoshman:

Slutligen mäter CB ett fall som dagens GPUer kan lösa upp mot en tiopotens snabbare. D.v.s. man mäter ett fall som det idag finns väldigt liten poäng att optimera på CPU-sidan.

Det här är ju ett generellt problem med MT benchmarks - relevans. Det är tveksamt om det finns några trivialt parallelliserbara problem som har bred användning överhuvudtaget (mer än 1% av PC användarna) och som dessutom inte körs bättre på något annat än CPUer. Jag skulle hävda att de idag får alldeles för stor tyngd i recensioner av konsumentorienterade produkter.

Än värre blir det när man skall göra jämförelser av olika arkitekturer. Bägge dina AVX-512 exempel från GB5 ovan är ju sånt som egentligen överhuvudtaget inte körs med generell CPU-kod på Apples SoCs eftersom de har dedikerade hårdvaruresurser för de uppgifterna. Så borde man alls ha med sånt i ett benchmark som oftast används för att jämföra plattformar med en sammanräknad "score"?

Benchmarking är svårt om man faktiskt hoppas kunna göra förutsägelser om prestanda bortom testet självt.

Permalänk
Permalänk
Medlem
Skrivet av Nyhet:

Geekbench 5-databasen fylls på med tre framtida modeller från Intel, som med ny arkitektur framför allt skruvar upp entrådsprestandan.

Läs hela artikeln här

Någon som sett ett blockschema på något nyare än Skylake?
Skylake blockschema
Visst det ut som om en enda complex dekoder är alldeles för lite?
Här jämför jag med både Ryzen och ARM64.

Permalänk
Medlem
Skrivet av Greyguy1948:

Någon som sett ett blockschema på något nyare än Skylake?
Skylake blockschema
Visst det ut som om en enda complex dekoder är alldeles för lite?
Här jämför jag med både Ryzen och ARM64.

Vet inte vad du är ute efter men AnandTech brukar alltid ha scheman i sina ’deep dive’ artiklar som här för M1:
https://www.anandtech.com/show/16226/apple-silicon-m1-a14-dee...

Permalänk
Medlem
Skrivet av medbor:

Vet inte vad du är ute efter men AnandTech brukar alltid ha scheman i sina ’deep dive’ artiklar som här för M1:
https://www.anandtech.com/show/16226/apple-silicon-m1-a14-dee...

Ja 8 decoders parallellt imponerar - frågan är om alla klarar något krävande typ MUL, DIV, FMUL, FDIV.
Jag antar att simple decode gör tex ADD och SUB (de är så klart vanligast....men inte alltid).

Permalänk
Medlem
Skrivet av medbor:

Vet inte vad du är ute efter men AnandTech brukar alltid ha scheman i sina ’deep dive’ artiklar som här för M1:
https://www.anandtech.com/show/16226/apple-silicon-m1-a14-dee...

Sunny Cove
Den är senare. Bara en complex decode men fler portar på EU (totalt 10).

Permalänk
Medlem
Skrivet av Greyguy1948:

Ja 8 decoders parallellt imponerar - frågan är om alla klarar något krävande typ MUL, DIV, FMUL, FDIV.
Jag antar att simple decode gör tex ADD och SUB (de är så klart vanligast....men inte alltid).

Tror att deras 8-wide är jämförbar med antalet mot intel/amd som kör 5/4 i deras senaste. Det är väl anledningen till den stora skillnaden i arbete per cykel, men @yoshman är ju personen att rådfråga om du vill ha mer detaljer

Sunny Cove:
https://www.anandtech.com/show/14514/examining-intels-ice-lak...

Permalänk
Medlem
Skrivet av Greyguy1948:

Någon som sett ett blockschema på något nyare än Skylake?
Skylake blockschema
Visst det ut som om en enda complex dekoder är alldeles för lite?
Här jämför jag med både Ryzen och ARM64.

Varför tycker du att det ser för lite ut med en komplex dekoder? De flesta x86 instruktioner genererar bara 1 μop eller 1 fused μop (som blir 2 μops i backend) och det klarar de enkla dekodrarna. Skillnaden i bredd på intels nya processorer är att rename ökar från 4 till 5 per cykel.
Dessutom förenklar man det väldigt mycket genom att bara prata om hur många dekodrar som finns. Mycket av koden körs från μopcachen som har en bredd på 6 på intel (8 amd/arm x1).

Skrivet av Greyguy1948:

Ja 8 decoders parallellt imponerar - frågan är om alla klarar något krävande typ MUL, DIV, FMUL, FDIV.
Jag antar att simple decode gör tex ADD och SUB (de är så klart vanligast....men inte alltid).

https://www.uops.info/ kan du hitta info om hur många μops en viss x86 instruktion genererar på en viss processor. Siffran anges som fused(frontend)/unfused(backend) för intel. Skiljer siffrorna sig åt betyder det att det är en instruktion som använder μop-fusion i frontend. Vilket är två μops som läggs ihop till en μop i frontend för att spara intern bandbredd. De kan använda de enkla dekodrarna, tar upp en plats i μopcache, en slot i rename osv. Ett exempel är ADD r, m (1/2 μops) (addition från minne till register) vilket egentligen är två instruktioner, läs in och addition. I frontend läggs de ihop till en instruktion men blir till två instruktioner i backend och tar alltså upp två portar där, en av port 2 eller 3 (Load) för inläsningen och en av 0, 1, 5 eller 6 (ALU) för additionen.

Permalänk
Medlem
Skrivet av medbor:

Tror att deras 8-wide är jämförbar med antalet mot intel/amd som kör 5/4 i deras senaste. Det är väl anledningen till den stora skillnaden i arbete per cykel, men @yoshman är ju personen att rådfråga om du vill ha mer detaljer

Sunny Cove:
https://www.anandtech.com/show/14514/examining-intels-ice-lak...

Sunny Cove ser ut att vara optimerad för multimedia. Av 10 portar hanterar 6 st minne (data och adress).
4 portar för allt övrigt verkar lite jämfört med Ryzen och de flesta ARM64 (tex Cortex-A77 och Cortex-X1).

Permalänk
Medlem
Skrivet av Greyguy1948:

Sunny Cove ser ut att vara optimerad för multimedia. Av 10 portar hanterar 6 st minne (data och adress).
4 portar för allt övrigt verkar lite jämfört med Ryzen och de flesta ARM64 (tex Cortex-A77 och Cortex-X1).

Vad menar du med att Sunny Cove ser ut att vara optimerad för multimedia?
Vad är det för typ av EU du tycker saknas och hur hade du tänkt att den skulle utnyttjas av processorn med tanke på de andra begränsningar som finns?

Tänk på att intel brukar beskriva sin schemaläggare väldigt förenklat som "unified" utan att visa några direkta detaljer. AMD och ARM schemaläggare ser lita annorlunda ut och har olika kluster för heltal och flyttal.

Om vi tar kod som körs i en loop och redan blivit dekodad och därför körs från μopcachen (skippa pre-decode/decode begränsningar) så kan man räkna med en bredd av max 5 fused μops per cykel. De använder antingen 1 EU eller 2 EU för write (address + store) eller 2 EU för read-modify (read + op). När skulle man ha nytta av flera EU och vilka? Det ser väl ganska balanserat ut?

Jag tittade lite snabbt på anandtech artikeln du länkade till. Där ser man faran med att försöka göra några djupare tekniska analyser utifrån ett blockdiagram nån PR-avdelning satt ihop. IMUL har inte flyttat från port 5 till port 1. IMUL har alltid legat på port 1. Det är nån från intel som råkade rita fel i en presentation vilket man kan se om man tittar på en annan artikel från anandtech:
https://www.anandtech.com/show/13699/intel-architecture-day-2...
Där skriver de till och med "Port 1 gets the Mul unit from Skylake Port 5, probably for rebalancing purposes"

Permalänk
Medlem
Skrivet av jclr:

Vad menar du med att Sunny Cove ser ut att vara optimerad för multimedia?
Vad är det för typ av EU du tycker saknas och hur hade du tänkt att den skulle utnyttjas av processorn med tanke på de andra begränsningar som finns?

Tänk på att intel brukar beskriva sin schemaläggare väldigt förenklat som "unified" utan att visa några direkta detaljer. AMD och ARM schemaläggare ser lita annorlunda ut och har olika kluster för heltal och flyttal.

Om vi tar kod som körs i en loop och redan blivit dekodad och därför körs från μopcachen (skippa pre-decode/decode begränsningar) så kan man räkna med en bredd av max 5 fused μops per cykel. De använder antingen 1 EU eller 2 EU för write (address + store) eller 2 EU för read-modify (read + op). När skulle man ha nytta av flera EU och vilka? Det ser väl ganska balanserat ut?

Jag tittade lite snabbt på anandtech artikeln du länkade till. Där ser man faran med att försöka göra några djupare tekniska analyser utifrån ett blockdiagram nån PR-avdelning satt ihop. IMUL har inte flyttat från port 5 till port 1. IMUL har alltid legat på port 1. Det är nån från intel som råkade rita fel i en presentation vilket man kan se om man tittar på en annan artikel från anandtech:
https://www.anandtech.com/show/13699/intel-architecture-day-2...
Där skriver de till och med "Port 1 gets the Mul unit from Skylake Port 5, probably for rebalancing purposes"

4 portar för allt utom minneshantering. Det är oerhört lite jämfört med Zen 3 och ARM64.
Port 0 har sett överlastad ut länge! Heltal och vector bör ha varsin port minst.....

Kraven från multimedia har ökat enormt sedan Core 2-tiden. 6 portar kan vara rimligt för data!

Permalänk
Medlem
Permalänk
Medlem
Skrivet av Greyguy1948:

4 portar för allt utom minneshantering. Det är oerhört lite jämfört med Zen 3 och ARM64.
Port 0 har sett överlastad ut länge! Heltal och vector bör ha varsin port minst.....

Kraven från multimedia har ökat enormt sedan Core 2-tiden. 6 portar kan vara rimligt för data!

Det som är intressant är hur mycket arbete processorn faktiskt kan utföra samtidig. Att AMD/ARM delar upp backend i olika kluster för heltal/flyttal innebär inte att alla resurser utnyttjas samtidigt.

Vad är det du tror att man skulle tjäna på att vektorenheterna låg på egna portar? Vilken kod är det som skulle utnyttja det? Ge gärna ett exempel där du t.ex i vtune sett att problemet är att port 0 är överlastad.

Jag kan ta ett konkret exempel för att visa hur mycket resurser som går åt för att utföra samma mängd arbete. Använder man fma avx512 på port 0 på sunny cove så får du 32 sp flops/cykel. Det är 1 x86 instruktion som tar upp 1 μop i frontend och använder 1 EU. Samma mängd arbete kräver 2 μops / 2 EU på amd och 4 μops / 4 EU med ARM neon. Tar vi server versionen av sunny cove så har du ytterligare en fma enhet på port 5 för 64 sp flops/cykel (amd/arm har slut på EUs). Vad är det du tror att processorn ska göra samtidig med andra portar förutom att läsa/skriva data? Port 1 är fortfarande ledig för ALU och port 6 för ALU/branch, ALU/test+hopp (loop räknare) kan dessutom slås ihop i decode till 1 μop som körs på port 6.

Du kan inte bara titta på blockdiagram och räkna antalet färgglada rutor och jämföra vem som har flest.

Permalänk
Medlem

AVX512 är effektivt men används av väldigt få program i praktiken. Behovet är väl att aldrig få köbildning någonstans! Varför tror du annars ARM64 och AMD ökar antal portar hela tiden för varje ny CPU?