Intel "Rocket Lake" bekänner färg i Geekbench

2021-01-24 20:04

Permalänk

medbor

Medlem ★

Like-magnet

Registrerad: Okt 2011

●

Skrivet av Dinkefing:

Varför skulle Apples M1 göras rättvisst i MT i GB5 om nu AMD eller Intels mobila varianter överskattas enligt dig?

Gå till inlägget

För att M1 kan bibehålla de frekvenser de kör i testet pga lägre effekt och värme. Intel/AMD klarar det inte alls pga TDP/effekt-begränsningar, och vid vanliga laster som tar mer än några sekunder kommer de tappa frekvenser och prestanda ganska fort. Men M1 håller prestandan över tid och kan hållas vid maxbelastning effektivt över lång tid (timmar), detta utan att bli extremt varm eller suga ut batteriet snabbt

Rapportera Redigera

Citera flera Citera (2)

2021-01-24 20:09

Permalänk

Dinkefing

Medlem

Registrerad: Sep 2019

●

Skrivet av medbor:

För att M1 kan bibehålla de frekvenser de kör i testet pga lägre effekt och värme. Intel/AMD klarar det inte alls pga TDP/effekt-begränsningar, och vid vanliga laster som tar mer än några sekunder kommer de tappa frekvenser och prestanda ganska fort. Men M1 håller prestandan över tid och kan hållas vid maxbelastning effektivt över lång tid (timmar), detta utan att bli extremt varm eller suga ut batteriet snabbt

Gå till inlägget

Jag förstår men ändå inte. Eftersom GB5 är så pass kort varför skulle då AMD och Intels dito överskattas? Det är inte många program som utnyttjar så mycket frekvensanvändning som Geekbench. Finns det ens några?

Jag tror att Apples visar sig bäst på bärbara men på stationära M1X tror jag inte det kommer göra sig lika bra lika imponerande då alla får relativt fritt spelrum med värmen.

Rapportera Redigera

Citera flera Citera

2021-01-24 20:33

Permalänk

medbor

Medlem ★

Like-magnet

Registrerad: Okt 2011

●

Skrivet av Dinkefing:

Jag förstår men ändå inte. Eftersom GB5 är så pass kort varför skulle då AMD och Intels dito överskattas? Det är inte många program som utnyttjar så mycket frekvensanvändning som Geekbench. Finns det ens några?

Jag tror att Apples visar sig bäst på bärbara men på stationära M1X tror jag inte det kommer göra sig lika bra lika imponerande då alla får relativt fritt spelrum med värmen.

Gå till inlägget

Eftersom GB5 är ett så kort test så kan alla processorer använda maximala frekvenser genom hela det korta testet, det kommer inte hända vid vanliga laster som är multitrådade på samma sätt då de brukar pågå över längre tid än så (så att temp/effekt i laptops blir en seriös faktor).

M1 har inte alls en lika stor skillnad här eftersom dess prestanda fungerar vid så låg effekt att den kan hållas över tid utan att överhetta

Andra tester kommer visa på den tappade frekvensen som Intel/AMD råkar ut för på vanliga laster, därmed blir GB5 missvisande jämfört med andra längre tester som inte håller maxfrekvensen genom hela

På desktop finns ju inte samma problem, då kan man hålla hög effekt över tid med rätt kylning (och ingen batteridrift )

Rapportera Redigera

Citera flera Citera (2)

2021-01-25 01:18

Permalänk

ajp_anton

Medlem ★

Plats: Sthlm ➜ Hfors
Registrerad: Jun 2004

●

Skrivet av Dinkefing:

Då bårde de inte benämnas 125W varianter utan nåstanstans över 200W. Intel ljuger sina konsumenter rakt upp i huvudet. Här kan man läsa vad en 10900K egentligen drar för att visa sina överdrivna Geekbench resultat. Det är milsvid skillnad mellan AMD's och Intel's dito. Det ända Intel varit bra på är att övervolta sina modeller. Hade Rocket Lake varit 10nm eller 7nm hade strömtillförseln varit mycket mindre. Kom håg att de fortfarande ligger på 14nm och är begränsade av just det utöverer övervoltning och överklockning.

https://www.tomshardware.com/reviews/amd-ryzen-7-5800x-zen-3-...

Nog för att AMD haft fördelar att ligga på 7nm mot Intels 14 men kom ihåg Intels 14nm är någonstans runt 8-10nm TSMC.

Gå till inlägget

Hur har Intel ljugit? Tror inte de nånsin ens berättat för sina konsumenter hur mycket deras processorer drar i ström. Det är först när man gräver sig djupare ner i PL1 och PL2 som strömförbrukningen kommer fram, och även här stämmer allt precis som det ska.

Rapportera Redigera

Citera flera Citera (3)

2021-01-25 07:37

Permalänk

FattarNiInte

Medlem

Registrerad: Mar 2016

●

Skrivet av the squonk:

Här har du exakt samma CPU(min) på Windows och Linux, med skillnaden att Windows-systemet kör 3800MHz minne och Linux-systemet 2933MHz minne. Linux är bättre i typ allt utom bildbehandling, som ju Windows tar med det 866MHz snabbare minnet. En annan skillnad är att Linux-systemet körde på luft och Windows-systemet med en 360 rad.

https://browser.geekbench.com/v5/cpu/compare/2746310?baseline...

Gå till inlägget

Den där versionen av Geekbench har en bug på Linux där "Image inpainting" deltestet konsekvent har ungefär halva poängen jämfört med Windows.
Det har rättats till i senare versioner.

Rapportera Redigera

Citera flera Citera

2021-01-25 07:55

Permalänk

Gambit_2K

Medlem ★

Plats: Stockholm
Registrerad: Okt 2001

●

Skrivet av I000:

11900k har 8 kärnor - 16 trådar
5950x har 16 kärnor - 32 trådar

Jag misstänker att du tänkte på 5900X som har 12 kärnor - 24 trådar 😉

Gå till inlägget

Nu vet jag inte vad du menar? Det jag svarade på var frågan "(5950x: 1704 och har på papper 4.9GHz vid single core. (hur väl stämmer detta ni som har 5950x?))" Vad har antalet kärnor att göra med hur högt de boostar?

5950X är speecad att ha en max boost på 4,9 GHz out of the box men AMD har varit ganska sparsmakad gällande de specsen. De flesta 5950X har minst 2 ofta fler (beroende på hur bra kisel) som klarar 5 GHz+. Min egen har tex core 0,1,2,3,4 som klarar 5075/5025/5000/5100/5000 GHz out of the box utan PBO eller curve optimizer. Med tweaking kan jag se 0 och 3 uppe i 5150 GHz.

Senast redigerat 2021-01-25 12:43

Visa signatur

Rapportera Redigera

Citera flera Citera (1)

2021-01-25 09:02

Permalänk

inquam

Medlem ★

Plats: Karlskrona
Registrerad: Aug 2009

●

Så i9 är den enda modell som uppvisar högre enkeltrådad prestanda än konkurrentens motsvarigheter? i7 och i5 ligger under 5000-seriens motsvarigheter och i flertrådat är de lång efter. Förväntade mig något mer omskakande.
Känns som att en R5 eller något är mer värt i mellan segment och att en 5950X fortfarande är den bästa helhetslösningen för folk som behöver mycket prestanda.

Visa signatur

Huvudriggen är en Gigabyte Aorus Xtreme | 96gb DDR5 6000 | Ryzen 9950X3D | 5090
Utöver det är det för många datorer, boxar och servar för att lista :P

Rapportera Redigera

Citera flera Citera

2021-01-25 10:13

Permalänk

the squonk

Medlem ★

Plats: Stockholm
Registrerad: Mar 2004

●

Skrivet av FattarNiInte:

Den där versionen av Geekbench har en bug på Linux där "Image inpainting" deltestet konsekvent har ungefär halva poängen jämfört med Windows.
Det har rättats till i senare versioner.

Gå till inlägget

Ser man på, ännu mer fördel för Linux irl alltså.

Visa signatur

9950X3D X870E HERO 96/6400c30/2200 RTX5090 Gaming OC || 7950X B650 Gaming Plus WIFI 32/6000c30 RTX5080 TUF OC(450w) UBUNTU || 12900KF Z690 Tomahawk WIFI 64/3600c16 Gear1 RTX4080 Ventus 3X OC(400W) || 5900X(B2) B550-F 32/3800c18 RTX3080 TUF OC V2 || 5800X3D CH VIII EXT. 32/3800c18 RTX3080 Gaming OC || 3700X X570 HERO 32/3000c16 RTX3070 FTW3 Ultra || Thinkpad P16s G2 PRO7840U 32/6400

Rapportera Redigera

Citera flera Citera (1)

2021-01-25 10:44

Permalänk

Yoshman

Datavetare ★

Plats: Stockholm
Registrerad: Jun 2011

●

Skrivet av inquam:

Så i9 är den enda modell som uppvisar högre enkeltrådad prestanda än konkurrentens motsvarigheter? i7 och i5 ligger under 5000-seriens motsvarigheter och i flertrådat är de lång efter. Förväntade mig något mer omskakande.
Känns som att en R5 eller något är mer värt i mellan segment och att en 5950X fortfarande är den bästa helhetslösningen för folk som behöver mycket prestanda.

Gå till inlägget

Den i7-110700K som nämns i artikeln måste ha haft någon mysko konfiguration då den inte boostade speciellt högt. Har kommit in flera nya resultat där boost:en ligger på mer förväntande ~5,0 GHz och då blir resultatet
~1800 / ~11000 för i7-11070K.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Rapportera Redigera

Citera flera Citera (3)

2021-01-25 11:41

Permalänk

medbor

Medlem ★

Like-magnet

Registrerad: Okt 2011

●

Skrivet av Yoshman:

Den i7-110700K som nämns i artikeln måste ha haft någon mysko konfiguration då den inte boostade speciellt högt. Har kommit in flera nya resultat där boost:en ligger på mer förväntande ~5,0 GHz och då blir resultatet
~1800 / ~11000 för i7-11070K.

Gå till inlägget

Svårt med siffrorna? i7 11700K ska det vara såklart

Rapportera Redigera

Citera flera Citera

2021-01-25 12:42

Permalänk

Yoshman

Datavetare ★

Plats: Stockholm
Registrerad: Jun 2011

●

Skrivet av medbor:

Svårt med siffrorna? i7 11700K ska det vara såklart

Gå till inlägget

Det är måndag! Verkar fått ett överskott på nollor över helgen och de slet sig i texten ovan

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Rapportera Redigera

Citera flera Citera (1)

2021-01-25 17:32

Permalänk

EntropyQ3

Medlem ★

Plats: Lund
Registrerad: Sep 2008

●

Skrivet av Yoshman:

Slutligen mäter CB ett fall som dagens GPUer kan lösa upp mot en tiopotens snabbare. D.v.s. man mäter ett fall som det idag finns väldigt liten poäng att optimera på CPU-sidan.

Gå till inlägget

Det här är ju ett generellt problem med MT benchmarks - relevans. Det är tveksamt om det finns några trivialt parallelliserbara problem som har bred användning överhuvudtaget (mer än 1% av PC användarna) och som dessutom inte körs bättre på något annat än CPUer. Jag skulle hävda att de idag får alldeles för stor tyngd i recensioner av konsumentorienterade produkter.

Än värre blir det när man skall göra jämförelser av olika arkitekturer. Bägge dina AVX-512 exempel från GB5 ovan är ju sånt som egentligen överhuvudtaget inte körs med generell CPU-kod på Apples SoCs eftersom de har dedikerade hårdvaruresurser för de uppgifterna. Så borde man alls ha med sånt i ett benchmark som oftast används för att jämföra plattformar med en sammanräknad "score"?

Benchmarking är svårt om man faktiskt hoppas kunna göra förutsägelser om prestanda bortom testet självt.

Rapportera Redigera

Citera flera Citera

2021-01-26 10:14

Permalänk

ChristofferICC

Medlem

Plats: Lund
Registrerad: Dec 2003

●

https://twitter.com/TUM_APISAK/status/1353976661054640129

https://cpu.userbenchmark.com/Compare/Intel-Core-i7-10700K-vs...
https://cpu.userbenchmark.com/Compare/AMD-Ryzen-7-5800X-vs-11...

Rapportera Redigera

Citera flera Citera

2021-01-26 12:50

Permalänk

Greyguy1948

Medlem

Registrerad: Dec 2018

●

Skrivet av Nyhet:

Geekbench 5-databasen fylls på med tre framtida modeller från Intel, som med ny arkitektur framför allt skruvar upp entrådsprestandan.

Läs hela artikeln här

Gå till inlägget

Någon som sett ett blockschema på något nyare än Skylake?
Skylake blockschema
Visst det ut som om en enda complex dekoder är alldeles för lite?
Här jämför jag med både Ryzen och ARM64.

Rapportera Redigera

Citera flera Citera

2021-01-26 13:14

Permalänk

medbor

Medlem ★

Like-magnet

Registrerad: Okt 2011

●

Skrivet av Greyguy1948:

Någon som sett ett blockschema på något nyare än Skylake?
Skylake blockschema
Visst det ut som om en enda complex dekoder är alldeles för lite?
Här jämför jag med både Ryzen och ARM64.

Gå till inlägget

Vet inte vad du är ute efter men AnandTech brukar alltid ha scheman i sina ’deep dive’ artiklar som här för M1:
https://www.anandtech.com/show/16226/apple-silicon-m1-a14-dee...

Rapportera Redigera

Citera flera Citera

2021-01-26 15:33

Permalänk

Greyguy1948

Medlem

Registrerad: Dec 2018

●

Skrivet av medbor:

Vet inte vad du är ute efter men AnandTech brukar alltid ha scheman i sina ’deep dive’ artiklar som här för M1:
https://www.anandtech.com/show/16226/apple-silicon-m1-a14-dee...

Gå till inlägget

Ja 8 decoders parallellt imponerar - frågan är om alla klarar något krävande typ MUL, DIV, FMUL, FDIV.
Jag antar att simple decode gör tex ADD och SUB (de är så klart vanligast....men inte alltid).

Rapportera Redigera

Citera flera Citera

2021-01-26 15:48

Permalänk

Greyguy1948

Medlem

Registrerad: Dec 2018

●

Skrivet av medbor:

Vet inte vad du är ute efter men AnandTech brukar alltid ha scheman i sina ’deep dive’ artiklar som här för M1:
https://www.anandtech.com/show/16226/apple-silicon-m1-a14-dee...

Gå till inlägget

Sunny Cove
Den är senare. Bara en complex decode men fler portar på EU (totalt 10).

Rapportera Redigera

Citera flera Citera

2021-01-26 16:30

Permalänk

medbor

Medlem ★

Like-magnet

Registrerad: Okt 2011

●

Skrivet av Greyguy1948:

Ja 8 decoders parallellt imponerar - frågan är om alla klarar något krävande typ MUL, DIV, FMUL, FDIV.
Jag antar att simple decode gör tex ADD och SUB (de är så klart vanligast....men inte alltid).

Gå till inlägget

Tror att deras 8-wide är jämförbar med antalet mot intel/amd som kör 5/4 i deras senaste. Det är väl anledningen till den stora skillnaden i arbete per cykel, men @yoshman är ju personen att rådfråga om du vill ha mer detaljer

Sunny Cove:
https://www.anandtech.com/show/14514/examining-intels-ice-lak...

Rapportera Redigera

Citera flera Citera

2021-01-27 01:34

Permalänk

jclr

Medlem

Registrerad: Mar 2018

●

Skrivet av Greyguy1948:

Någon som sett ett blockschema på något nyare än Skylake?
Skylake blockschema
Visst det ut som om en enda complex dekoder är alldeles för lite?
Här jämför jag med både Ryzen och ARM64.

Gå till inlägget

Varför tycker du att det ser för lite ut med en komplex dekoder? De flesta x86 instruktioner genererar bara 1 μop eller 1 fused μop (som blir 2 μops i backend) och det klarar de enkla dekodrarna. Skillnaden i bredd på intels nya processorer är att rename ökar från 4 till 5 per cykel.
Dessutom förenklar man det väldigt mycket genom att bara prata om hur många dekodrar som finns. Mycket av koden körs från μopcachen som har en bredd på 6 på intel (8 amd/arm x1).

Skrivet av Greyguy1948:

Ja 8 decoders parallellt imponerar - frågan är om alla klarar något krävande typ MUL, DIV, FMUL, FDIV.
Jag antar att simple decode gör tex ADD och SUB (de är så klart vanligast....men inte alltid).

Gå till inlägget

På https://www.uops.info/ kan du hitta info om hur många μops en viss x86 instruktion genererar på en viss processor. Siffran anges som fused(frontend)/unfused(backend) för intel. Skiljer siffrorna sig åt betyder det att det är en instruktion som använder μop-fusion i frontend. Vilket är två μops som läggs ihop till en μop i frontend för att spara intern bandbredd. De kan använda de enkla dekodrarna, tar upp en plats i μopcache, en slot i rename osv. Ett exempel är ADD r, m (1/2 μops) (addition från minne till register) vilket egentligen är två instruktioner, läs in och addition. I frontend läggs de ihop till en instruktion men blir till två instruktioner i backend och tar alltså upp två portar där, en av port 2 eller 3 (Load) för inläsningen och en av 0, 1, 5 eller 6 (ALU) för additionen.

Rapportera Redigera

Citera flera Citera (1)

2021-01-27 13:56

Permalänk

Greyguy1948

Medlem

Registrerad: Dec 2018

●

Skrivet av medbor:

Tror att deras 8-wide är jämförbar med antalet mot intel/amd som kör 5/4 i deras senaste. Det är väl anledningen till den stora skillnaden i arbete per cykel, men @yoshman är ju personen att rådfråga om du vill ha mer detaljer

Sunny Cove:
https://www.anandtech.com/show/14514/examining-intels-ice-lak...

Gå till inlägget

Sunny Cove ser ut att vara optimerad för multimedia. Av 10 portar hanterar 6 st minne (data och adress).
4 portar för allt övrigt verkar lite jämfört med Ryzen och de flesta ARM64 (tex Cortex-A77 och Cortex-X1).

Rapportera Redigera

Citera flera Citera

2021-01-29 14:59

Permalänk

jclr

Medlem

Registrerad: Mar 2018

●

Skrivet av Greyguy1948:

Sunny Cove ser ut att vara optimerad för multimedia. Av 10 portar hanterar 6 st minne (data och adress).
4 portar för allt övrigt verkar lite jämfört med Ryzen och de flesta ARM64 (tex Cortex-A77 och Cortex-X1).

Gå till inlägget

Vad menar du med att Sunny Cove ser ut att vara optimerad för multimedia?
Vad är det för typ av EU du tycker saknas och hur hade du tänkt att den skulle utnyttjas av processorn med tanke på de andra begränsningar som finns?

Tänk på att intel brukar beskriva sin schemaläggare väldigt förenklat som "unified" utan att visa några direkta detaljer. AMD och ARM schemaläggare ser lita annorlunda ut och har olika kluster för heltal och flyttal.

Om vi tar kod som körs i en loop och redan blivit dekodad och därför körs från μopcachen (skippa pre-decode/decode begränsningar) så kan man räkna med en bredd av max 5 fused μops per cykel. De använder antingen 1 EU eller 2 EU för write (address + store) eller 2 EU för read-modify (read + op). När skulle man ha nytta av flera EU och vilka? Det ser väl ganska balanserat ut?

Jag tittade lite snabbt på anandtech artikeln du länkade till. Där ser man faran med att försöka göra några djupare tekniska analyser utifrån ett blockdiagram nån PR-avdelning satt ihop. IMUL har inte flyttat från port 5 till port 1. IMUL har alltid legat på port 1. Det är nån från intel som råkade rita fel i en presentation vilket man kan se om man tittar på en annan artikel från anandtech:
https://www.anandtech.com/show/13699/intel-architecture-day-2...
Där skriver de till och med "Port 1 gets the Mul unit from Skylake Port 5, probably for rebalancing purposes"

Senast redigerat 2021-01-29 15:09

Rapportera Redigera

Citera flera Citera

2021-01-29 19:53

Permalänk

Greyguy1948

Medlem

Registrerad: Dec 2018

●

Skrivet av jclr:

Vad menar du med att Sunny Cove ser ut att vara optimerad för multimedia?
Vad är det för typ av EU du tycker saknas och hur hade du tänkt att den skulle utnyttjas av processorn med tanke på de andra begränsningar som finns?

Tänk på att intel brukar beskriva sin schemaläggare väldigt förenklat som "unified" utan att visa några direkta detaljer. AMD och ARM schemaläggare ser lita annorlunda ut och har olika kluster för heltal och flyttal.

Om vi tar kod som körs i en loop och redan blivit dekodad och därför körs från μopcachen (skippa pre-decode/decode begränsningar) så kan man räkna med en bredd av max 5 fused μops per cykel. De använder antingen 1 EU eller 2 EU för write (address + store) eller 2 EU för read-modify (read + op). När skulle man ha nytta av flera EU och vilka? Det ser väl ganska balanserat ut?

Jag tittade lite snabbt på anandtech artikeln du länkade till. Där ser man faran med att försöka göra några djupare tekniska analyser utifrån ett blockdiagram nån PR-avdelning satt ihop. IMUL har inte flyttat från port 5 till port 1. IMUL har alltid legat på port 1. Det är nån från intel som råkade rita fel i en presentation vilket man kan se om man tittar på en annan artikel från anandtech:
https://www.anandtech.com/show/13699/intel-architecture-day-2...
Där skriver de till och med "Port 1 gets the Mul unit from Skylake Port 5, probably for rebalancing purposes"

Gå till inlägget

4 portar för allt utom minneshantering. Det är oerhört lite jämfört med Zen 3 och ARM64.
Port 0 har sett överlastad ut länge! Heltal och vector bör ha varsin port minst.....

Kraven från multimedia har ökat enormt sedan Core 2-tiden. 6 portar kan vara rimligt för data!

Senast redigerat 2021-01-29 20:03

Rapportera Redigera

Citera flera Citera

2021-01-30 08:59

Permalänk

ChristofferICC

Medlem

Plats: Lund
Registrerad: Dec 2003

●

Ni får avgöra själva om detta är -?-

https://hardforum.com/threads/intel-rocket-lake-i7-11700-cpu-...

Rapportera Redigera

Citera flera Citera

2021-01-30 19:47

Permalänk

jclr

Medlem

Registrerad: Mar 2018

●

Skrivet av Greyguy1948:

4 portar för allt utom minneshantering. Det är oerhört lite jämfört med Zen 3 och ARM64.
Port 0 har sett överlastad ut länge! Heltal och vector bör ha varsin port minst.....

Kraven från multimedia har ökat enormt sedan Core 2-tiden. 6 portar kan vara rimligt för data!

Gå till inlägget

Det som är intressant är hur mycket arbete processorn faktiskt kan utföra samtidig. Att AMD/ARM delar upp backend i olika kluster för heltal/flyttal innebär inte att alla resurser utnyttjas samtidigt.

Vad är det du tror att man skulle tjäna på att vektorenheterna låg på egna portar? Vilken kod är det som skulle utnyttja det? Ge gärna ett exempel där du t.ex i vtune sett att problemet är att port 0 är överlastad.

Jag kan ta ett konkret exempel för att visa hur mycket resurser som går åt för att utföra samma mängd arbete. Använder man fma avx512 på port 0 på sunny cove så får du 32 sp flops/cykel. Det är 1 x86 instruktion som tar upp 1 μop i frontend och använder 1 EU. Samma mängd arbete kräver 2 μops / 2 EU på amd och 4 μops / 4 EU med ARM neon. Tar vi server versionen av sunny cove så har du ytterligare en fma enhet på port 5 för 64 sp flops/cykel (amd/arm har slut på EUs). Vad är det du tror att processorn ska göra samtidig med andra portar förutom att läsa/skriva data? Port 1 är fortfarande ledig för ALU och port 6 för ALU/branch, ALU/test+hopp (loop räknare) kan dessutom slås ihop i decode till 1 μop som körs på port 6.

Du kan inte bara titta på blockdiagram och räkna antalet färgglada rutor och jämföra vem som har flest.

Rapportera Redigera

Citera flera Citera

2021-01-31 13:54

Permalänk

Greyguy1948

Medlem

Registrerad: Dec 2018

●

AVX512 är effektivt men används av väldigt få program i praktiken. Behovet är väl att aldrig få köbildning någonstans! Varför tror du annars ARM64 och AMD ökar antal portar hela tiden för varje ny CPU?

Rapportera Redigera

Citera flera Citera

Intel "Rocket Lake" bekänner färg i Geekbench

Externa nyheter