::: AMD Zen Samlingstråd :::

2017-03-10 10:13

Medlem

Plats: Umeå
Registrerad: Jul 2001

●

@Gainsgoblin: Vet inte hur åldern mellan processorerna spelar in i slutsatsen men du får gärna utveckla.

Det jag tyckte var intressant var att det inte är så representativt att visa hur processorerna klarar sig i låga upplösningar för hur den kommer prestera med snabbare grafikkort i framtiden i högre upplösningar.

Man ska alltså ta testerna för vad de är. Jag skulle säga att cinebenchresultat, firestrike och alla andra möjliga syntetiska tester går lika lite att koppla linjärt till prestandan med framtida grafikkort än vad som går mellan låga och höga upplösningar i spel.

Rapportera Redigera

Citera flera Citera (1)

2017-03-10 10:28

Permalänk

MakeCoke

Medlem ★

Plats: Lund
Registrerad: Okt 2013

●

Skrivet av liket:

@Blomkungen: Vet inte hur åldern mellan processorerna spelar in i slutsatsen men du får gärna utveckla.

Det jag tyckte var intressant var att det inte är så representativt att visa hur processorerna klarar sig i låga upplösningar för hur den kommer prestera med snabbare grafikkort i framtiden i högre upplösningar.

Man ska alltså ta testerna för vad de är. Jag skulle säga att cinebenchresultat, firestrike och alla andra möjliga syntetiska tester går lika lite att koppla linjärt till prestandan med framtida grafikkort än vad som går mellan låga och höga upplösningar i spel.

Gå till inlägget

På lång sikt kan många andra faktorer spela in, ja.

På kort/medellång sikt är resultaten i låga upplösningar mycket intressanta, i synnerhet om man sitter på 144 Hz-skärm. Om man prompt vill ha tex 100+ FPS i BF1 kanske man hellre spelar på Low med sitt nuvarande grafikkort för att uppnå det, och när GTX 2080 kommer ut höjer man till Ultra.

Om det bara testats i upplösningar där GPUn flaskar vid tex 80 FPS är det omöjligt att utläsa något annat än huruvida CPUn klarar 80 FPS. Dvs det säger ännu mindre om framtiden.

Skickades från m.sweclockers.com

Visa signatur

Bästa trådstarten någonsin.

Asus Zenbook UX430: 8550U, MX150, 16 GiB, 1 TB

Rapportera Redigera

Citera flera Citera (4)

2017-03-10 10:46

Permalänk

Ratatosk

Hjälpsam ★

Plats: Karlskoga
Registrerad: Jan 2007

●

Skrivet av MakeCoke:

På lång sikt kan många andra faktorer spela in, ja.

På kort/medellång sikt är resultaten i låga upplösningar mycket intressanta, i synnerhet om man sitter på 144 Hz-skärm. Om man prompt vill ha tex 100+ FPS i BF1 kanske man hellre spelar på Low med sitt nuvarande grafikkort för att uppnå det, och när GTX 2080 kommer ut höjer man till Ultra.

Om det bara testats i upplösningar där GPUn flaskar vid tex 80 FPS är det omöjligt att utläsa något annat än huruvida CPUn klarar 80 FPS. Dvs det säger ännu mindre om framtiden.

Skickades från m.sweclockers.com

Gå till inlägget

Om man nu vill testa i 100 Hz, varför inte välja vettiga inställningar för detta, ingen spelar väl i 720p?
Välj 1080p och sänk övriga inställningar i stället.

Visa signatur

Rapportera Redigera

Citera flera Citera (2)

2017-03-10 11:00

Permalänk

Sisyfos

Entusiast ★

Plats: Linköping
Registrerad: Mar 2012

●

Skrivet av Ratatosk:

Om man nu vill testa i 100 Hz, varför inte välja vettiga inställningar för detta, ingen spelar väl i 720p?
Välj 1080p och sänk övriga inställningar i stället.

Gå till inlägget

Grejen är ju bara den att visa inställningar i spel också kan påverka CPU-prestandan.
Att sänka upplösningen så lågt som möjligt och helst med övriga inställningar på max är optimalt, synd bara att inga recensenter verkar göra det.

Skickades från m.sweclockers.com

Visa signatur

Den digitala högborgen: [Fractal Design Meshify C] ≈ [Corsair RM850x] ≈ [GeForce RTX 3080] ≈ [AMD Ryzen 7 7800X3D ≈ [Noctua NH-U14S] ≈ [G.Skill Flare X5 32GB@6GHz/CL30] ≈ [MSI MAG B650 TOMAHAWK] ≈ [Kingston Fury Renegade 2 TB] ≈

Rapportera Redigera

Citera flera Citera (3)

2017-03-10 11:04

Permalänk

tellus82

Medlem ★

Plats: Sälen
Registrerad: Maj 2004

●

Jag trodde att jag redan påvisat våndan av att testa i 720p/low settings... När man kommer upp i mycket hög fps (som man gör i 720p/low med 1080/ti/titan) så kommer andra faktorer i systemet bli limiterande, cpu användning/belastning kan faktiskt sjunka i dessa scenarion mot att köra en vettig upplösning/inställning där du inte är gpu limiterad (1080p/high/very high). Observera att nedanstående tester gjorts på min egen burk, inte på ett ryzen system. Principen är dock exakt den samma på ett Ryzen system.

Här ser du något så enkelt som hur minnesbandbredd påverkar FPS i spel, titta framförallt på max fps mellan 1600MHz och 2133MHz, här skiljer det mer än 50fps på en bandbreddsskillnad av ~9-10GB/s. Inget annat är ändrat mellan testerna förutom minnesfrekvens. Och innan nån säger att det gäller bara detta systemet och inget annat så ta på er tänkarmössan... Observera att varken CPU eller GPU är ens lite i närheten av att agera en flaskhals i dessa tester.

PCI-E 2.0 motsvarar lite mer än halva 3.0 så 8x@2.0 är ~4x@3.0, 16x@2.0 motsvarar ~8x@3.0

Här ser man effekten av PCI-E bandbredd på hög FPS, i normal FPS (144-165) så finns det praktiskt ingen mätbar skillnad/ytterst liten skillnad, kliv över 200FPS och du ser direkt en skillnad som bara växer med antal FPS. Här så är FPS helt lössläppt vilket borde ge en GPU flaskhals eller CPU flaskhals men ingendera kommer i närheten av 99-100% belastning under detta test heller.

Igen försök komma ihåg att fantasi FPS egentligen inte säger någonting om man inte samtidigt har data på gpu och cpu belastning, annars kan det vara att man sitter och benchar skillnad på PCI-E throughput eller latency för den samma istället för CPU styrka eller minnesbandbredd/latency på internminnet.

Här ser man istället skillnad på cpu belastning per frame mellan högsta och lägsta ingame inställningarna, på det värsta stället (Geothermal Valley) skiljer det mer än 40% vilket motsvarar mer än tre logiska kärnor på aktuellt system.

Här ser ni skillnad på cpu belastning per frame vid ändrad upplösning, medelvärde skiljer som mest 1% totalt

Ytterligare en på samma fast mellan 1080p ultra wide och 4k ultra wide.

Detta spelet kan under geothermal valley och Syria testet använda precis 100% av din cpu men det kräver rätt inställningar och upplösning som inte begränsas av GPU, vilken upplösning det i slutändan blir bero på din GPU. Men att kategoriskt säga att man alltid ska testa i 720p low eller high är inget annat än hål i huvudet. Man måste såklart titta på hur systemet faktiskt belastas av varje test.

Senast redigerat 2017-03-10 11:28

Visa signatur

Rapportera Redigera

Citera flera Citera (9)

2017-03-10 11:05

Permalänk

liket

Medlem

Plats: Umeå
Registrerad: Jul 2001

●

@MakeCoke:
Jag vet inte hur jag gav den uppfattningen om att det är ointressant med tester i låga upplösningar tvärtomhåller jag med dig om att testerna som visar höga fps är värdefulla.

Videon visar att grafikkortet processorn inte nödvändigtvis skalar linjärt med snabbare grafikkort, varken i FPS eller upplösning, det är snarare att det är exponentiellt avtagande och därför är höga upplösningar minst lika intressanta att visa.

Rapportera Redigera

Citera flera Citera

2017-03-10 11:17

Permalänk

Ratatosk

Hjälpsam ★

Plats: Karlskoga
Registrerad: Jan 2007

●

Skrivet av Sisyfos:

Grejen är ju bara den att visa inställningar i spel också kan påverka CPU-prestandan.
Att sänka upplösningen så lågt som möjligt och helst med övriga inställningar på max är optimalt, synd bara att inga recensenter verkar göra det.

Skickades från m.sweclockers.com

Gå till inlägget

Som @tellus82 visar, man vet inte om vad som begränsar i ett konstlat testfall, det kan vara något helt annat än de intällningar folk normalt använder, när de vill spela med hög fps.
Jag är också mot att testa grafikkort i extremt höga inställningar, nästan ingen är väl intresserad av vilket kort som presterar bäst i 4k, om det rör sig om bärst runt 15 fps.
Nej testa gärna i 4k, men se till att sänka grafiken, så att du i alla fall når i runt 60 Hz.

Visa signatur

Rapportera Redigera

Citera flera Citera (1)

2017-03-10 11:19

Permalänk

Yoshman

Datavetare ★

Plats: Stockholm
Registrerad: Jun 2011

●

Skrivet av tellus82:

Grafen kommer från min burk... Trodde det var rätt uppenbart

Gå till inlägget

Visst kompis, fattade absolut att det kommer från din burk. Och eftersom du postade det som ett bevis för att något inte fungerar som det ska på Ryzen ligger det VÄLDIGT nära tillhands att anta att din burk har en Ryzen CPU i sig.

För om det är en Intel, vad försökte du då visa? CPU-lasten är precis vad man förväntar sig från en CPU med SMT där alla CPU-tråd schemaläggning sköts till 100 % av Windows, d.v.s. cache-topologin är helt irrelevant då applikationen inte använder den till att själv styra mappning av OS-trådar till CPU-trådar.

Verkar också som felet med cache-topologin varken låg i Windows, i CPUn eller moderkortet. Problemet verkar vara att äldre versioner av programmet Coreinfo visar information fel, uppdaterar man till senaste Coreinfo blir det rätt (står om det i "Ryzen: strictly technical" Ryzen: Strictly technical).

Så cache-topologi lär aldrig ha varit ett problem då felet låg i att Coreinfo visade information fel.

PCPerspective nämner också här (kolla 42:30-44:00 minuter in i videon) att Windows schemalägger OS-trådar precis som förväntat på Ryzen. Man lastar först varannan CPU-tråd, d.v.s. lägger jobb på ena CPU-tråden i varje fysisk kärna. Först när det inte längre finns några CPU-kärnor om är "idle" börjar man också lasta den andra CPU-tråden.

De spekulerar en del mellan 40:00-50:00 om vad som kan vara orsaken till spel-prestanda. De pekar på något i Infinity-fabric.

Jag tror det är mycket enklare: benchmarks tenderar pushar skalära flyttal som Zen är lysande på, spel (och de flesta "vanliga" program) pushar skalära heltal och dessa är är inte heller "embarrassing parallel". Zen har Haswell/Broadwell IPC för skalära flyttal, men har Sandy/Ivy Bridge IPC för skalära heltal + synkronisering mellan kärnor är dyrare i Zen än Core. Det förklara i princip alla resultat vi ser.

Så SMT-schemaläggning fungerar precis som jag hävdat är fallet hela tiden och detta är det mest optimala en OS-kärnan kan göra. Det är inte nödvändigtvis det optimala för en viss applikation, men utan att ha detaljkännedom om vad de olika OS-trådarna gör (något som en OS-kärnan inte kan veta) är detta optimalt. Linux och OSX fungerar på samma sätt.

Skrivet av Ratatosk:

Tycker att Windows scheduler verkar vara för "hoppig", tror att både Intel och AMD skull tjäna på ett lugnare uppträdande.

Gå till inlägget

Tänkte just på hur mycket saker hoppar runt i Windows när jag kopierade en stort git-repo mellan två maskiner. Brukar göra detta genom att köra detta

$ ssh IPADDR_OF_SRC tar czf SRC_DIR - | tar xzf -

D.v.s. via SSH kör jag tar som komprimerar innehållet och skickar ut resultatet på stdout (som då i detta fall tunnlas genom SSH) för att packas upp lokalt. På båda sidor körs i praktiken två processer, programmet som packar (vilket är flaskhals givet tillräckligt snabbt nätverk) och ssh (som kanske tar 10-15 %CPU).

Sändaren var i detta fall Ubuntu, under hela tiden låg gzip fast på CPU-tråd #1, SSH på CPU-tråd #2 och tar tog 0-1 % på CPU-tråd #0. Windows hade jämn last över alla CPU-trådar trots att det var samma konstellation av processer.

Så är detta ett problem? Svaret är med stor sannolikhet att det ändå inte är ett prestandaproblem, orsaken ligger i tidsskalan för det som kan påverkas.

Windows verkar av någon anledning göra något med fördelning av mappning av OS-trådar till CPU-trådar varje OS-tick, mitt Windows 10 har 16 ms mellan tick (Windows har tydligen normalt mellan 10-16 ms mellan OS-tick).

Tidsskalan för cache-miss vs cache-hit ligger på tiotals till i värsta fall långa hundratals nanosekunder, det är fem-sex tiopotenser ifrån!!! Så att trådar i värsta fall flyttas var 16:e millisekund är på det stora hela irrelevant för prestanda då det i värsta fall lägger på 100-tals nanosekunder på de första minnesaccesserna efter bytet.

Ett långt större problem är då att en CPU-kärna som inte är så hårt lastad lägger sig att sova, fast att komma ur C1 (billigaste sovlägen som används när CPUn relativt ofta används) tar ~1 mikrosekund. Fortfarande tre-fyra tiopotenser från tiden Windows skyfflar runt OS-trådar mellan CPU-trådar.

Det största problemet, sett till tidsskalan, är trots allt frekvensskalning: P-states. Tar tiotals till i värsta fall långa hundratals mikrosekunder att hoppa mellan olika frekvenser. Ovanpå det kan det ta minst ett tick (16 ms) innan Windows-kärnan anser att en viss CPU-kärna är tillräckligt lastad för att man ska kliva in i P0 (högsta frekvens). Just att det tar så pass lång tid för ett OS att hinna sampla den informationen är orsaken till att färre CPU-kärnor faktiskt kan ge bättre upplevelse i interaktiva program om man kör på laptops/pekplattor som är väldigt aggressiv att skala ner frekvens av strömförbrukningshänsyn.

Tanken med "Speed shift" är att flytta samplingen av CPU-last från OS till CPU, vilket då leder till att man kan reagera på millisekundnivå i stället för som bäst 10-16 ms (OS-tick upplösning).

Det som idag verkar ställa till det för Ryzen är just C-states och P-states (frekvensskalning), AMD rekommenderar att man kör med "high performance" profilen fram till att detta rättats i UEFI/Windows. Kör man i "high performance" används bara P0 så den delen av ekvationen försvinner, tror också att endast C0/C1 används (C3 och C6 spar betydligt mer ström, men i C6 tappar CPU-cachen ström så allt måste läsas från L3$/RAM vid uppvaknande).

Skrivet av Gruarn:

öh, bilden var på en Core-CPU, inte en Ryzen. några trådar för lite för att vara Ryzen:)

Gå till inlägget

För någon som håller på att undersöka saker kring just hur program uppför sig över kärnor och över SMT förvånar det mig inte det minsta så länge inte antal CPU-trådar är fler än vad som är möjligt.

Eller var hittar jag denna i7-4702MQ som tydligen har 2 kärnor och totalt 3 CPU-trådar (är normalt 4C/8T)?

Dold text

Det är en laptop så är inte möjligt att ändra antalet CPU-kärnor i BIOS, fast behövs inte då det är en standardfunktion i Windows att ta upp en delmängd av alla CPU-trådar. Ännu coolare är det i Linux, där kan man ta upp/ner CPU-trådar dynamiskt!

Skrivet av marcusOCZ:

@Yoshman Som jag läser dina inlägg om saken så tror du inget på att Ryzen's SMT skall kunna optimeras genom en windowsuppdatering, har jag förstått det korrekt då? (Du behöver inte skriva en lång tirad, bara ja eller nej)

Gå till inlägget

Nej.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Rapportera Redigera

Citera flera Citera (6)

2017-03-10 11:22

Permalänk

tellus82

Medlem ★

Plats: Sälen
Registrerad: Maj 2004

●

Skrivet av Yoshman:

Visst kompis, fattade absolut att det kommer från din burk. Och eftersom du postade det som ett bevis för att något inte fungerar som det ska på Ryzen ligger det VÄLDIGT nära tillhands att anta att din burk har en Ryzen CPU i sig.

För om det är en Intel, vad försökte du då visa? CPU-lasten är precis vad man förväntar sig från en CPU med SMT där alla CPU-tråd schemaläggning sköts till 100 % av Windows, d.v.s. cache-topologin är helt irrelevant då applikationen inte använder den till att själv styra mappning av OS-trådar till CPU-trådar.

Verkar också som felet med cache-topologin varken låg i Windows, i CPUn eller moderkortet. Problemet verkar vara att äldre versioner av programmet Coreinfo visar information fel, uppdaterar man till senaste Coreinfo blir det rätt (står om det i "Ryzen: strictly technical" Ryzen: Strictly technical).

Så cache-topologi lär aldrig ha varit ett problem då felet låg i att Coreinfo visade information fel.

PCPerspective nämner också här (kolla 42:30-44:00 minuter in i videon) att Windows schemalägger OS-trådar precis som förväntat på Ryzen. Man lastar först varannan CPU-tråd, d.v.s. lägger jobb på ena CPU-tråden i varje fysisk kärna. Först när det inte längre finns några CPU-kärnor om är "idle" börjar man också lasta den andra CPU-tråden.
https://youtu.be/4aEw3e-je9w?t=2551

De spekulerar en del mellan 40:00-50:00 om vad som kan vara orsaken till spel-prestanda. De pekar på något i Infinity-fabric.

Jag tror det är mycket enklare: benchmarks tenderar pushar skalära flyttal som Zen är lysande på, spel (och de flesta "vanliga" program) pushar skalära heltal och dessa är är inte heller "embarrassing parallel". Zen har Haswell/Broadwell IPC för skalära flyttal, men har Sandy/Ivy Bridge IPC för skalära heltal + synkronisering mellan kärnor är dyrare i Zen än Core. Det förklara i princip alla resultat vi ser.

Vilket är precis vad jag hävdat är fallet hela tiden och detta är det mest optimala en OS-kärnan kan göra. Det är inte nödvändigtvis det optimala för en viss applikation, men utan att ha detaljkännedom om vad de olika OS-trådarna gör (något som en OS-kärnan inte kan veta) är detta optimalt. Linux och OSX fungerar på samma sätt.

Tänkte just på hur mycket saker hoppar runt i Windows när jag kopierade en stort git-repo mellan två maskiner. Brukar göra detta genom att köra detta

$ ssh IPADDR_OF_SRC tar czf SRC_DIR - | tar xzf -