AMD:s grafikkort med två grafikprocessorer Fiji kan heta "Radeon R9 Gemini"

Permalänk

Var lite nytt i alla fall får se uppbyggnaden av cpu:n, men prestandan vet vi inte mer än vad dom sa i våras.

Spännande helt klart hur ZEN blir och vilka cpu:er dom släpper. Troligen 14nm inte 16nm.

Visa signatur

Min spel rigg:FD Define R4|VX 550W|i5 2500K|Corsair LP 4GBX2|Mammabräda P67 Extreme4|GTX 670 windforce|23tum u2312hm
Min gamla/HTPC:AMD 6000+|Ram 2GbX2|Radeon HD5770| XFX 450/nu XFX 550
Mitt bygge: ByggloggFri frakt INET:Fraktfritt sweclockers vid köp över 500kr

#Gilla inlägg som är bra & Använd citera/@"namn" vid snabbt svar

Permalänk
Medlem
Skrivet av Tobbbe__:

Angående diagrammet du postade tidigare.

Kort med mer V-ram allokerar mer minne. Det betyder inte att Fury X med sina 4GB använder sitt minne bättre tack vare HBM1.
Den precis som alla andra 4GB kort tappar prestanda när den passerar 4GB därav max 4GB usage i testerna du postade tack vare AMD's begränsande drivrutiner. Det har inget alls med HBM's sjuka bandbredd å göra.

Att Titan X 12GB 980Ti 6GB allokerar mer under samma grafikinställningar är en fördel.
Har du sett träd, objekt laddas in mitt upp i allt? Precis!

Chansen att detta uppstår på ett kort med mindre minne är betydligt större eftersom drivrutinerna konstant ser till att objekten närmast laddas in först.

HBM's fördel är att den i princip flyttar över hela flaskhalsen till GPUn. HBM's bandbredd är sjukt overkill för vad den används till i dagens spel.

Läste ett test igår där de fick fler fps om minnena kördes i 560 istället för 500 mhz så helt overkill lär det ju inte vara.

Visa signatur

Ryzen 5 7600
Rx 6650xt
32Gb

Permalänk
Medlem

Precis

Visa signatur

..:: trickeh2k ::..
Windows 11 Pro - Ryzen 7 7800X3D - ASUS TUF B650-PLUS - Kingston FURY Beast DDR5 64GB CL36 - MSI MAG A850GL - MSI RTX 4080 VENTUS 3X OC - Acer Predator XB271HU - ASUS VG248QE - QPAD MK-85 (MX-Brown)/Logitech G PRO Wireless - Samsung 960 EVO 250GB, Samsung EVO 860 500GB, SanDisk Ultra II 480GB, Crucial MX500 1TB, Kingston KC3000 2TB - Steelseries Arctic 5 - Cooler Master Masterbox TD500 Mesh V2

Permalänk
Medlem

@Herr Andersson:

konstigt att inte vi på swec leder amd. men men..

Visa signatur

vad gör man inte för massorna med en
"riktigt stor digital penis"

Permalänk
Medlem

Eller från det riktiga ursprunget, NHW har som vanligt lite dålig koll
https://twitter.com/dresdenboy

Visa signatur

Engineer who prefer thinking out of the box and isn't fishing likes, fishing likes is like fishing proudness for those without ;-)
If U don't like it, bite the dust :D
--
I can Explain it to you, but I can't Understand it for you!

Permalänk
Medlem
Skrivet av sKRUVARN:

För att dom hanterar minnet olika? Har väl olika minnesoptimeringar, Nvidia har väl poängterat flera gånger hur effektiv Maxwell är på det. 780TI har ju samma problem som amd korten så det är inte bara att nvidia har bättre drivers för 4k.

Techreports "time spent beyond" är väl annars det bästa sättet för att se när kort börjar få problem med minnet/börjar stuttra osv som annars inte syns på vanliga fps grafer
Tex 970vs980
https://techreport.com/r.x/radeon-r9-fury/fc4-fps.gif
http://techreport.com/r.x/radeon-r9-fury/fc4-33ms.gif

Fast ligger medelvärdet för frametime runt 37-38 ms är det inte så konstigt att man spenderar bra mycket tid över 33 ms
Däremot håller jag med om att FPS är ett trubbigt mått när det gäller generell prestanda och som sagt är det svårt att se minnebegränsingar i ett medelvärde. Något jag saknar i de flesta testerna är en tydlig presentation av varians i datan .

Permalänk
Hjälpsam

Riktigt kompakt kort, för att vara dubbelgpu, kan nog få ett trevligt utseende.
Misstänker vattenkylning.

Visa signatur

AMD Ryzen 7 1700 | Saphire RX 5700 Pulse XT (Silent Mode) | 64 GB Kingston ECC | https://valid.x86.fr/z2ljhr | Stockkylaren | Bitfenix Whisper M 750W.
AMD Ryzen 9 5900X | AMD RX 5700 | 64 GB Micron ECC | https://valid.x86.fr/5krwxf
HTPC | https://valid.x86.fr/uuzli0 |

Permalänk
Datavetare
Skrivet av Bengt-Arne:

Eller från det riktiga ursprunget, NHW har som vanligt lite dålig koll
https://twitter.com/dresdenboy

Ursprunget verkar vara denna patch till GCC som AMD själva laddat upp

Det han sedan baserat bilden på är dessa delar

;; Decoders unit has 4 decoders and all of them can decode fast path ;; and vector type instructions. (define_cpu_unit "znver1-decode0" "znver1") (define_cpu_unit "znver1-decode1" "znver1") (define_cpu_unit "znver1-decode2" "znver1") (define_cpu_unit "znver1-decode3" "znver1") ... ;; Integer unit 4 ALU pipes. (define_cpu_unit "znver1-ieu0" "znver1_ieu") (define_cpu_unit "znver1-ieu1" "znver1_ieu") (define_cpu_unit "znver1-ieu2" "znver1_ieu") (define_cpu_unit "znver1-ieu3" "znver1_ieu") (define_reservation "znver1-ieu" "znver1-ieu0|znver1-ieu1|znver1-ieu2|znver1-ieu3") ;; 2 AGU pipes. (define_cpu_unit "znver1-agu0" "znver1_agu") (define_cpu_unit "znver1-agu1" "znver1_agu") (define_reservation "znver1-agu-reserve" "znver1-agu0|znver1-agu1") (define_reservation "znver1-load" "znver1-agu-reserve") (define_reservation "znver1-store" "znver1-agu-reserve") ... ;; Floating point unit 4 FP pipes. (define_cpu_unit "znver1-fp0" "znver1_fp") (define_cpu_unit "znver1-fp1" "znver1_fp") (define_cpu_unit "znver1-fp2" "znver1_fp") (define_cpu_unit "znver1-fp3" "znver1_fp") (define_reservation "znver1-fpu" "znver1-fp0|znver1-fp1|znver1-fp2|znver1-fp3")

I en annan del av patchen står cache-storlekarna:

32, /* size of l1 cache. */ 512, /* size of l2 cache. */

så borde vara ganska säkert att Zen har 32kB L1d$ och 512kB L2$.

Lär med 99% sannolikhet har 4 cyklers latens och vara en 8-set associativ L1d$ (det gör varje set 4kB stort -> samma storlek som minsta "page" storlek -> TLB$ och L1d$ kan utföras parallellt -> snabbare -> win

Frågan är vilken bandbredd och framförallt latens man får i sin L2$, Intel har ju stannat kvar vid sin relativt lilla L2$ just för att man då kan hålla latensen på 11-12 cykler. De flesta andra designer som kan nå >2GHz har ~20 cyklers latens mot L2.

Vad det gäller designen så ser ALU-enheterna ut att var väldigt symmetriska, d.v.s en tillbakagång till hur Athlon/Phenom såg ut fast de hade tre pipes medan Zen har fyra. De fyra flyttalspipe:sen ser däremot ut att vara väldigt asymmetriska (dock verkar alla kunna flytta data vilket nog är en fördel då flyttalsdelen är separat precis som på Bulldozer), så svårt att säga hur dessa står sig mot de tre som finns i Bulldozer-familjen där det enligt GCC-modellen är två väldigt symmetriska flyttals-pipes och en som gör lite mer udda saker, d.v.s. tre totalt.

NOTE: inte säkert att Zen rent fysiskt ser ut exakt så här, .md filer i GCC är en förenklad modell av en CPU som används för att GCC ska kunna lägga ut en bra mix av instruktioner.

Edit: Rätt säker att det är en bug i .md filen också

(define_insn_reservation "znver1_sseavx_fma" 5 (and (eq_attr "cpu" "znver1") (and (eq_attr "mode" "SF,DF,V4SF,V2DF") (and (eq_attr "type" "ssemuladd") (eq_attr "memory" "none")))) "znver1-direct,(znver1-fp0+znver1-fp3)|(znver1-fp1+znver1-fp3)")

enligt detta så måste fused-multiply-add alltid gå igenom FP3, det skulle betyda att man inte kan köra 2 FMA per cykel och bilden som gjordes är i så fall fel. Ska nog vara (znver1-fp0+znver1-fp2)|(znver1-fp1+znver1-fp3)

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Permalänk
Medlem
Skrivet av Bengt-Arne:

Eller från det riktiga ursprunget, NHW har som vanligt lite dålig koll
https://twitter.com/dresdenboy

Det kanske är så.
Inte så många där men deras artikel är bättre än twitterexemplet och även bättre än här.
Antar att man inte har tävlingar som kanske drar en del men jag vet inte. De är i vart fall bättre på att skriva om nyheter. Möjligen att det deras artiklar är lite mycket detaljer i.

Permalänk
Medlem
Skrivet av Yoshman:

Ursprunget verkar vara denna patch till GCC som AMD själva laddat upp

Det han sedan baserat bilden på är dessa delar

;; Decoders unit has 4 decoders and all of them can decode fast path ;; and vector type instructions. (define_cpu_unit "znver1-decode0" "znver1") (define_cpu_unit "znver1-decode1" "znver1") (define_cpu_unit "znver1-decode2" "znver1") (define_cpu_unit "znver1-decode3" "znver1") ... ;; Integer unit 4 ALU pipes. (define_cpu_unit "znver1-ieu0" "znver1_ieu") (define_cpu_unit "znver1-ieu1" "znver1_ieu") (define_cpu_unit "znver1-ieu2" "znver1_ieu") (define_cpu_unit "znver1-ieu3" "znver1_ieu") (define_reservation "znver1-ieu" "znver1-ieu0|znver1-ieu1|znver1-ieu2|znver1-ieu3") ;; 2 AGU pipes. (define_cpu_unit "znver1-agu0" "znver1_agu") (define_cpu_unit "znver1-agu1" "znver1_agu") (define_reservation "znver1-agu-reserve" "znver1-agu0|znver1-agu1") (define_reservation "znver1-load" "znver1-agu-reserve") (define_reservation "znver1-store" "znver1-agu-reserve") ... ;; Floating point unit 4 FP pipes. (define_cpu_unit "znver1-fp0" "znver1_fp") (define_cpu_unit "znver1-fp1" "znver1_fp") (define_cpu_unit "znver1-fp2" "znver1_fp") (define_cpu_unit "znver1-fp3" "znver1_fp") (define_reservation "znver1-fpu" "znver1-fp0|znver1-fp1|znver1-fp2|znver1-fp3")

I en annan del av patchen står cache-storlekarna:

32, /* size of l1 cache. */ 512, /* size of l2 cache. */

så borde vara ganska säkert att Zen har 32kB L1d$ och 512kB L2$.

Lär med 99% sannolikhet har 4 cyklers latens och vara en 8-set associativ L1d$ (det gör varje set 4kB stort -> samma storlek som minsta "page" storlek -> TLB$ och L1d$ kan utföras parallellt -> snabbare -> win

Frågan är vilken bandbredd och framförallt latens man får i sin L2$, Intel har ju stannat kvar vid sin relativt lilla L2$ just för att man då kan hålla latensen på 11-12 cykler. De flesta andra designer som kan nå >2GHz har ~20 cyklers latens mot L2.

Vad det gäller designen så ser ALU-enheterna ut att var väldigt symmetriska, d.v.s en tillbakagång till hur Athlon/Phenom såg ut fast de hade tre pipes medan Zen har fyra. De fyra flyttalspipe:sen ser däremot ut att vara väldigt asymmetriska (dock verkar alla kunna flytta data vilket nog är en fördel då flyttalsdelen är separat precis som på Bulldozer), så svårt att säga hur dessa står sig mot de tre som finns i Bulldozer-familjen där det enligt GCC-modellen är två väldigt symmetriska flyttals-pipes och en som gör lite mer udda saker, d.v.s. tre totalt.

NOTE: inte säkert att Zen rent fysiskt ser ut exakt så här, .md filer i GCC är en förenklad modell av en CPU som används för att GCC ska kunna lägga ut en bra mix av instruktioner.

Edit: Rätt säker att det är en bug i .md filen också

(define_insn_reservation "znver1_sseavx_fma" 5 (and (eq_attr "cpu" "znver1") (and (eq_attr "mode" "SF,DF,V4SF,V2DF") (and (eq_attr "type" "ssemuladd") (eq_attr "memory" "none")))) "znver1-direct,(znver1-fp0+znver1-fp3)|(znver1-fp1+znver1-fp3)")

enligt detta så måste fused-multiply-add alltid gå igenom FP3, det skulle betyda att man inte kan köra 2 FMA per cykel och bilden som gjordes är i så fall fel. Ska nog vara (znver1-fp0+znver1-fp2)|(znver1-fp1+znver1-fp3)

Fast tittar man på referensen så kommer bilden därifrån.
Om man tittar lite mer på källan så är det version 0.2, det innebär att det inte är den slutliga produkten utan en testupplaga som antagligen aldrig går att köpa. Bilden är från 2:a Oktober men hur gammal är din upptäckta kod ? Det kanske är så att koden redan har utgått efter någon test och visar något som har varit. 09 i URL:en kan vara att det är September och en gammal modul som förmodligen utgått.

(efter lite mer efterforskningar)
Det är nån stjärna som heter Matthias Waldhauer från Berlin som tror att det kan se ut så och gjort blockdiagrammet som NHW publicerat. Riktigt vad han använt för att göra diagrammet vet jag inte och han har nog inget med AMD att göra heller (tror att han jobbar på något flygbolag men vet inte säkert) Det är inlagt en del spekulationer också men vad som är vad står inte så mycket på hans blogg.
dresdenboy.blogspot.de/2015/10/amds-zen-core-family-17h-to-have-ten.html

Permalänk
Datavetare
Skrivet av abki:

Fast tittar man på referensen så kommer bilden därifrån.
Om man tittar lite mer på källan så är det version 0.2, det innebär att det inte är den slutliga produkten utan en testupplaga som antagligen aldrig går att köpa. Bilden är från 2:a Oktober men hur gammal är din upptäckta kod ? Det kanske är så att koden redan har utgått efter någon test och visar något som har varit. 09 i URL:en kan vara att det är September och en gammal modul som förmodligen utgått.

(efter lite mer efterforskningar)
Det är nån stjärna som heter Matthias Waldhauer från Berlin som tror att det kan se ut så och gjort blockdiagrammet som NHW publicerat. Riktigt vad han använt för att göra diagrammet vet jag inte och han har nog inget med AMD att göra heller (tror att han jobbar på något flygbolag men vet inte säkert) Det är inlagt en del spekulationer också men vad som är vad står inte så mycket på hans blogg.
dresdenboy.blogspot.de/2015/10/amds-zen-core-family-17h-to-have-ten.html

Kollar man Matthias Waldhauer blogg, den du länkat, så står det faktiskt klart och tydligt att det är just GCC-patchen han använt som information när han skapade sin bild, plus att han tittat på en del patent som AMD ansökt om i närtid. Så bilden han gjort är nog med stor sannolikhet korrekt, tyvärr säger det fortfarande inte jättemycket om prestanda.

Vad man ändå kan gissa sig till när man jämför znver1.md (definitionen för Zen) och bdver3.md (definitionen för Steamroller/Excavator) är att FPU-delen är i stort ett återanvänd, skillnaden är att varje Zen kärna här motsvarar en modul, d.v.s flyttalsblocket delas inte mellan heltalkärnor, dock delas allt mellan två CPU-trådar (SMT).

Verkar finnas flera likheter med just Steamroller/Excavator, skulle gissa att ALU-designen i Zen mycket är som Steamroller/Excavator där man slagit ihop en hel modul till att bli en CPU-kärna med SMT-stöd. Är inte alls orimligt, tittar man på ett helt modulblock så innehåller det faktiskt ungefär samma mängd beräkningsenheter som Haswell har per CPU-kärna, en mix vi har sett fungerar väldigt bra så att inspireras av den designen är antagligen en bra idé.

Flyttalsdelen i Bulldozer-serien fungerar ju mycket som om en modul var en kärna med två CPU-trådar, d.v.s. en SMT-design. Tittar man på flyttalsintensiva tester som t.ex. Cinebench så är det ju där man klarar sig riktigt bra mot Intels modeller. Om det är fallet och Zen visar sig prestera riktigt bra är det lite sorgligt då det antyder att majoriteten av Bulldozer-designen var inte fel, enda missen var att någon på AMD fått för sig att SMT är djävulens påfund och därför drog man upp en hård separation för heltalenheter mellan de två CPU-trådar varje modul kan hantera.

Är inte helt orimligt att själva kärnan i Zen har väldigt mycket gemensamt med Excavator , vid lanseringen av Bulldozer pekade AMD väldigt mycket på att prestanda med SMT kan vara lite svår att förutsäga (helt sant) och att deras CMT (cluster based multithreading) ger mer förutsägbar prestanda (också helt sant, problemet är att den är förutsägbar då enkeltrådprestanda är konsekvent dålig!). Cache-hierarkin känns däremot rejält omarbetat, får känslan att det mer är Kellers område så kanske det hans team jobbat med?

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Permalänk
Medlem
Skrivet av abki:

Det kanske är så.
Inte så många där men deras artikel är bättre än twitterexemplet och även bättre än här.
Antar att man inte har tävlingar som kanske drar en del men jag vet inte. De är i vart fall bättre på att skriva om nyheter. Möjligen att det deras artiklar är lite mycket detaljer i.

Hmm... Är inte frågan om tävling

Däremot så är det ju alltid bra med ursprungskälla, då den bör ha bäst information. Sen hör det ju till god journalistik att ange ursprung, om man inte bara vill sprida rykten...

Jag var även till att börja med kritisk till dresdenboy's slutsats och studerade den lite mer ingående, men som sagt han verkar vara relativt rätt på det. Något som jag ser även Yoshman konstaterat

Visa signatur

Engineer who prefer thinking out of the box and isn't fishing likes, fishing likes is like fishing proudness for those without ;-)
If U don't like it, bite the dust :D
--
I can Explain it to you, but I can't Understand it for you!

Permalänk
Medlem
Skrivet av Yoshman:

Edit: Rätt säker att det är en bug i .md filen också

(define_insn_reservation "znver1_sseavx_fma" 5 (and (eq_attr "cpu" "znver1") (and (eq_attr "mode" "SF,DF,V4SF,V2DF") (and (eq_attr "type" "ssemuladd") (eq_attr "memory" "none")))) "znver1-direct,(znver1-fp0+znver1-fp3)|(znver1-fp1+znver1-fp3)")

enligt detta så måste fused-multiply-add alltid gå igenom FP3, det skulle betyda att man inte kan köra 2 FMA per cykel och bilden som gjordes är i så fall fel. Ska nog vara (znver1-fp0+znver1-fp2)|(znver1-fp1+znver1-fp3)

Det är ju den första patchen som av vad jag förstod inte var fullkomlig, resten av filerna är ju fortfarande baserade på Bulldozer som dom ska ändra senare.
Så, ja troligen är det en bug. Som jag är säker på att du lätt hittar, men inte jag

Visa signatur

Engineer who prefer thinking out of the box and isn't fishing likes, fishing likes is like fishing proudness for those without ;-)
If U don't like it, bite the dust :D
--
I can Explain it to you, but I can't Understand it for you!