AMD Kaveri får minneskontroller för GDDR5

2013-03-06 12:41

Melding Plague

Registrerad: Dec 1999

●

AMD Kaveri får minneskontroller för GDDR5

Nya uppgifter gör gällande att kommande AMD "Kaveri" inte bara får stöd för snabbare DDR3 utan även ska klara GDDR5 ändå upp till 3,4 GHz – mycket likt processorn i Playstation 4.

Visa signatur

Observera att samma trivselregler gäller i kommentarstrådarna som i övriga forumet och att brott mot dessa kan leda till avstängning. Kontakta redaktionen om du vill uppmärksamma fel i artikeln eller framföra andra synpunkter.

Rapportera Redigera

Citera flera Citera (2)

2013-03-06 12:47

Swedish Berserk

Medlem ★

Plats: Skåne
Registrerad: Apr 2009

●

Låter som en trevlig produkt!

Visa signatur

Bärbar Speldator: AMD Ryzen 5 5600H I Nvidia RTX 3050 Ti
Xiaomi Poco X3 Pro I Nvidia Shield TV V2 I PS4 I

Rapportera Redigera

Citera flera Citera (11)

2013-03-06 12:48

Medlem

Plats: nyköping
Registrerad: Dec 2011

●

oj mycket på G fråm amd. hoppas verkligen detta slår väl ut! men det känns som att amd är mer innovativa än intel just nu så det skulle dom förtjäna

Rapportera Redigera

Citera flera Citera (32)

2013-03-06 12:52

Medlem ★

Registrerad: Jun 2008

●

Skrivet av Swedish Berserk:

Låter som en trevlig produkt!

Gå till inlägget

Låter som vänlig typ

Visa signatur

Rota3: Ryzen 5600 - 32GB - Radeon RX 7600 - Kingston NV200 2TB - Fractal Design R3 - EVGA Supernova 750W

Rapportera Redigera

Citera flera Citera (4)

2013-03-06 12:52

Medlem ★

Registrerad: Nov 2011

●

Full fart där. Kan bli intressant att se hur framtiden blir. Vill se resultat för Kaveri snart. Undrar om Steamroller kan laga prestandan i deras CPU-arkitektur helt.

Rapportera Redigera

Citera flera Citera (1)

2013-03-06 12:53

Medlem ★

Plats: Wales
Registrerad: Feb 2005

●

De märks att AMD ändrat sin strategi. Istället för att försöka konkurrera med bäst prestanda siktar dem in sig på en kostnadseffektiv men kapabel helhetslösning.

Rapportera Redigera

Citera flera Citera (24)

2013-03-06 12:57

Medlem

Plats: Skövde
Registrerad: Jun 2009

●

Låter trevligt och allt men vad har hänt med Richland?

Visa signatur

Citera för svar

MSI Z490 MAG TOMAHAWK | Intel Core i7 10700K | Corsair 64GB DDR4 3200MHz | Asus GeForce RTX 3060 Ti TUF Gaming OC | Samsung 970 EVO Plus 1TB | WD Black 6TB Desktop Drive | Corsair RM750X 750W | Fractal Design Define R6

Rapportera Redigera

Citera flera Citera (1)

2013-03-06 13:08

Medlem ★

Plats: 127.0.0.1
Registrerad: Maj 2007

●

en laptop med delat gddr5 vore ju faktiskt trevligt, då gör det ju inte så mycket om processorn är fastlödd. kanske att man får avstå från ram-uppgraderingar dock... men med tanke på vilka prestandavinster trinity gav med snabbare minne så är jag positiv länk för er som inte kommer ihåg

Visa signatur

Ryzen 7600X - Geforce RTX 4080 - Custom Loop - Samsung 34" Ultra Wide
~~Intel i7 9700K - Radeon VII~~

Rapportera Redigera

Citera flera Citera (11)

2013-03-06 13:30

Entusiast ★

Plats: Göteborg
Registrerad: Dec 2005

●

Hoppas nästa steg blir dubbla minneskontroller så att grafiken får ett eget minne. Det skulle göra enormt mycket för prestandan om det så bara fick några hundra MB och delade på resten. Intel ska u utöka cacheminnet på sin grafikdel rätt mycket i nästa steg för att öka prestandan.

Visa signatur

Q9450, HD4850, 8 GB DDR2 800 MHz, 3x750 GB, Antec 300, Dell 2408WFP, U2410, Qnap TS-419p+ 4x2 TB Samsung F4, Asus UL30A-QX056V, Logitech Z-680, Sennheiser HD380pro, M-Audio FastTrack Pro, Ibanez sa160qm, Ibanez TB 15R, Zoom 505II, Ibanez GSR 200, Ibanez SW 35, Cort AC-15, Squier SD-3 BBL, Yamaha PSR 270, Røde NT1-A, Nikon D200, Nikkor 18-70/3,5-4,5, 70-300VR, 50/1,8, 28/2,8, Tamron 17-50/2,8, 90/2,8, Sigma 30/1,4, SB-800, SB-25, SB-24

Rapportera Redigera

Citera flera Citera

2013-03-06 13:53

Medlem

Plats: Piteå
Registrerad: Jun 2010

●

Fast samtidigt ger ju delat minne som kommande APU har sina fördelar med även för prestanda.

Visa signatur

Desktop: i5-4570S, 32GB RAM, WD Black SN750 SSD 1TB
Server: HP Z420 E5-1620v2, 64GB RAM, Varierande diskar
HTPC: i5-2320, 8GB RAM, Powercolor Radeon RX 550 4GB
Annat: Raspberry Pi 4 4GB, Netgear Nighthawk R7000 Router, ZyXEL GS1900-24E Switch

Rapportera Redigera

Citera flera Citera (1)

2013-03-06 13:58

Medlem ★

Plats: Youtube
Registrerad: Okt 2009

●

Låter som en smart idé.
Kommer helt klart fungera väl i laptops.
Skulle vara kul om de kunde lösa det för
stationära också.

Visa signatur

Akashiro 0.9: Ryzen 5 7600, Radeon RX 7800XT Pure: 64/2000
https://podcasters.spotify.com/pod/show/thomaseron

Rapportera Redigera

Citera flera Citera (1)

2013-03-06 14:02

Medlem

Plats: Suomi
Registrerad: Dec 2010

●

Kaveri=kompis på finska

Visa signatur

i7 4790K @4,4Ghz/Thermalright Macho Rev.B/Asus Z97-C/2x8GB DDR3 G.Skill 2400Mhz/MSI GTX 970 Gaming OC/Crucial M4 128GB/Sandisk Ultra II 960GB/Samsung F3 500GB/Western Digital Green 2TB/EVGA G2 750W/Define S/HP Pavilion 23xi/Windows 7 Professional 64bit

Rapportera Redigera

Citera flera Citera (5)

2013-03-06 14:05

Medlem

Plats: Umeå
Registrerad: Feb 2011

●

Kanske en dum fråga. Men om 4 GB är max, hur gör nvidia då med sitt GTX titan som är på 6 GB?

Visa signatur

AMD Phenom II X4 965 @ 3,9GHz | MSI 870A-G54 AM3 | Corsair 1600MHz XMS3 8GB | Gigabyte Radeon HD6950 2GB | Crucial M500 240GB | FSP Aurum 700w

Rapportera Redigera

Citera flera Citera

2013-03-06 14:07

Inaktiv

Registrerad: Jan 2002

●

Det känns på något vis som att AMD bör vara rätt säker den närmaste framtiden med tanke på senare tids nyheter.

Om nu prestandan ökar ytterliggare med AMD's APU's och de integrerade grafikdelarna börjar närma sig mellanklass-prestanda så lär Nvidias grafikkortsförsäljningar hotas rätt skapligt med. De kan isåfall hamna i ett jobbigt läge där AMD "tar" deras kunder och själva inte kan svara pga avsaknaden av konkurrerande produkt. För datorbyggarna blir Nvidias kort bara en extrautgift som konsumenten får betala.

Mycket spännande att se hur detta fortsätter.

Rapportera Redigera

Citera flera Citera (8)

2013-03-06 14:10

Medlem

Registrerad: Maj 2008

●

fortsätt så amd !

Rapportera Redigera

Citera flera Citera (1)

2013-03-06 14:14

Moderator

Festpilot 2020, Antiallo ★

David Kvist

Plats: Göteborg
Registrerad: Jun 2012

●

Skrivet av superdupernemo:

Kanske en dum fråga. Men om 4 GB är max, hur gör nvidia då med sitt GTX titan som är på 6 GB?

Gå till inlägget

Bredare bandbredd på minneskontrollern?

Visa signatur

| PM:a Moderatorerna | Kontaktformuläret | Geeks Discord |
Testpilot, Skribent, Moderator & Geeks Gaming Huvudadmin

Rapportera Redigera

Citera flera Citera

2013-03-06 14:16

Medlem ★

Plats: Göteborg
Registrerad: Jul 2001

●

Skrivet av Zotamedu:

Hoppas nästa steg blir dubbla minneskontroller så att grafiken får ett eget minne. Det skulle göra enormt mycket för prestandan om det så bara fick några hundra MB och delade på resten. Intel ska u utöka cacheminnet på sin grafikdel rätt mycket i nästa steg för att öka prestandan.

Gå till inlägget

Allting pekar på att det går mot en minneskontroller istället för två.

Det gäller att hålla isär lite av varje här, det finns flera olika sätt att dela på minnet.

En traditionell lösning är att grafikkortet mappar upp en del av ramminnet och processorn en annan. mig veterlligen är det så här intels nuvarande lösning ser ut.

Vad AMD jobbat på under en lång tid är att grafikkortet ska kunna dela minnesrymd med processorn, man blir alltså av med problem som att en bit av minnet är låst. Man ger också möjlighet för grafikdelen att kunna jobba mot samma minnesrymd som processorn i GPGPU-applikationer.
Tidigare har processorn fått mata grafikkortet med minne i GPGPU-applikationer, något som varit väldigt långsamt. Jag tror också de satsar på att få cachen delad mellan GPU och CPU.

Trinity och framåt har också en smart minneskontroller, den fugerar som en router och har prioriteringsfunktionalitet. Exempelvis kan den begära att minne till grafikberäkningar får högre prioritet än minne till CPU-beräkningar, detta för att få upp framerate i 3D-spel.

Med tanke på allt AMD gör känns ytterligare en minneskontroller inte särskilt troligt. De jobbar hårt för att öka prestandan i kombinerade lösningar, både i effektivitet och bandbredd.

Skrivet av superdupernemo:

Kanske en dum fråga. Men om 4 GB är max, hur gör nvidia då med sitt GTX titan som är på 6 GB?

Gå till inlägget

Det sitter en helt annan minneskontroller i GTX Titan än i AMDs processor, så begränsningen skulle kunna ligga där. Begränsningen kan också vara i chipstorlek på minnena, i så fall kan man se att AMD har 128bitar och Titan har 384bitar. Med andra ord borde Titan kunna ansluta 3x fler minnen av maxstorlek om det vore fallet.

Senast redigerat 2013-03-06 14:22

Visa signatur

Arch | 1440p 165Hz IPS | 7800X3D | 1080ti | 64GB@6GHz | SN850 2TB

Rapportera Redigera

Citera flera Citera (6)

2013-03-06 14:34

Medlem ★

Registrerad: Nov 2011

●

Det jag vill se sedan är benchmarks. Se hur mycket sämre GDDR5 är som systemminne än DDR3.

Skrivet av superdupernemo:

Kanske en dum fråga. Men om 4 GB är max, hur gör nvidia då med sitt GTX titan som är på 6 GB?

Gå till inlägget

Handlar om hur stora minneschipp det finns, har man bredare buss kan man koppla i fler chip. Titan har 384-bit minneskontroller. Men en så stor minneskontroller tar mycket plats och drar mycket ström, det är alldeles för dyrt att bygga in i en APU.

Rapportera Redigera

Citera flera Citera

2013-03-06 14:44

Medlem ★

Plats: Flen
Registrerad: Jul 2001

●

Skrivet av Dew87:

Låter trevligt och allt men vad har hänt med Richland?

Gå till inlägget

Richland är Trinity i en ny revision, annars samma hårdvara med nya chipset/mjukvara samt stöd för något högre minneshastighet. Det är ingen ny processor. Kaveri och Kabini/Temash är det som kommer i år. Kan de få ut Kaveri för bärbara så blir det ganska intressant, kommer de verkligen köra GDDR5 lär vi kunna få upp grafikprestandan lite ytterligare också. Tvivlar på att det kommer köras däremot, vi får nog nöja oss med lite snabbare DDR3L.

Rapportera Redigera

Citera flera Citera

2013-03-06 15:05

Entusiast ★

Plats: Göteborg
Registrerad: Dec 2005

●

Skrivet av adamq10:

Allting pekar på att det går mot en minneskontroller istället för två.

Det gäller att hålla isär lite av varje här, det finns flera olika sätt att dela på minnet.

En traditionell lösning är att grafikkortet mappar upp en del av ramminnet och processorn en annan. mig veterlligen är det så här intels nuvarande lösning ser ut.

Vad AMD jobbat på under en lång tid är att grafikkortet ska kunna dela minnesrymd med processorn, man blir alltså av med problem som att en bit av minnet är låst. Man ger också möjlighet för grafikdelen att kunna jobba mot samma minnesrymd som processorn i GPGPU-applikationer.
Tidigare har processorn fått mata grafikkortet med minne i GPGPU-applikationer, något som varit väldigt långsamt. Jag tror också de satsar på att få cachen delad mellan GPU och CPU.

Trinity och framåt har också en smart minneskontroller, den fugerar som en router och har prioriteringsfunktionalitet. Exempelvis kan den begära att minne till grafikberäkningar får högre prioritet än minne till CPU-beräkningar, detta för att få upp framerate i 3D-spel.

Med tanke på allt AMD gör känns ytterligare en minneskontroller inte särskilt troligt. De jobbar hårt för att öka prestandan i kombinerade lösningar, både i effektivitet och bandbredd.

Gå till inlägget

Fast att de delar adressrymd löser inte det stora problemet som är relaterat till bandbredd. Det är ju det som sätter käppar i hjulet för prestandan. Att man låser minne är ju mer ett irritationsmoment som inte har samma prestandaproblem. Så visst blir livet lättare med delat adressutrymme men det gör ju inte att bandbreddsbegränsningen försvinner tyvärr. Så det krävs att de jobbar med hastigheten också. Fast det kanske löser sig självt när DDR4 kommer då jag vill minnas att det skulle ge en dubbling i hastighet mot DDR3 ungefär. Det i kombination med en större cache som minskar behovet av att läsa från det sammanhanget långsamma RAM kan också få lite fart på grejerna. Har ett svagt minne av att Intel tänkte slänga in 32 MB på grafikdelen.

Ja AMDs dröm är att lägga in CPU och GPU under samma L3 eller L2. Då blir det intressant och vi får en APU på riktigt. Tänk vilken prestanda man kan få ut av en sådan enhet med rätt skriven kod och en bra scheduler. Det är väl ungefär där som konceptet med kärnor kommer suddas ut helt då AMD antagligen kommer slänga in en enda stor gröt av heltalskluster, FPU och streamprocessorer.

Visa signatur

Q9450, HD4850, 8 GB DDR2 800 MHz, 3x750 GB, Antec 300, Dell 2408WFP, U2410, Qnap TS-419p+ 4x2 TB Samsung F4, Asus UL30A-QX056V, Logitech Z-680, Sennheiser HD380pro, M-Audio FastTrack Pro, Ibanez sa160qm, Ibanez TB 15R, Zoom 505II, Ibanez GSR 200, Ibanez SW 35, Cort AC-15, Squier SD-3 BBL, Yamaha PSR 270, Røde NT1-A, Nikon D200, Nikkor 18-70/3,5-4,5, 70-300VR, 50/1,8, 28/2,8, Tamron 17-50/2,8, 90/2,8, Sigma 30/1,4, SB-800, SB-25, SB-24

Rapportera Redigera

Citera flera Citera (5)

2013-03-06 15:39

Medlem

Plats: Piteå
Registrerad: Jun 2010

●

Skrivet av Petterk:

Richland är Trinity i en ny revision, annars samma hårdvara med nya chipset/mjukvara samt stöd för något högre minneshastighet. Det är ingen ny processor. Kaveri och Kabini/Temash är det som kommer i år. Kan de få ut Kaveri för bärbara så blir det ganska intressant, kommer de verkligen köra GDDR5 lär vi kunna få upp grafikprestandan lite ytterligare också. Tvivlar på att det kommer köras däremot, vi får nog nöja oss med lite snabbare DDR3L.

Gå till inlägget

Skulle nog inte kalla det Trinity även om det är samma arkitektur (Piledriver) eftersom dom gjort en del förfiningar och bättre GPU bla.
Själva GPU delen ska ju vara upp till 40% snabbare i Richland medans större delen av vinsterna i CPU delen kommer från högre frekvenser.
Tycker ändringarna känns för stora för att kalla det en ny revision bara.

Senast redigerat 2013-03-06 15:45

Visa signatur

Desktop: i5-4570S, 32GB RAM, WD Black SN750 SSD 1TB
Server: HP Z420 E5-1620v2, 64GB RAM, Varierande diskar
HTPC: i5-2320, 8GB RAM, Powercolor Radeon RX 550 4GB
Annat: Raspberry Pi 4 4GB, Netgear Nighthawk R7000 Router, ZyXEL GS1900-24E Switch

Rapportera Redigera

Citera flera Citera (3)

2013-03-06 16:10

Medlem ★

Registrerad: Nov 2011

●

Skrivet av Leatherface75:

Skulle nog inte kalla det Trinity även om det är samma arkitektur (Piledriver) eftersom dom gjort en del förfiningar och bättre GPU bla.
Själva GPU delen ska ju vara upp till 40% snabbare i Richland medans större delen av vinsterna i CPU delen kommer från högre frekvenser.
Tycker ändringarna känns för stora för att kalla det en ny revision bara.

Gå till inlägget

Vi vet inte om det faktiskt är en helt ny kärna eller om det är upphottade frekvenser. Jag finner det inte otroligt att de lagt till lite på GPU-sidan. Men man kan inte utesluta att det inte bara handlar om en ny revision där de fixat lite problem och därmed kunnat vrida upp frekvenser. Enligt specifikationerna som det ryktas om nu så är det samma antal enheter, samma kärna och allt, bara förbättringar på frekvenser.

Rapportera Redigera

Citera flera Citera (1)

2013-03-06 16:28

Medlem ★

Plats: Flen
Registrerad: Jul 2001

●

Skrivet av Leatherface75:

Skulle nog inte kalla det Trinity även om det är samma arkitektur (Piledriver) eftersom dom gjort en del förfiningar och bättre GPU bla.
Själva GPU delen ska ju vara upp till 40% snabbare i Richland medans större delen av vinsterna i CPU delen kommer från högre frekvenser.
Tycker ändringarna känns för stora för att kalla det en ny revision bara.

Gå till inlägget

Nej det är samma gpu, det är klockfrekvenser som skiljer beroende på modell. Större ändringar har kommit förr på revisioner hos AMD-processorer. A10-5800K har en 800MHz VLIW4-gpu, Richland ska ha en 844MHz. På den snabbaste desktop-varianten dvs. Det är helt betydelselöst när det ändå kommer nya produkter på nya processer istället för de gamla. Ingen kommer producera några bra notebooks på Richland när vi har Haswell och Kaveri kommande.

Rapportera Redigera

Citera flera Citera

2013-03-06 16:32

Medlem ★

Plats: Sthlm ➜ Hfors
Registrerad: Jun 2004

●

Skrivet av Zotamedu:

Fast att de delar adressrymd löser inte det stora problemet som är relaterat till bandbredd. Det är ju det som sätter käppar i hjulet för prestandan. Att man låser minne är ju mer ett irritationsmoment som inte har samma prestandaproblem. Så visst blir livet lättare med delat adressutrymme men det gör ju inte att bandbreddsbegränsningen försvinner tyvärr. Så det krävs att de jobbar med hastigheten också. Fast det kanske löser sig självt när DDR4 kommer då jag vill minnas att det skulle ge en dubbling i hastighet mot DDR3 ungefär. Det i kombination med en större cache som minskar behovet av att läsa från det sammanhanget långsamma RAM kan också få lite fart på grejerna. Har ett svagt minne av att Intel tänkte slänga in 32 MB på grafikdelen.

Gå till inlägget

Man ska givetvis jämföra två dedikerade 128-bitars bussar med t.ex en delad 256-bitars, och då är den delade bättre då den på ett bättre sätt balanserar prestandan mellan CPU och GPU och utnyttjar alla resurser som finns.

Rapportera Redigera

Citera flera Citera

2013-03-06 16:40

Datavetare ★

Plats: Stockholm
Registrerad: Jun 2011

●

Skrivet av adamq10:

Det gäller att hålla isär lite av varje här, det finns flera olika sätt att dela på minnet.

En traditionell lösning är att grafikkortet mappar upp en del av ramminnet och processorn en annan. mig veterlligen är det så här intels nuvarande lösning ser ut.

Vad AMD jobbat på under en lång tid är att grafikkortet ska kunna dela minnesrymd med processorn, man blir alltså av med problem som att en bit av minnet är låst. Man ger också möjlighet för grafikdelen att kunna jobba mot samma minnesrymd som processorn i GPGPU-applikationer.
Tidigare har processorn fått mata grafikkortet med minne i GPGPU-applikationer, något som varit väldigt långsamt. Jag tror också de satsar på att få cachen delad mellan GPU och CPU.

Trinity och framåt har också en smart minneskontroller, den fugerar som en router och har prioriteringsfunktionalitet. Exempelvis kan den begära att minne till grafikberäkningar får högre prioritet än minne till CPU-beräkningar, detta för att få upp framerate i 3D-spel.

Dold text

Gå till inlägget

I alla lösningar som har "delat minne" kan CPUn direkt komma åt allt RAM, däremot är (alltid?) bara delar av RAM åtkomligt för GPUn. Detta gäller både AMDs nuvarande APUer och Intels HD-serie. Men till skillnad mot AMD så kan HD2000 och senare använda CPUns L3-cache som cache även för GPUn, problemet är väl att 3MB-8MB (som är storleken på Corei3 till Corei7) inte är speciellt mycket + att GPUn konkurrerar med CPUn om L3-cachen. En av de rykten jag sett kring framtida APUer är att de också kommer kunna använda L3-cachen som GPU-cache, L1/L2 cachen är en integrerad del av CPU-kärnan både på Bulldozer och senare samt på Nehalem och senare så den lär aldrig delas med GPUn.

Som redan länkats ovan så är det ju uppenbart att GPU-delen i AMDs APUer kraftigt begränsas av bandbredd mot RAM, så det är den flaskhals man måste lösa. Att använda GDDR5 är definitivt en lösning som kommer ge en rejäl knuff för GPUn, frågan är bara hur negativt det blir för CPU-delen då GDDR5 har mycket högre latens jämfört med DDR3. För många applikationer (typ spel) kommer det antagligen inte vara något problem då "working-set" är relativt litet i spel + att man av prestandahänseende optimerar sin kod att så långt som möjligt köras ur CPU-cache (som inte påverkas negativt på något sätt av GDDR5).

Intel har ju också börjat få bandbreddsproblem i.o.m att HD4000 har rätt OK prestanda och L3-cachen kommer man inte långt med. Deras lösning för Haswell verkar bli att den snabbaste versionen, GT3, kommer ha "embedded DRAM" (ryktena säger någonstans mellan 64M till 256M, 256M låter mycket då eDRAM tar massor med transistorer). Nackdelen är uppenbar: man kan inte ha speciellt mycket eDRAM, fördelen är att bandbredden på eDRAM enkelt kan överstiga även den i de snabbaste diskreta GPUerna som använder GDDR5 RAM. Att FSAA är nära nog "gratis" på Xbox360 beror just på att den har 10MB eDRAM så operationer som helt kan utföras i eDRAM blir extremt snabba.

Vad det gäller prioritering på minnesbussen så har AMD mycket riktigt prioritet GPUn över CPUn, fördelen är ju uppenbar: mer bandbredd till GPUn. Nackdelen är att CPU-prestanda sjunker om GPUn har mycket att göra. Intel har också prioritering, men den är att varje "del" får lika stor access till den ring-buffer som kopplar ihop L3-cache, RAM, CPU-kärnorna och GPUn. Så effekten blir i praktiken att CPU-delen har högre prio än GPUn då det är 2 eller 4 CPU-kärnor där varje har en egen ingång till ringen och GPUn har också en ingång.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Rapportera Redigera

Citera flera Citera (8)

2013-03-06 16:47

Medlem ★

Plats: Flen
Registrerad: Jul 2001

●

Skrivet av Zotamedu:

Fast att de delar adressrymd löser inte det stora problemet som är relaterat till bandbredd. Det är ju det som sätter käppar i hjulet för prestandan. Att man låser minne är ju mer ett irritationsmoment som inte har samma prestandaproblem. Så visst blir livet lättare med delat adressutrymme men det gör ju inte att bandbreddsbegränsningen försvinner tyvärr. Så det krävs att de jobbar med hastigheten också. Fast det kanske löser sig självt när DDR4 kommer då jag vill minnas att det skulle ge en dubbling i hastighet mot DDR3 ungefär. Det i kombination med en större cache som minskar behovet av att läsa från det sammanhanget långsamma RAM kan också få lite fart på grejerna. Har ett svagt minne av att Intel tänkte slänga in 32 MB på grafikdelen.

Ja AMDs dröm är att lägga in CPU och GPU under samma L3 eller L2. Då blir det intressant och vi får en APU på riktigt. Tänk vilken prestanda man kan få ut av en sådan enhet med rätt skriven kod och en bra scheduler. Det är väl ungefär där som konceptet med kärnor kommer suddas ut helt då AMD antagligen kommer slänga in en enda stor gröt av heltalskluster, FPU och streamprocessorer.

Gå till inlägget

Kaveri och Kabini/Temash har delad adressrymd, men de har inte contextswitching och fullt HSA-stöd. Dvs det är fortfarande ganska mycket arbete (och straff) att skicka arbete och data mellan cpu och gpu. En kontroller som ger dubbla bandbredden eller mer hjälper den integrerade grafiken däremot. Latency mot GDDR5 är ofta avsevärt högre än mot DDR3. Tyvärr är det väl ingen 1TF+ GPU det handlar om på ett bra tag för sånt som inte hamnar i PS4.

Rapportera Redigera

Citera flera Citera

2013-03-06 18:08

Datavetare ★

Plats: Stockholm
Registrerad: Jun 2011

●

Lite OT kring HSA.

Har bara hört talas om HSA från marknadsmaterial och liknande så hade bara en väldigt översiktligt bild kring vad det innebär, men hittade detta dokument hos AMD som ganska detaljerat beskriver vad HSA innebär. Kräver att man förstår en del kring hur MMU (Memory Management Unit), cache-consistency, problemen kring atomära operationer och hur moderna OS skyddar program från varandra för att man ska greppa allt, men det var en väldigt bra beskrivning.

Ska man göra en enormt förenklad beskrivning av den stora skillnaden mellan vad vi har idag och vad HSA kommer erbjuda så kan man nämna att idag krävs det att alla beräkningar som ska läggas ut på GPUn och att alla resultat som kommer från GPUn går via OS-kärnan då det minne som GPUn använder endera är dedikerat GPU-minne eller delas med CPUn fast det som GPUn har skrivit hamnar i RAM och CPUn kan ha den regionen i cache vilket betyder innehåll i CPU-cache != RAM -> blir fel om inte någon (OS:et i dag) ser till att CPUn slänger bort sitt cachade värde och läser från RAM igen.

Idag har GPUn i de flesta fall inte en egen MMU (IOMMU), något som är krav i HSA. Utan IOMMU kan man inte på något säkert sätt göra GPUn direkt åtkomlig för program, något som leder till att det krävs OS-anrop för att göra något överhuvudtaget mot GPUn. Med en IOMMU kan man göra specifika delar av GPUn åtkommlig för specifika program, vilket leder till att man kan skicka och ta-emot information från GPUn utan att gå via OS-kärnan -> mycket mindre latens för att skicka / ta-emot data till/från GPUn från/till CPUn.

Så visst kommer HSA att öka mängden saker som är rimliga att lägga ut på GPUn.

Men... Hittade en sak som kan sätta rejäla käppar i hjulet för HSA.

Från AMDs dokument om HSA
3.3.3. Memory Consistency across Multiple Work-Items
The consistency model across work-items in the same work-group, or work-items across work-groups,
follows a “relaxed consistency model”: from the viewpoint of the threads running on different compute
units, memory operations can be reordered.
• Loads can be reordered after loads.
• Loads can be reordered after stores.
• Stores can be reordered after stores.
• Stores can be reordered after loads.
• Atomics can be reordered with loads.
• Atomics can be reordered with stores

De som känner till vad "memory consistency modell" är (gissar att rätt få känner till det, det är ett relativt avancerat begrepp som även de flesta programmerare inte känner till) borde rätt snabbt inse att detta inte är bra. Detta är vad Herb Sutter, ordförande för ISO-kommittén för C++ och tekniskt ansvarig för Microsoft C++ kompilator tycker om "relaxed consistency model" (vilket är det som relaxed atomics ger)

The unspeakables: I'll grudgingly and reluctantly talk about the Thing I Said I'd Never Teach That Programmers Should Never Need To Now: relaxed atomics. Don't use them! If you can avoid it. But here's what you need to know, even though it would be nice if you didn't need to know it.

Anledningen till att han stark avråder från att någonsin använda "relaxed consistency model" är att parallell-programmering är svårt nog i s.k. "sequentual constency model" (det normal i C++ och Java) och går man till "relaxed consistency model" är det i praktiken helt omöjligt att formellt bevisa att programmet är korrekt. Varför skulle folk vilja programmera i en modell som ger snabba program, men där man inte kan garantera (rent formellt) att resultatet är rätt?

Är problemet helt separat och s.k. "embarrassingly parallel" (vilket grafikrenderering är och vilket är orsaken till att designerna av HSA inser att prestanda blir uselt om man kräver "sequentual constency model") så blir det korrekt då man inte kan göra fel. Men poängen med HSA är att även kunna göra saker som inte är "embarrassingly parallel".

Well, wall-of-text. Men undrar hur väl HSA kommer lyckas. nVidia och Intel verkar ju inte med på tåget och det förvårar ju ytterligare.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Rapportera Redigera

Citera flera Citera (6)

2013-03-06 20:16

Medlem

Plats: Göteborg
Registrerad: Maj 2005

●

Någon som har koll på hur mycket dyrare en GDDR5-lösning blir jämfört med en DDR3-lösning? Känns ju som prisfrågan är rätt viktig för AMD (de konkurrerar ju främst i mellanklass och budgetsegmenten).

Visa signatur

~Pelle~

Rapportera Redigera

Citera flera Citera

2013-03-06 20:45

Medlem ★

Registrerad: Jun 2006

●

Har en känsla att framtida spel kommer bli riktigt bra optimerade för samtliga platformar nu när det skiljer mindre.

Rapportera Redigera

Citera flera Citera (6)

2013-03-06 21:01

Medlem

Plats: Piteå
Registrerad: Jun 2010

●

Skrivet av Aleshi:

Vi vet inte om det faktiskt är en helt ny kärna eller om det är upphottade frekvenser. Jag finner det inte otroligt att de lagt till lite på GPU-sidan. Men man kan inte utesluta att det inte bara handlar om en ny revision där de fixat lite problem och därmed kunnat vrida upp frekvenser. Enligt specifikationerna som det ryktas om nu så är det samma antal enheter, samma kärna och allt, bara förbättringar på frekvenser.

Gå till inlägget

Ja själva CPU delen är samma som Trinity dvs Piledriver med lite finputsningar och därför kunnat skruva upp frekvensen.
Den stora nyheten är bättre GPU del och för mig är det en ny APU.
Revision skulle vara en ny Trinity med lite finputsningar men med samma GPU del men det är det inte i det här fallet.
Prestandan ser ut och bli runt 10-20% bättre iaf på CPU delen och 20-40% på GPU delen.

Senast redigerat 2013-03-06 21:29

Visa signatur

Desktop: i5-4570S, 32GB RAM, WD Black SN750 SSD 1TB
Server: HP Z420 E5-1620v2, 64GB RAM, Varierande diskar
HTPC: i5-2320, 8GB RAM, Powercolor Radeon RX 550 4GB
Annat: Raspberry Pi 4 4GB, Netgear Nighthawk R7000 Router, ZyXEL GS1900-24E Switch

Rapportera Redigera

Citera flera Citera