AMD presenterar HBM-minnet i Radeon "Fiji"

2015-05-19 17:59

Entusiast ★

Plats: Göteborg
Registrerad: Dec 2005

●

Skrivet av Aleshi:

Hur är latenserna på HBM? Som ett L4 borde det duga rätt fint. Dagens L3 har väl inte helt fina latenser alltid ändå. Att ha all data ett program behöver i L4 kan inte vara fel kan man tänka. Lär ju ändå vara rätt saftig omväg att gå över en "höglatens" DDR4 buss.

Gå till inlägget

Har inte sett några exakta siffror men vet att de har pratat om en halvering av latensen jämfört med DDR4 vilket inte räcker för att nå L3.

Visa signatur

Q9450, HD4850, 8 GB DDR2 800 MHz, 3x750 GB, Antec 300, Dell 2408WFP, U2410, Qnap TS-419p+ 4x2 TB Samsung F4, Asus UL30A-QX056V, Logitech Z-680, Sennheiser HD380pro, M-Audio FastTrack Pro, Ibanez sa160qm, Ibanez TB 15R, Zoom 505II, Ibanez GSR 200, Ibanez SW 35, Cort AC-15, Squier SD-3 BBL, Yamaha PSR 270, Røde NT1-A, Nikon D200, Nikkor 18-70/3,5-4,5, 70-300VR, 50/1,8, 28/2,8, Tamron 17-50/2,8, 90/2,8, Sigma 30/1,4, SB-800, SB-25, SB-24

Rapportera Redigera

Citera flera Citera

2015-05-19 18:48

Permalänk

Yoshman

Datavetare ★

Plats: Stockholm
Registrerad: Jun 2011

●

Skrivet av Aleshi:

Hur är latenserna på HBM? Som ett L4 borde det duga rätt fint. Dagens L3 har väl inte helt fina latenser alltid ändå. Att ha all data ett program behöver i L4 kan inte vara fel kan man tänka. Lär ju ändå vara rätt saftig omväg att gå över en "höglatens" DDR4 buss.

Edit: som jag förstått det så är det väl ofta matningen av beräkningsenheterna som är en flaskhals. Mycket därför Intel haft ett övertag från Core 2 och framåt eller? Deras cache har väl sina fördelar.

Gå till inlägget

Problemet med många lager cache är att latensen vid en miss blir i stort sätt summan av latensen av alla steg + latens för RAM. Tittar man på Intels modeller med L4-cache (de med Iris Pro, eDRAM fungerar som L4 för CPU) så ger det absolut ingenting i majoriteten av alla program, är helt enkelt för hög latens för att CPU ska kunna dra nytta av det. För GPU-delen vet vi däremot att eDRAM är guld värd.

Samma sak ser man i FX-serien jämfört med APUer, den förra har L3 men väldigt hög latens (~70-80 cykler) och det visar sig i att prestandaskillnaden för CPU-delen är i stort sett noll oavsett om det finns L3 eller ej (finns några fall där det är snabbare utan L3).

Det Intel gjort väldigt bra först i PIII Coppermine och Pentium M (för att sedan tappa bollen med P4) och senare i Core2 och framåt är väldigt låg latens på LLC (Last Level Cache, L2 fram till Core2, L3 i senare modeller) i förhållande till storlek och i förhållande till vad konkurrenterna har. Genomsnittlig latens på L3$ i Sandy Bridge och senare är under 30 cykler (för full-random access vilket är "worst-case", "best-case" är runt 20 cykler), AMD och ARM har ytterst marginellt lägre latens i sina L2$.

Latens mot RAM är i "worst-case" 200-300 cykler (lite beroende på CPU-frekvens då RAM har en effektiv latens runt 60-70ns). När prefetch och andra saker klaffar (vilket är rätt ofta i bra designade "big-core" designer) så kan man få en effektiv latens mot RAM som är långt bättre, Sandy Bridge kommer ner till ca 20ns (60-80 cykler) så länge om man läser från samma "MMU-page" (typiskt 4kB men kan också vara 2MB eller 1GB) och det kommer ner till 7-8ns om man läser sekventiellt vilket motsvarar L3$ latens!

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Rapportera Redigera

Citera flera Citera

2015-05-19 19:14

Permalänk

cardeci

Medlem

Plats: Mantorp
Registrerad: Okt 2011

●

Skrivet av Aleshi:

Hur är latenserna på HBM? Som ett L4 borde det duga rätt fint. Dagens L3 har väl inte helt fina latenser alltid ändå. Att ha all data ett program behöver i L4 kan inte vara fel kan man tänka. Lär ju ändå vara rätt saftig omväg att gå över en "höglatens" DDR4 buss.

Gå till inlägget

Nja. HBM har (just nu) ungefär samma latenser som "vanligt" minne. Om man ska byta ut något är det det vanliga minnet, inte cachen.

Jag är lite nyfiken på vad man kan hitta på på CPU:n med de dubbla bussarna per chip, dock, eller det faktum att bussarna är asynkrona.

Skrivet av Zotamedu:

Har inte sett några exakta siffror men vet att de har pratat om en halvering av latensen jämfört med DDR4 vilket inte räcker för att nå L3.

Gå till inlägget

Det är väl för HBM2, HBM1 har lägre latency om man räknar i busscykler (och bättre worst-case). Däremot är de ju klockade rätt lågt.

Om man vill titta på diagram och så: http://www.memcon.com/pdfs/proceedings2014/NET104.pdf

Jag har totalt misslyckats med att hitta modernare/mer detaljerade dokument (förutom standarddokument)

Senast redigerat 2015-05-19 19:23

Rapportera Redigera

Citera flera Citera

2015-05-19 20:21

Permalänk

Broken-arrow

Medlem

Plats: sweden
Registrerad: Dec 2008

●

Låter ju rätt gött Men gissar nästa års grafikkort som man skulle tänka sig ha råd med staplat minne.

Få se hur mycket minnet "bromsar" gpun på Fiji då (troligen inget )

Visa signatur

#Gilla inlägg som är bra & Använd citera/@"namn" vid snabbt svar

Rapportera Redigera

Citera flera Citera

2015-05-19 21:01

Permalänk

ottoblom

Medlem ★

Plats: Björketorp
Registrerad: Okt 2010

●

Kul med lite nytt .Dock tror jag det kommer kosta mer en det smakar första året .

Visa signatur

Dator 1 5800x 32 GB ram B550 plus TUF Kingston 3000 2048 GB EVO 870 QVO 4TB ASUS 370 ti TUF RM 750 X Corsair 4000D Airflow Noctua NH-D15S WIN 10 ASUS PG279Q skärm

Rapportera Redigera

Citera flera Citera

2015-05-20 07:05

Permalänk

aniron

Medlem ★

Plats: Västra Götaland
Registrerad: Jul 2008

●

Skrivet av Aleshi:

För dyrt och för dyrt. Snarare att det var ett perfekt sätt att differentiera 4850 och 4870 utan att crippla GPUn i "onödan". Går inte att låsa upp minnen till en annan minnestyp, och man sparar faktiskt in lite slantar på det. Till skillnad från 7950 och 7970, 970 och 980 eller 290 och 290X där man faktiskt inte sparar pengar på att göra ena kortet sämre.

Gå till inlägget

Nja, man kan ju åtminstone i vissa fall använda sig av kretsar som inte riktigt håller måttet för toppmodellen, t.ex. en kärna eller två fungerar inte, så man kan "crippla" en quad core-processor till en dual core istället för att slänga den.
Om processen fungerar som den ska med höga yields gäller ju det du säger, med modifikationen att man aldrig säljer de "cripplade" kretsarna med förlust. Får du sålt två-tre kretsar något billigare istället för en med alla funktioner intakta skulle jag tro att du tjänar på det.

Visa signatur

Quad-quad core med kvävekylning och kokvattenreaktor.

Rapportera Redigera

Citera flera Citera

2015-05-20 07:22

Permalänk

Aleshi

Medlem ★

Registrerad: Nov 2011

●

Skrivet av aniron:

Nja, man kan ju åtminstone i vissa fall använda sig av kretsar som inte riktigt håller måttet för toppmodellen, t.ex. en kärna eller två fungerar inte, så man kan "crippla" en quad core-processor till en dual core istället för att slänga den.
Om processen fungerar som den ska med höga yields gäller ju det du säger, med modifikationen att man aldrig säljer de "cripplade" kretsarna med förlust. Får du sålt två-tre kretsar något billigare istället för en med alla funktioner intakta skulle jag tro att du tjänar på det.

Gå till inlägget

Självklart. Men det förutsätter ju att man inte har för bra yields.
Tror upplägget med 4000-serien är det ultimata. 4830 fanns ju för att plocka upp de få som faktiskt var dåliga på ett eller annat sätt.

Senast redigerat 2015-05-20 07:31

Rapportera Redigera

Citera flera Citera

2015-05-20 09:03

Permalänk

Yoshman

Datavetare ★

Plats: Stockholm
Registrerad: Jun 2011

●

Skrivet av Aleshi:

Hur är det på 14nm? När är TDP flaskhalsen då? Finns nog en marknad för riktigt kompakta system på 50-100W med bra grafik ska du se. Med dubblerad prestanda per watt med 14nm och PS4 i åtanke så kan du nog utan problem göra en APU med 2000+shaders och 4-Zenkärnor inom 100W. Jag skulle definitivt köpa det. Men DDR4 skulle mörda prestandan i en sådan.

Gå till inlägget

Det som framförallt förbättrats vid de senaste krympningarna är "energieffektivitet" vid "typisk" användning. Typisk användning för mobila enheter/laptops är korta perioder av aktivitet följt av en stunds vila. Effektiviteten vid max last har förbättrats ganska blygsamt sedan 32nm, det som har minskat, det rejält, är strömförbrukning i "idle".

Typisk last för en GPU när den kör spel är inte "race-to-sleep", så tror inte man ska förvänta sig att krympningen i sig ger några gigantiska fördelar i strömförbrukning. Vad man däremot kan göra när det går att stoppa in fler transistorer är att öka antal GPU-kärnor och sedan köra dem på lite lägre frekvens, det ger bättre perf/W då man relativt sett kan öka antalet GPU-kärnor mer än man sänker frekvensen med bibehållen strömförbrukning.

Det sagt, 50-100W räcker knappast. PS4/XBO har en faktiskt strömförbrukning under last (110-140W) som pekar på att kretsen de använder har en TDP ~100W. PS4 har en krets som tar upp 328 mm² medan XBO tar 363mm² (eSRAM tar massor med plats). Är alltså rätt stora och därmed relativt dyra kretsar att tillverka, som jämförelse är i7-47x0 177mm² (på 22nm som bl.a. p.g.a. FinFET i täthet motsvarar ~26nm). Uppskattad tillverkningskostnad är $100-150 vilket skulle betyda att mot slutkund skulle man absolut inte se ett pris under $200 om kretsen såldes separat.

4 kärnor Zen kommer vara rejält mycket större än 8 Jaguar kärnor, ovanpå det ska man dubbla storleken på GPU-delen. Du tittar då på en krets som knappast kommer kosta under $300 mot kund (då är det låga marginaler). Med 100W TDP skulle GPU-delen vara extremt TDP begränsad om den har kanske 70-80% högre kapacitet än PS4. Skulle verkligen någon vilja köpa detta?

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Rapportera Redigera

Citera flera Citera (1)

2015-05-20 09:54

Permalänk

Aleshi

Medlem ★

Registrerad: Nov 2011

●

Skrivet av Yoshman:

Det som framförallt förbättrats vid de senaste krympningarna är "energieffektivitet" vid "typisk" användning. Typisk användning för mobila enheter/laptops är korta perioder av aktivitet följt av en stunds vila. Effektiviteten vid max last har förbättrats ganska blygsamt sedan 32nm, det som har minskat, det rejält, är strömförbrukning i "idle".

Gå till inlägget

Nu pratar du CPU:er i höga frekvenser där läckaget är högt. I låga frekvenser så är det som bekant stora energibesparingar.

Skrivet av Yoshman:

Typisk last för en GPU när den kör spel är inte "race-to-sleep", så tror inte man ska förvänta sig att krympningen i sig ger några gigantiska fördelar i strömförbrukning. Vad man däremot kan göra när det går att stoppa in fler transistorer är att öka antal GPU-kärnor och sedan köra dem på lite lägre frekvens, det ger bättre perf/W då man relativt sett kan öka antalet GPU-kärnor mer än man sänker frekvensen med bibehållen strömförbrukning.

Gå till inlägget

Precis, GPU:er får högre prestanda/W främst för att de kan stoppa in fler enheter i ett givet effektutrymme. Har inte både AMD och Intel sagt att 14nm ska ge dubblad prestanda/Watt på GPU:er?

Skrivet av Yoshman:

Det sagt, 50-100W räcker knappast. PS4/XBO har en faktiskt strömförbrukning under last (110-140W) som pekar på att kretsen de använder har en TDP ~100W. PS4 har en krets som tar upp 328 mm² medan XBO tar 363mm² (eSRAM tar massor med plats). Är alltså rätt stora och därmed relativt dyra kretsar att tillverka, som jämförelse är i7-47x0 177mm² (på 22nm som bl.a. p.g.a. FinFET i täthet motsvarar ~26nm). Uppskattad tillverkningskostnad är $100-150 vilket skulle betyda att mot slutkund skulle man absolut inte se ett pris under $200 om kretsen såldes separat.

Gå till inlägget

Jo jag räknade också att de skulle ha 100W TDP, precis som vanliga APU:er för stationära mao. Dagens APU:er ligger på runt 250mm². Thuban låg runt 350mm² och kunde säljas för 1300:-, Bulldozer låg inte långt ifrån och såldes för 1200-1500:-.

Skrivet av Yoshman:

4 kärnor Zen kommer vara rejält mycket större än 8 Jaguar kärnor, ovanpå det ska man dubbla storleken på GPU-delen. Du tittar då på en krets som knappast kommer kosta under $300 mot kund (då är det låga marginaler). Med 100W TDP skulle GPU-delen vara extremt TDP begränsad om den har kanske 70-80% högre kapacitet än PS4. Skulle verkligen någon vilja köpa detta?

Gå till inlägget

Ja allt det där är sant, skulle bli ett jättechip, i 28nm. Men jag pratar 14nm. 14nm med FinFET vilket motsvarar åtminstone 20nm utan FinFET, tror nog att du kan få 4 Zen kärnor rätt små. Phenom II på 20nm hade varit kring 8mm² per kärna vid rak skalning, Haswell på 22nm FinFET ligger runt 20mm² inklusive L3, uppskattningsvis kring 14mm² utan L3. Vad hade de legat på vid 14nm FinFET? Oavsett vilken modern kärna vi väljer så kommer de ligga en bit söder om 50mm² sammanlagt för en Quad i 14nm. Om det är 8 Jaguar eller 4 Zen kommer inte göra så stor skillnad i chippets totalarea.
PS4:ans krets har fysiskt 1280 shaders vid 28nm, känns verkligen inte orimligt att få in 2048 shaders på betydligt mindre yta till lägre strömförbrukning på 14nm FinFET. Vi kan nog ganska tryggt säga att det handlar om mindre än 250mm² på 14nm. Tahitiprestanda med DX12 är inte fel i en kompakt liten låda bakom TVn.

Rapportera Redigera

Citera flera Citera

2015-05-20 10:43

Permalänk

Yoshman

Datavetare ★

Plats: Stockholm
Registrerad: Jun 2011

●

@Aleshi: Vet inte om Intel sagt dubbel energieffektivitet för GPU på 14nm. Teoretisk flyttalskapacitet minskade faktiskt något i HD5xxx jämfört med motsvarande HD4xxx modell (man ökade bara EU från 20->24, medan frekvens minskades från ~1.1MHz till ~0.9GHz), men HD5xxx är betydligt mer balanserad för det som typiskt krävs vid GPU-arbete så i praktiken är den ofta något snabbare. Skillnaden mellan Broadwell och Haswell är långt mindre än skillnaden mellan Ivy Bridge och Haswell vad det gäller batteritid, vilket pekar på att de förändringar man gjorde i mikroarkitektur vid IVB->HSW var betydligt viktigare än krympningen mellan HSW->BRW.

Vi såg ju också att Nvidia kunde pressa ut fantastiskt mycket ur 28nm mellan Kepler -> Maxwell.

Jämför man Qualcomms Snapdragon 810 (20nm) med Samsungs Exynos 7420 (14nm med FF) så är batteritid väldigt snarlik. Båda kör med samma Cortex A53/A57 CPU (fast Snapdragon 810 har större problem med throttling) och GPU-mässigt är Snapdragon 810 bättre.

Så nog ser det ut som förändringar i mikroarkitektur ger större utväxling än enbart krympning. Naturligtvis ger en krympning en del extra frihetsgrader när det kommer till att effektivisera mikroarkitektur.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Rapportera Redigera

Citera flera Citera (1)

2015-05-20 10:49

Permalänk

anon5930

Inaktiv

Registrerad: Jan 2002

●

HBM borde bli ett rejält lyft likt när GDDR5 introducerades med HD4870. Jag minns fortfarande hur Nvidia fick paniksänka priserna på GTX 200-serien för att kunna konkurrera samt betala tillbaks pengar till ilskna kunder i samband med prissänkningen. Många underskattar AMD och något liknande kan faktiskt hända nu igen. Vi vet inte riktigt hur kraftfullt kortet blir trots allt.

Känns verkligen som det är nära nu äntligen.

Skickades från m.sweclockers.com

Rapportera Redigera

Citera flera Citera

2015-05-21 14:19

Permalänk

lorgix

Medlem ★