Navi Första rykten *navi Tråden*

Trädvy Permalänk
Medlem
Plats
ˈvɔ̂kstɔrp
Registrerad
Nov 2013
Skrivet av mpat:

En cache är i allmänhet inte till för att ge störa bandbredd utan för att ge lägre latency. Man kan peta dit en cache för att få större bandbredd - det är vad Crystalwell, Intels cache på diverse Skylake-varianter med bättre GPU, gör - men det är inte det vanliga. Sådana försök har historiskt gått halvbra.

OBS att kopiera Crystalwell rakt av inte kommer att räcka - den bandbredden är på tok för låg. AMD behöver något väsentligt maffigare. Om de har gjort något intelligent i samma anda som Maxwell (dvs, organisera processen så att man kan utnyttja en cache bättre än GPUer normalt sett gör) så kan det bli bra, men det är ett stort ”om” det.

Intressant då en cache miss skapar större latens än vad ram minne någonsin ger i latens.
Hmm... Nu tetades jag

Uppriktigt så har vi båda rätt då en cache uppgift täcker båda, om det är latency eller bandbredd.
Lång latency eller låg bandbredd ger i slutändan samma resultat, en väntan på att begärd data blir tillgänglig för bearbetning. Vilket ju är grunden till att cache kom till i första hand, minska väntan på att data för bearbetning blir tillgänglig.

Oavsett så är det inte frågan om en ny Crystalwell, förutom då kanske storleken (128 MB) och att det är en cache

Hur IF cache är implementerar är inte känt (ännu), men känner att det kan bli något bra av vad som diskuterats i tråden och det lilla man lyckats snappa upp i det vilda.

Vi får helt enkelt vänta och se...

Engineer who prefer thinking out of the box and isn't fishing likes, fishing likes is like fishing proudness for those without ;-)
If U don't like it, bite the dust :D
--
I can Explain it to you, but I can't Understand it for you!

Trädvy Permalänk
Medlem
Plats
ˈvɔ̂kstɔrp
Registrerad
Nov 2013

@Radolov:

[PATCH 1/4] drm/amdgpu: add the GC 10.3 VRS registers
https://lists.freedesktop.org/archives/amd-gfx/2020-September...

[PATCH 2/4] drm/amdgpu: add VCN 3.0 AV1 registers
https://lists.freedesktop.org/archives/amd-gfx/2020-September...

[PATCH 3/4] drm/amdgpu: use the AV1 defines for VCN 3.0
https://lists.freedesktop.org/archives/amd-gfx/2020-September...

[PATCH 4/4] drm/amdgpu: add device ID for sienna_cichlid (v2)
https://lists.freedesktop.org/archives/amd-gfx/2020-September...

+ /* Sienna_Cichlid */
+ {0x1002, 0x73A0, PCI_ANY_ID, PCI_ANY_ID, 0, 0, CHIP_SIENNA_CICHLID},
+ {0x1002, 0x73A2, PCI_ANY_ID, PCI_ANY_ID, 0, 0, CHIP_SIENNA_CICHLID},
+ {0x1002, 0x73A3, PCI_ANY_ID, PCI_ANY_ID, 0, 0, CHIP_SIENNA_CICHLID},
+ {0x1002, 0x73AB, PCI_ANY_ID, PCI_ANY_ID, 0, 0, CHIP_SIENNA_CICHLID},
+ {0x1002, 0x73AE, PCI_ANY_ID, PCI_ANY_ID, 0, 0, CHIP_SIENNA_CICHLID},
+ {0x1002, 0x73BF, PCI_ANY_ID, PCI_ANY_ID, 0, 0, CHIP_SIENNA_CICHLID},

SIENNA_CICHLID = Navi 21

Navy Flounder = Navi 22

Engineer who prefer thinking out of the box and isn't fishing likes, fishing likes is like fishing proudness for those without ;-)
If U don't like it, bite the dust :D
--
I can Explain it to you, but I can't Understand it for you!

Trädvy Permalänk
Medlem
Plats
Stockholm
Registrerad
Mar 2017

@Bengt-Arne: Yes. Jag vet om dessa saker och har vetat om dem från den dagen de kom upp. Ni behöver inte posta varenda patent från AMD om grafikkort eller uppdateringar om RDNA2. När jag sa att jag inte sett uppdateringarna, så menade jag att jag inte märkt just gfx1030 och 1031 target. Jag hade dock märkt RT uppdateringen, men det var den som fick mig att undersöka mer.

Trädvy Permalänk
Medlem
Plats
ˈvɔ̂kstɔrp
Registrerad
Nov 2013
Skrivet av Radolov:

@Bengt-Arne: Yes. Jag vet om dessa saker och har vetat om dem från den dagen de kom upp. Ni behöver inte posta varenda patent från AMD om grafikkort eller uppdateringar om RDNA2. När jag sa att jag inte sett uppdateringarna, så menade jag att jag inte märkt just gfx1030 och 1031 target. Jag hade dock märkt RT uppdateringen, men det var den som fick mig att undersöka mer.

OK!

Taggade dig då jag vet att du djupdyker, men tänkte att det kan vara intressant även för andra att veta om.

Engineer who prefer thinking out of the box and isn't fishing likes, fishing likes is like fishing proudness for those without ;-)
If U don't like it, bite the dust :D
--
I can Explain it to you, but I can't Understand it for you!

Trädvy Permalänk
Medlem
Plats
Stockholm
Registrerad
Mar 2017
Skrivet av Bengt-Arne:

OK!

Taggade dig då jag vet att du djupdyker, men tänkte att det kan vara intressant även för andra att veta om.

Du får jättegärna posta det för andra. Jag läser det ändå.

Än har jag inte djupdykt i denna tråd. Ni kommer märka när jag djupdyker.

Trädvy Permalänk
Medlem
Plats
ˈvɔ̂kstɔrp
Registrerad
Nov 2013
Skrivet av Radolov:

Du får jättegärna posta det för andra. Jag läser det ändå.

Än har jag inte djupdykt i denna tråd. Ni kommer märka när jag djupdyker.

Vad tror du jag försöker

Uppriktigt så menades djupdykning i ämnet.

Engineer who prefer thinking out of the box and isn't fishing likes, fishing likes is like fishing proudness for those without ;-)
If U don't like it, bite the dust :D
--
I can Explain it to you, but I can't Understand it for you!

Trädvy Permalänk
Medlem
Plats
Göteborg
Registrerad
Mar 2009
Skrivet av mpat:

OBS att kopiera Crystalwell rakt av inte kommer att räcka - den bandbredden är på tok för låg. AMD behöver något väsentligt maffigare.

Ja, crystalwell var ju iallafall ursprungligen specad till 50GB/s både in och ut (full duplex), det är inte så ruskigt mycket i dagsläget. Har funderat på om det så kallade "infinity cache" (om det ens existerar) kanske är HBM med bara en enda våning. Infinity fabric är ju PCIe i grund och botten, var samma sak med crossfire-bryggorna på äldre GPUer. Så om de tar existerande IP behöver de inte uppfinna något nytt, och med endast en våning slipper man den kostsamma processen att stapla kretsar.

En cache behöver ju inte heller vara flera gigabyte stor, likt en framebuffer måste vara, så man skulle kunna klara sig med en enda våning. Buss-logiken och DRAM-matrisen skulle få plats på samma chip, och likt HBM samtidigt kunna ge ordentlig prestanda med mycket liten användning av GPUn för anslutningen till cachen.

Bara en tanke... Det stämmer förmodligen inte.

Es ist verboten Pajas zu spielen!
Min dator Uggla

Trädvy Permalänk
Medlem
Plats
Iggesund
Registrerad
Okt 2003
Skrivet av Bengt-Arne:

Halo produkt nämndes flera månader före Nvidias presentation, jag är inte säker på att AMD då räknade med att Nvidia skulle gä över 10000 beräkningsenheter. Visst dom räknade med en bra ökning med tanke på minskad nod, men så mycket tror jag inte många ens kom på att gissa. Eller drömma om...

Fast det är ju sanning med lite modifikation. Nvidia gjorde om deras cuda kärnor en del så dom är mer flexibla och en kärna i 30-serien presterar inte i närheten av vad en från 20-serien gör i spel. 3080 har dubbla antalet mot för 2080ti men långt ifrån dubbla prestandan.
Om jag förstått allt rätt så kunde kärnorna i 20-serien köra bara fp+int och i 30-serien kan dom köra fp+fp eller fp+int. Vilket är anledningen till det knasigt höga teoretiska beräkningskraften (som är fp beräkningar) och varför ökningen av cuda kärnor var så enorm.

Som sagt. Lite missvisande med antalet cuda kärnor och den teoretiska beräkningskraften i 30-serien pga hur dom hanterar beräkningar med ampere arkitekturen.

AMD Ryzen 5 3600 @ 4,45/4,5GHz & 1,3Vcore | MSI B450M MORTAR MAX | Crucial Ballistix Sport DDR4 @ 3800MHz 16GB (2x8GB) | Palit GeForce GTX 1080 Dual OC | Intel SSD 660p 1TB | Fractal Design Integra M 650W | Fractal Design Define R4

Trädvy Permalänk
Medlem
Plats
ˈvɔ̂kstɔrp
Registrerad
Nov 2013
Skrivet av zeg:

Fast det är ju sanning med lite modifikation. Nvidia gjorde om deras cuda kärnor en del så dom är mer flexibla och en kärna i 30-serien presterar inte i närheten av vad en från 20-serien gör i spel. 3080 har dubbla antalet mot för 2080ti men långt ifrån dubbla prestandan.
Om jag förstått allt rätt så kunde kärnorna i 20-serien köra bara fp+int och i 30-serien kan dom köra fp+fp eller fp+int. Vilket är anledningen till det knasigt höga teoretiska beräkningskraften (som är fp beräkningar) och varför ökningen av cuda kärnor var så enorm.

Som sagt. Lite missvisande med antalet cuda kärnor och den teoretiska beräkningskraften i 30-serien pga hur dom hanterar beräkningar med ampere arkitekturen.

Det stämmer att 30 serien även klarar fp + fp, men som du även skriver så kan dom även köra fp + int som i 20 serien.
Så ja, 30 serien borde teoretiskt ha dubbla beräkningskraften i flyttal per kärna. Något som inte avspeglas i spelprestanda.

Samtidigt, används fp + fp i spel från dag ett?
Misstänker att det fortfarande är fp + int som gäller och därmed samma som för 20 serien. Om där nu inte är gjort någon större förändring som sänker hastigheten på fp + int.

Jag misstänker uppriktigt att den största biten ändå är att prestandan inte skalar linjärt med antalet kärnor så det börjar att plana ut i nyttjande. Likt AMD's problem med GCN, dom gick ju inte över 4096 shader processors (64 CU). Då prestanda vinsten på GCN skulle varit ninimal...

Engineer who prefer thinking out of the box and isn't fishing likes, fishing likes is like fishing proudness for those without ;-)
If U don't like it, bite the dust :D
--
I can Explain it to you, but I can't Understand it for you!

Trädvy Permalänk
Medlem
Plats
ˈvɔ̂kstɔrp
Registrerad
Nov 2013
Skrivet av LennyV:

Ja, crystalwell var ju iallafall ursprungligen specad till 50GB/s både in och ut (full duplex), det är inte så ruskigt mycket i dagsläget. Har funderat på om det så kallade "infinity cache" (om det ens existerar) kanske är HBM med bara en enda våning. Infinity fabric är ju PCIe i grund och botten, var samma sak med crossfire-bryggorna på äldre GPUer. Så om de tar existerande IP behöver de inte uppfinna något nytt, och med endast en våning slipper man den kostsamma processen att stapla kretsar.

En cache behöver ju inte heller vara flera gigabyte stor, likt en framebuffer måste vara, så man skulle kunna klara sig med en enda våning. Buss-logiken och DRAM-matrisen skulle få plats på samma chip, och likt HBM samtidigt kunna ge ordentlig prestanda med mycket liten användning av GPUn för anslutningen till cachen.

Bara en tanke... Det stämmer förmodligen inte.

HBM(1) har upp till 8 minnessubstrat (på bilden är det Core Die x) packade ovanpå en (kontroller) PHY.

HBM2 har upp till 8 minnessubstrat packade ovanpå en (kontroller) PHY.

HBM2E har 12 minnessubstrat pacakde ovanpå en (kontroller) PHY.

Ursprunget till tanken på HBM var att minska på den ständigt ökade effekten (Watt) som huvudsakligen är ett resultat av högre bandbredd.
Analogt, klockar man en CPU så ökar den använda effekten.

En stor del av den ökade energiåtgången sker i interfacet/PHY (minnets I/O) mellan minne och brukare, normalt CPU och/eller GPU.

All kommunikation sker i interfacet/PHY som är underst i HBM stacken, i sin tur så är bandbredd och kapacitet helt avhängit mängden minnessubstrat i HBM stacken.

Så att köra med ett minnessubstrat på ett HBMx skulle ge en 1/8 av bandbredden för HBM(1) och HBM2, för HBM2E skulle det betyda 1/12 av bandbredden.

Engineer who prefer thinking out of the box and isn't fishing likes, fishing likes is like fishing proudness for those without ;-)
If U don't like it, bite the dust :D
--
I can Explain it to you, but I can't Understand it for you!

Trädvy Permalänk
Medlem
Plats
Göteborg
Registrerad
Mar 2009
Skrivet av Bengt-Arne:

Så att köra med ett minnessubstrat på ett HBMx skulle ge en 1/8 av bandbredden för HBM(1) och HBM2, för HBM2E skulle det betyda 1/12 av bandbredden.

Tack för historielektionen om HBM, men jag känner redan till allt det där. Poängen var inte att man skulle använda HBM specifikt, bara gränssnittet för HBM, mot en specialdesignad kiselbricka med DRAM och gränssnitt tillsammans (likt crystalwell exempelvis.)

Och man behöver inte alls stapla fulla staplar med HBM2 för att få max prestanda, Vega 10 har 2 staplar med endast 4GB DRAM vardera och ger ändå full bandbredd mot GPUn. Eller, tja, nedklockat lite för HBM2 var ungt på den tiden och inte alla staplar AMD köpte in pallar 1000MHz... Samsungs HBM2 gör det tydligen, men mina vegor har, öh, Micron tror jag? De tenderar att blåskärma och har sig om man klockar upp minnet.

Es ist verboten Pajas zu spielen!
Min dator Uggla

Trädvy Permalänk
Medlem
Plats
Stockholm
Registrerad
Aug 2007
Skrivet av LennyV:

Tack för historielektionen om HBM, men jag känner redan till allt det där. Poängen var inte att man skulle använda HBM specifikt, bara gränssnittet för HBM, mot en specialdesignad kiselbricka med DRAM och gränssnitt tillsammans (likt crystalwell exempelvis.)

Och man behöver inte alls stapla fulla staplar med HBM2 för att få max prestanda, Vega 10 har 2 staplar med endast 4GB DRAM vardera och ger ändå full bandbredd mot GPUn. Eller, tja, nedklockat lite för HBM2 var ungt på den tiden och inte alla staplar AMD köpte in pallar 1000MHz... Samsungs HBM2 gör det tydligen, men mina vegor har, öh, Micron tror jag? De tenderar att blåskärma och har sig om man klockar upp minnet.

Vet vi än om AMDs nya kort kommer använda HBM eller GDDR? + @Bengt-Arne

Spel: Ryzen 9 3900x, Vega 64 8GB, 32GB DDR4 G-skill, MSI B450 Pro Carbon
Har haft dessa GPUer: Tseng ET6000, Matrox M3D, 3DFX Voodoo 1-3, nVidia Riva 128, TNT, TNT2, Geforce 256 SDR+DDR, Geforce 2mx, 3, GT 8600m, GTX460 SLI, GTX580, GTX670 SLI, 1080 ti AMD Radeon 9200, 4850 CF, 6950@70, 6870 CF, 7850 CF, R9 390, Vega 64
Lista beg. priser GPUer ESD for dummies

Trädvy Permalänk
Medlem
Plats
Göteborg
Registrerad
Mar 2009
Skrivet av Herr Kantarell:

Vet vi än om AMDs nya kort kommer använda HBM eller GDDR?

Det jag hört glunkas är att "big navi" ska komma i två varianter, en med GDDR6 (gissningsvis konsument/gejmingversionen) och en med HBM (gissningsvis prosumer - dvs Apple iMac Pro typ - och proffs, typ AMD Firepro, Mac Pro.)

Men detta får väl betraktas som rykten, då inget officiellt bekräftats från trista AMD!

Es ist verboten Pajas zu spielen!
Min dator Uggla