Angående vad allt innebär fick jag ett svar från @Yoshman i en annan tråd om någon annan är nyfiken:
Gissar på detta:
2x Bandwidth per pin: HBM2 har dubbla bandbredden per pinne jämfört med HBM1
high bandwidth cache controller: högre bandbredd i L1/L2 cache
4x power efficiency: vi får se... Gick ju sådär med detta för Polaris även om man jämförde med den absolut minst effektiva kretsen generationen innan.
rapid packed math: FP16, frågan är om konsumentversionerna kommer få detta då FP16 är om möjligt mindre användbart än FP64 för normala konsumenter
next generation computer engine: ganska säker på denna, man har en första implementation av vad som beskrivs i denna patentansökan. I korthet betyder det att "bredden" på en wave-front inte måste vara 64 utan kan vara mindre. Högsta effektivitet konstra teoretiskt kapacitet får man med en bredd på 1, men ju "smalare" man gör detta ju fler transistorer kostar det att nå en viss absolut kapacitet. Nvidias kretsar har en bredd på 32, vilket är en förklaring till att man i praktiken når högre kapacitet.
draw stream binner rasterizer: verkar vara en första generation av en tile-based render motor, frågan är hur stort värde detta ger på ett kort med HBM. Största fördelen med detta är att det sparar bandbredd, att t.ex. 1060 kan matcha 480 trots 192-bitars mot 256-bitars minnesbuss beror bl.a. på att Nvidia har detta.
next generation pixel engine: låter som ren PR, ungefär som att alla nya CPUer har "improved branch predictor" (som ändå är tekniskt korrekt, men skillnaden är idag minimal mellan generationer då det är ett "löst" problem)
512TB virtual address space: är ett krav för HSA, redan Polaris (tror även GCN1.2) har detta fast kanske inte lika stor kapacitet. Frågan är om det inte är ett typo här, x86-64 stödjer (d.v.s. 2^48 är för tillfället gänsen, är möjligt att utöka till 2^64) nämligen "bara" 256 TB virtual address space så känns rätt meningslöst att gå högre än det.
primitive shaders: någon form av fixed-function kisel för väldigt vanliga shader operationer kanske?
Däremot säger detta att Vega är ISA identisk med Polaris och därmed ISA identisk med GCN1.2
"Given the demo system was conducted using an ordinary Fiji driver, AMD should be able to squeeze out more performance out of Vega when using optimized drivers and proper cooling at launch."
Däremot är resten av meningen ren spekulation och med rätt stor sannolikhet fel. Är inte alls säkert att det går att få ut speciellt mycket mer från drivare då nästan alla nya finesser verkar hanteras i HW (vilket är BRA!).
Förutsatt att man inte ändrat definitionen av vad en "stream-core" är borde denna krets ha exakt dubbelt så många "stream-cores" som det man jämför med när man skriver "2x Peak Throughput Per Clock".
"Peak" betyder i praktiken teoretisk max. En "stream-core" är för alla dagens GPUer definierad som en fuse-multiply-add, d.v.s. två flyttalsoperationer per cykel.
Om det är "fulla" Polaris 10 man jämför med så borde alltså den krets man beskriver ha 36*2 = 72 CU (4608 stream-cores).
Efter 10 kommer 11.
Efter 99 kommer 100.