DirectX 12 med Ashes of the Singularity

2016-07-20 16:49

Medlem ★

Plats: inside your microcode
Registrerad: Jan 2007

●

Skrivet av Yoshman:

Är inte helt övertygad om att fördelen är så stor som man kan tro i DX12 för GCN. Kolla in detta test där man också testar 1 % och 0,1 % lägsta FPS. Visst får 480 och 390 högre genomsnittlig FPS, men 970 har med något enstaka undantag bättre 1 % rakt igenom (även när man kör DX12). Kör man ~60 FPS betyder det att 480/390 droppar lägre än 970 ungefär var annan sekund.

Framedrops har större påverkan på upplevelsen än vad lite lägre genomsnittlig FPS har.

Det sagt: Maxwell kommer aldrig kunna använda "async compute" till något vettigt i spel, så där finns en nackdel. Det jag hoppas t.ex. TechReport snart visar är hur användningen av "async compute" påverkar frame-times. Tittar man på CPUer så är SMT ett utmärkt sätt att hantera fler anrop per sekund, däremot så blir svarstiderna betydligt svårare att förutsäga när man använder SMT så ingen höjdare för realtidsappliationer (de flesta RTOS stänger därför av SMT).

Gå till inlägget

Vänta tills det finns korrekt FCAT till DX12/Vulkan tester. Alla tester från stora siter som jag sett så skrotar GCN korten nvidia's motsvarigheter, och bara det exempel att Fury X kom upp i GTX1080 prestanda i Doom med Vulkan patchen säger hur mycket det finns att hämta. Du använde dig av 3DMark som ett referenstest för typisk DX12 prestanda. Jag nöjde mig med att kalla det för ett syntetiskt test, vilket det är, men jag går steget längre nu och länkar till detta:

http://www.nordichardware.se/nyheter/futuremark-blasvader-anv...

Det är som jag misstänkte, en gynnande miljö för nvidia-kort. Async compute ÄR och jag tror fortfarande, cripplat på nvidia-kort. Jag skulle kunna skriva en hel artikel om varför det är det och varför jag misstänkt det hela tiden också. Tiden kommer att visa det. Spelen till consoler flyter på i 60fps och ser bättre ut än någonsin tack vare just GCN och Async compute. Det kommer till PC också mer och mer nu, var så säker. Dom CCTM-API baserade spel som du sett idag köras på AMD på PC har fortfarande relativt hög CPU overhead och har fått sin störta boost hittills av Async compute, så det kommer bli ännu en förbättring.

Senast redigerat 2016-07-20 16:59

Visa signatur

[ AMD 9800X3D // EK-Block @ custom loop, 2x420mm ][ MSI B650 Tomahawk ][ 32GB G.Skill Z5 Neo @ DDR6000 CL28 1T ][ AMD 7900XTX @ custom loop ][ Corsair 750D // Corsair RM1000X ][ 2TB Samsung 990PRO M.2 SSD ][ Linux EndeavourOS ][ LG 34GN850 ]

Rapportera Redigera

Citera flera Citera (3)

2016-07-20 21:46

Permalänk

Yoshman

Datavetare ★

Plats: Stockholm
Registrerad: Jun 2011

●

Skrivet av Enigma:

Vänta tills det finns korrekt FCAT till DX12/Vulkan tester. Alla tester från stora siter som jag sett så skrotar GCN korten nvidia's motsvarigheter, och bara det exempel att Fury X kom upp i GTX1080 prestanda i Doom med Vulkan patchen säger hur mycket det finns att hämta. Du använde dig av 3DMark som ett referenstest för typisk DX12 prestanda. Jag nöjde mig med att kalla det för ett syntetiskt test, vilket det är, men jag går steget längre nu och länkar till detta:

http://www.nordichardware.se/nyheter/futuremark-blasvader-anv...

Det är som jag misstänkte, en gynnande miljö för nvidia-kort. Async compute ÄR och jag tror fortfarande, cripplat på nvidia-kort. Jag skulle kunna skriva en hel artikel om varför det är det och varför jag misstänkt det hela tiden också. Tiden kommer att visa det. Spelen till consoler flyter på i 60fps och ser bättre ut än någonsin tack vare just GCN och Async compute. Det kommer till PC också mer och mer nu, var så säker. Dom CCTM-API baserade spel som du sett idag köras på AMD på PC har fortfarande relativt hög CPU overhead och har fått sin störta boost hittills av Async compute, så det kommer bli ännu en förbättring.

Gå till inlägget

Har i andra inlägg här redan sagt att 3DMark är en benchmark så det är inte nödvändigtvis representativt för spelprestanda. Till och med Futurmark själva har sagt att deras erfarenhet efter att ha jobba med DirectX benchmarks i ca 20 år är att det normalt tar 2 till 3 år efter släpp av nytt 3DMark innan man ser spel som faktiskt använder lika mycket finesser från DX.

En av huvudpoängerna med 3DMark är tydligen att tidigt få ut ett program som använder de flesta av nyheterna i de senaste GPUerna och de flesta nyheterna som senaste DX-version möjliggör. Microsoft, AMD, Nvidia och Intel är alla intresserade av detta.

När du skriver "async compute", menar du DX12 finesser eller det AMDs PR-avdelning menar med termen "async compute"? Som DX12 definierar tekniken, vilket också är i linjer med hur datorvärlden i stort definierar asynkrona arbeten, så stödjer ALLA GPUer som idag har DX12 "async compute".

Om man i stället definierar "async compute" som AMD gör så håller jag med dig till 100 %, men den definitionen är och lär så förbli GCN den enda "fullständiga" implementationen. Med det vore som att säga att ingen förutom Intel stödjer Hyperthreading, vilket är en tekniskt korrekt utsaga men totalt irrelevant då det viktiga är om och hur man implementerar SMT (där Intel råkar kalla sin implementation för Hyperthreading). Det som är så olyckligt här är att AMD valt att kalla sin implementation för samma sak som DX12 kallar underliggande teknik och dessa två definitioner är absolut inte identiska!

Sen kan man ställa sig frågan hur cripplat "async compute" stödet kan vara i Time Spy då det så här långt är den applikation som får ut mest av att applicera "async compute" (d.v.s. störst delta mellan prestanda med DX12 fast utan "async compute" vs prestanda i DX12 med "async compute").

Och verkar inte prestanda i Doom med Vulkan på Fury X ligga närmare 1070 än 1080? Digital Foundary

Average FPS	GTX 1080	GTX 1070	GTX 980 Ti	R9 Fury X
Open GL	134,0	107,7	109,3	88,7
Vulkan	149,0	115,0	115,0	123,7

Råder inga tvivel om att Fury X vinner långt mer på Vulkan, har sett en del mätningar just på Doom där 1060 presterar bättre i OpenGL än Vulkan. Är också helt övertygad att Pascal inte kommer få speciellt många procent extra boost i Doom när patchen för att köra AA och postprocessing parallellt med 3D-beräkningar (det AMD kallar "async compute") kommer, så resultaten ovan lär inte ändra sig speciellt mycket framåt.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Rapportera Redigera

Citera flera Citera (1)

2016-07-20 23:57

Permalänk

Enigma

Medlem ★

Plats: inside your microcode
Registrerad: Jan 2007

●

Skrivet av Yoshman:

Har i andra inlägg här redan sagt att 3DMark är en benchmark så det är inte nödvändigtvis representativt för spelprestanda. Till och med Futurmark själva har sagt att deras erfarenhet efter att ha jobba med DirectX benchmarks i ca 20 år är att det normalt tar 2 till 3 år efter släpp av nytt 3DMark innan man ser spel som faktiskt använder lika mycket finesser från DX.

Gå till inlägget

Du skrev att:

Jag är övertygad om att 3D Mark Time Spy är en rätt bra övre gräns för vad vi kan förvänta oss av denna generations grafikkort vad det gäller effekt av DX12 och finesser som "async compute"

Min poäng med det jag skrev var att det påvisar en övre teoretisk gräns för nvidia-korten, och precis som jag misstänkte så skriver Nordichardware också om samma fenomen. Allt står i artikeln. Måste jag svara igen på varför jag skrivit som jag gjort så gör jag det.

Citat:

En av huvudpoängerna med 3DMark är tydligen att tidigt få ut ett program som använder de flesta av nyheterna i de senaste GPUerna och de flesta nyheterna som senaste DX-version möjliggör. Microsoft, AMD, Nvidia och Intel är alla intresserade av detta.

Och hur mycket samarbete och pengar man pumpar in i form av specialoptimerad kod för att gynna "vissa" aktörer.

Citat:

När du skriver "async compute", menar du DX12 finesser eller det AMDs PR-avdelning menar med termen "async compute"? Som DX12 definierar tekniken, vilket också är i linjer med hur datorvärlden i stort definierar asynkrona arbeten, så stödjer ALLA GPUer som idag har DX12 "async compute".

Om man i stället definierar "async compute" som AMD gör så håller jag med dig till 100 %, men den definitionen är och lär så förbli GCN den enda "fullständiga" implementationen. Med det vore som att säga att ingen förutom Intel stödjer Hyperthreading, vilket är en tekniskt korrekt utsaga men totalt irrelevant då det viktiga är om och hur man implementerar SMT (där Intel råkar kalla sin implementation för Hyperthreading). Det som är så olyckligt här är att AMD valt att kalla sin implementation för samma sak som DX12 kallar underliggande teknik och dessa två definitioner är absolut inte identiska!

Jag syftar, och har hela tiden syftat på på AMD's implementation i form av GCN med deras ACE enheter och hur hela arkitekturen är uppbyggd, hur stor parallellism dom är kapabla till och hur GCN kan schemalägga/köa instruktioner jämfört med resten av konkurrenterna. AMD gjorde en stor satsning på just på detta med GCN och att pusha ut CTTM API via Mantle med en hästspark för att få industrin att vakna, för att något var väldigt fel (vilket ID-software med sitt senaste uttalande stödjer.) Tycker också att man har bevisat det rent praktiskt i form av dagens consoler som jag skrev, och det är bara början för PC som jag också skrev.

Citat:

Sen kan man ställa sig frågan hur cripplat "async compute" stödet kan vara i Time Spy då det så här långt är den applikation som får ut mest av att applicera "async compute" (d.v.s. störst delta mellan prestanda med DX12 fast utan "async compute" vs prestanda i DX12 med "async compute").

Det är ett syntetiskt test och säger ingenting om hur AMD's och nvidia's kort kommer prestera i 100% optimerade titlar för asynkron beräkning. Jag kan lova dig att, låt GPU'n utföra alla renderingspass med optimerad kod och utnyttja all beräkningskapacitet och parallellism som dom är kapabla till och se vad som händer med samtliga nvidia-kort, Pascal inkluderat (även om dom klustrat om alla SM's till dynamiska vilket bara är en förbättring av dess ursprungliga flaskhals i just asynkron beräkning). Just av samma anledning som du var så skeptisk till att äldre generationer som Maxwell kommer att tappa på detta (sid 11). Dom har som du själv beskrev det en väldigt ofullständig implementation av asynkrona beräkningar. Det är ju just så en GPU ska fungera, att vara parallellt kapabel, men nvidia har i dom flesta senaste utgåvor av DX mer eller mindre byggt sina GPU'er efter API'n och hur den köar olika renderingspass och hur instruktioner trådas för att dessa "ska" köras via GPU'n rasterenheter exempelvis. Varför, när man istället kan konstruera en GPU som mer öppet kan beräkna på allt parallellt och hålla hela pipelinen upptagen.

Citat:

Och verkar inte prestanda i Doom med Vulkan på Fury X ligga närmare 1070 än 1080? Digital Foundary

Average FPS	GTX 1080	GTX 1070	GTX 980 Ti	R9 Fury X
Open GL	134,0	107,7	109,3	88,7
Vulkan	149,0	115,0	115,0	123,7

Råder inga tvivel om att Fury X vinner långt mer på Vulkan, har sett en del mätningar just på Doom där 1060 presterar bättre i OpenGL än Vulkan. Är också helt övertygad att Pascal inte kommer få speciellt många procent extra boost i Doom när patchen för att köra AA och postprocessing parallellt med 3D-beräkningar (det AMD kallar "async compute") kommer, så resultaten ovan lär inte ändra sig speciellt mycket framåt.

Sett massa olika tester och det många testsiter är överens om är att det är svårt att få en uppskattning om hur stor boost det verkligen är då man in-game sett större variationer än i dess typiska benchlägen. Vi får vänta på korrekt FCAT analys och det finns mycket CPU-overhead att hämta hos AMD-korten genom dess drivers.

Allt gällande GCN och API'er så har min teori stämt. Jag har redan lagt denna tråd som bokmärke och kommer se fram emot hurvida det fortfarande stämmer. Om du ursäktar så börjar det bli tröttsamt sedan Kepler hur bra nvidia skulle fixa CTTM/asynkron beräkning, och eftersom dom redan jobbat så hårt med sina TWIMTBP/gameworks och reducera CPU-overhead så har dom ännu mindre att tjäna där också än AMD. Skulle inte förvåna mig om Fury/Fury X korten kommer matcha eller tom springa förbi GTX 1070/GTX1080 i senare spel, samma sak skrev jag också om GTX680/79xx/290/780/390/980/Fury/980TI och då blev det pajkastning direkt och tyckte att det var totalt osannolikt. Jag hade rätt. Titta hur 680 och 780 står sig i dagens tester... Titta vad som sakta händer med gapet mellan 980Ti och Fury X och speciellt vad som händer i DX12/Vulkan titlar (som vi kommer behöva få se mer utav) Hur är det inte sannolikt när man är lite insatt i hur bromsade korten verkligen är och har varit, och fortfarande är.

Den här tråden är lagt i bokmärken. Ska bli mycket intressant att reflektera över detta vid ett lite senare tillfällen.

Senast redigerat 2016-07-21 00:04

Visa signatur

[ AMD 9800X3D // EK-Block @ custom loop, 2x420mm ][ MSI B650 Tomahawk ][ 32GB G.Skill Z5 Neo @ DDR6000 CL28 1T ][ AMD 7900XTX @ custom loop ][ Corsair 750D // Corsair RM1000X ][ 2TB Samsung 990PRO M.2 SSD ][ Linux EndeavourOS ][ LG 34GN850 ]

Rapportera Redigera

Citera flera Citera (2)

2016-07-21 00:30

Permalänk

Yoshman

Datavetare ★

Plats: Stockholm
Registrerad: Jun 2011

●

Skrivet av Enigma:

Du skrev att:

Jag är övertygad om att 3D Mark Time Spy är en rätt bra övre gräns för vad vi kan förvänta oss av denna generations grafikkort vad det gäller effekt av DX12 och finesser som "async compute"

Min poäng med det jag skrev var att det påvisar en övre teoretisk gräns för nvidia-korten, och precis som jag misstänkte så skriver Nordichardware också om samma fenomen. Allt står i artikeln. Måste jag svara igen på varför jag skrivit som jag gjort så gör jag det.

Gå till inlägget

Läs vad man skriver på sidan 12, fram till nu är det maximala man fått ut av "async compute" (på GCN då Pascal inte var lanserad när detta GDC event hölls), man har så här långt sett maximalt 10 % boost från "async compute". Time Spy får närmare 15 % på 390X samt Fury X vilket alltså är mer än något annan lyckats med så här långt.

Och det just för att det ett syntetiskt test där ett av huvudsyftena att demonstrera saker som "async compute", programmerad av folk som varit framgångsrika på "demo-scenen", som jag tror att det man får ut i Time Spy ligger väldigt nära maximalt vi kommer att se i spel.

Skrivet av Enigma:

Och hur mycket samarbete och pengar man pumpar in i form av specialoptimerad kod för att gynna "vissa" aktörer.

Jag syftar, och har hela tiden syftat på på AMD's implementation i form av GCN med deras ACE enheter och hur hela arkitekturen är uppbyggd, hur stor parallellism dom är kapabla till och hur GCN kan schemalägga/köa instruktioner jämfört med resten av konkurrenterna. AMD gjorde en stor satsning på just på detta med GCN och att pusha ut CTTM API via Mantle med en hästspark för att få industrin att vakna, för att något var väldigt fel (vilket ID-software med sitt senaste uttalande stödjer.) Tycker också att man har bevisat det rent praktiskt i form av dagens consoler som jag skrev, och det är bara början för PC som jag också skrev.

Det är ett syntetiskt test och säger ingenting om hur AMD's och nvidia's kort kommer prestera i 100% optimerade titlar för asynkron beräkning. Jag kan lova dig att, låt GPU'n utföra alla renderingspass med optimerad kod och utnyttja all beräkningskapacitet och parallellism som dom är kapabla till och se vad som händer med samtliga nvidia-kort, Pascal inkluderat (även om dom klustrat om alla SM's till dynamiska vilket bara är en förbättring av dess ursprungliga flaskhals i just asynkron beräkning). Just av samma anledning som du var så skeptisk till att äldre generationer som Maxwell kommer att tappa på detta (sid 11). Dom har som du själv beskrev det en väldigt ofullständig implementation av asynkrona beräkningar. Det är ju just så en GPU ska fungera, att vara parallellt kapabel, men nvidia har i dom flesta senaste utgåvor av DX mer eller mindre byggt sina GPU'er efter API'n och hur den köar olika renderingspass och hur instruktioner trådas för att dessa "ska" köras via GPU'n rasterenheter exempelvis. Varför, när man istället kan konstruera en GPU som mer öppet kan beräkna på allt parallellt och hålla hela pipelinen upptagen.

Sett massa olika tester och det många testsiter är överens om är att det är svårt att få en uppskattning om hur stor boost det verkligen är då man in-game sett större variationer än i dess typiska benchlägen. Vi får vänta på korrekt FCAT analys och det finns mycket CPU-overhead att hämta hos AMD-korten genom dess drivers.

Allt gällande GCN och API'er så har min teori stämt. Jag har redan lagt denna tråd som bokmärke och kommer se fram emot hurvida det fortfarande stämmer. Om du ursäktar så börjar det bli tröttsamt sedan Kepler hur bra nvidia skulle fixa CTTM/asynkron beräkning, och eftersom dom redan jobbat så hårt med sina TWIMTBP/gameworks och reducera CPU-overhead så har dom ännu mindre att tjäna där också än AMD. Skulle inte förvåna mig om Fury/Fury X korten kommer matcha eller tom springa förbi GTX 1070/GTX1080 i senare spel, samma sak skrev jag också om GTX680/79xx/290/780/390/980/Fury/980TI och då blev det pajkastning direkt och tyckte att det var totalt osannolikt. Jag hade rätt. Titta hur 680 och 780 står sig i dagens tester... Titta vad som sakta händer med gapet mellan 980Ti och Fury X och speciellt vad som händer i DX12/Vulkan titlar (som vi kommer behöva få se mer utav) Hur är det inte sannolikt när man är lite insatt i hur bromsade korten verkligen är och har varit, och fortfarande är.

Gå till inlägget

Det som är fetmarkerat är det kritiska i hela diskussionen! Mycket pekar på att Maxwell/Pascal redan har så mycket logik att den kan hålla sina beräkningsenheter aktiva även när man kör saker sekventiellt. Även Maxwell ju kapacitet att köra saker parallellt, men då det krävs statiskt partitionering av SMs så får man ett viss "spill" vilket i praktiken verkar betyda att antal fall när parallell körning ger ett positivt tillskott är väldigt få (det finns fall, men de verkar vara begränsade till saker man typisk använder CUDA och inte DX12/Vulkan till).

Varför fungerar "async compute" överhuvudtaget? Jo, precis som för SMT så krävs det att man har outnyttjade resurser för att tekniken ska ge ett positivt tillskott. Det är också precis orsaken till att 480 ser en mindre vinst av "async compute" jämfört med bl.a. 390X och Fury X, 480 har saker som instruciton prefetching och vertex cache vilket ökar utnyttjandegraden av existerande resurser redan innan man blandar in "async compute".

Tittar man på kapaciteten hos t.ex. 1060 mot 480 (eller mellan 970 och 390) så är den ganska mycket högre för AMD trots att korten presterar likvärdigt i spel. Men precis som du skriver så går det absolut att skriva rena GPGPU-program där relativ prestanda är mycket närmare relativ fördelning av kapacitet. D.v.s. det går verkligen att få ut kapaciteten även ur GCN om man har "rätt" typ av problem, GCN-korten har däremot inte lika mycket logik för att hålla beräkningsenheterna väldigt högt belagda i spel som Nvidia.

Så rent teoretiskt kan det bli en rejäl boost för GCN i framtiden, men det kräver att spelen börjar använda andra tekniker som då råkar passa GCNs fördelning av resurser perfekt. Som spel ser ut idag kan "async compute" ge en visst boost, som det ser ut nu runt 10 %. Utöver det måste det till en förändring i renderingsteknik eller motsvarande.

Min största invändning i hela den här debatten är de som försöker få Maxwell/Pascal designen till något dåligt för den inte vinner lika mycket (eller något alls i Maxwells fall) på "async compute". Men orsaken är ju att det redan finns så mycket logik i kretsen att den kan hålla tillgängliga beräkningsenheter väldigt högt belagda vare sig man använder "async compute" eller ej.

GCN verkar ha saknat väldigt mycket av den logiken, där har man i stället lagt långt mer krut på att få en riktigt hög kapacitet som sedan kräver att programmen är skrivna på ett visst sätt för att få ut den kapaciteten i faktiskt beräkningskraft. Så här långt (d.v.s. med DX11) har det inte varit en framgångsrik design, det kan vara det med DX12/Vulkan men tror ändå att optimeringar likt de man stoppade in i Polaris 10 är ett måste då de flesta speltitlar inte är skrivna av gurus så saker kommer inte vara optimalt designat.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Rapportera Redigera

Citera flera Citera (2)

2016-07-26 16:21

Permalänk

Enigma

Medlem ★

Plats: inside your microcode
Registrerad: Jan 2007