Nvidia använder gamla knep för att förbättra grafikprestandan i Maxwell och Pascal

Permalänk
Medlem
Skrivet av Efta:

Har inte alls samma nivå av kunskap som du om tekniken, men om Nvidia hade kommit på ett sätt att drastiskt öka prestandan och energieffektiviteten i sina kort och inte patenterat den, hade AMD använt det.

Det handlar självklart inte om själva TBIM tekniken i sig, då det inte hade gått att patentera detta. Specifik mjuk- och hårdvara däremot, går att patentera, och det var det som var mitt argument. Det vill säga, att det är ytterst svårt att använda sig av sk. trade secrets i dagens teknikvärld.

Det är inte så enkelt att "dissikera" kort och på så sätt få fram exakt hur allt fungerar, i så fall hade detta kommit ut långt tidigare än det gjort. Ibland kan det vara fördelaktigt att inte patentera och istället hålla någonting hemligt och på så sätt inte ge bort information gratis, men det kan vara en chansning.

Permalänk
Medlem
Skrivet av skewgen:

Det är inte så enkelt att "dissikera" kort och på så sätt få fram exakt hur allt fungerar, i så fall hade detta kommit ut långt tidigare än det gjort. Ibland kan det vara fördelaktigt att inte patentera och istället hålla någonting hemligt och på så sätt inte ge bort information gratis, men det kan vara en chansning.

För ett företag med tusentals specialiserade ingenjörer och rätt verktyg är det inte jättesvårt. Visst kan det vara fördelaktigt att inte patentera, dock betyder det att vem som helst kan nyttja tekniken.

Permalänk
Medlem
Skrivet av Sisyfos:

Nej.

Problemet i Doom handlar om texturer som laddas in lite senare, efter det så är själva bildkvaliteten identisk mellan AMD/Nvidia.
Dessutom har det inte visat sig på Pascal som också använder den här tekniken.

Det har visat sig att drivrutinerna till Maxwell och Pascal analyserar alla shaders och byter ut en del mot varianter som går lättare att köra på deras kort.
#16264719

Citat:

" Therefore what were seeing with the Nvidia numbers is the Nvidia draw call bottleneck showing up under DX12. Nvidia works around this with its own optimizations in DX11 by prioritizing workloads and replacing shaders. Yes, the nVIDIA driver contains a compiler which re-compiles and replaces shaders which are not fine tuned to their architecture on a per game basis. NVidia's driver is also Multi-Threaded, making use of the idling CPU cores in order to recompile/replace shaders. The work nVIDIA does in software, under DX11, is the work AMD do in Hardware, under DX12, with their Asynchronous Compute Engines."

Skrivet av Petterk:

Nu har nog folk missat att TBIM i Maxwell inte verkar stå för någon större ökning. Redan Kepler utan TBIM var bättre på att nyttja mer av den teoretiska prestandan än vad GCN är. Det finns inget magiskt med patent. Troligen inkräktar Nvidia dessutom på AMDs patent i fallet redan. Det finns inget som säger att du måste kopiera Nvidia, TBIM från Qualcomm och ARM visar samma fördelar och IP för det hela har säkert stannat kvar inom AMD. Kretsdesignen i sig är i princip omöjlig att kopiera med bilder från elektronmikroskop idag och kretsdesign är dessutom skyddad under en egen lag. Företagshemligheter vill du knappast stjäla, se hur det gick för de Taiwanesiska kondensatortillverkarna. Detta är dessutom så pass avancerat och implementationsspecifikt att du ändå vill utveckla din egna variant, och där det går snabbare att jobba med en egen variant än att försöka få in någon annans i din design.

Vad hände med de taiwanesiska kondensatortillverkarna?

Visa signatur

Räkna ut hur kraftigt nätaggregat du behöver på OuterVision Power Supply Calculator. 500W räcker för de allra flesta vanliga system. Seasonic är bäst. ;) – Elektrostatisk urladdning är ett verkligt problem.
"People who are serious about software should make their own hardware" – Alan Kay
Bojkotta maffian

Permalänk
Medlem
Skrivet av GilbertG:

Vad hände med de taiwanesiska kondensatortillverkarna?

De snodde recept på kondensatorer, ett recept som inte var komplett – https://en.wikipedia.org/wiki/Capacitor_plague#Industrial_esp...

För 15 år sedan var detta ett extremt vanligt problem på moderkort, kostade tillverkare miljarder. Istället för att göra sitt jobb som kemister så stal dem troligen ett recept som inte var komplett från en firma som i sin tur hade stulit det från Rubycon och företag i tre olika länder var alltså inblandade på något sett. Istället för att räkna, simulera och testa litade de på inkomplett data de hade snott, vilket såklart inte gav något bra resultat. De Taiwanesiska firmorna som mer eller mindre följde detta felaktiga recept gör idag däremot bra produkter. Tror inte de litar på någon som kommer med recept på det nästa inom området längre däremot

Permalänk
Medlem

Varför slutade man med denna teknik om den var bättre?

Skickades från m.sweclockers.com

Permalänk
Medlem
Skrivet av biorrith:

Varför slutade man med denna teknik om den var bättre?

Skickades från m.sweclockers.com

Citat:

Tekniken användes i grafikkort under 90-talet, men övergavs då tekniken inte erbjöd lika prestandamässigt önskvärda egenskaper som Fullscreen Immediate Mode Rendering.

-

Citat:

Det innebär att Nvidia funnit ett sätt att kringgå de prestandamässiga nackdelar som bör finnas till följd av relaterade kompatibilitetsproblem.

Visa signatur

sweclockers prestandaindex

Efter 10 kommer 11.
Efter 99 kommer 100.

Permalänk
Medlem
Skrivet av Efta:

"För ett företag med tusentals specialiserade ingenjörer och rätt verktyg är det inte jättesvårt."

Är det någonting du vet eller antar du bara det? Jag är ingen expert på området men jag tror faktiskt att du har fel.

Permalänk
Medlem

Om denna informationen är sann så visar det att även dagens AMD kort kan få betydande prestanda via nya drivrutiner. Då AMD med stor sannolikhet kommer försöka att utnyttja även denna tekniken.

Varför låter inte Nvidia de gamla korten utnyttja denna tekniken?

Visa signatur

Ryzen 5800X ROG STRIX X570-f GAMING FlareX DDR43600 cl 14-14-14-34 EVGA FTW3 Ultra RTX 3090

Permalänk
Medlem
Skrivet av ClintBeastwood:

PowerVR och gänget som det syftar till använder inte tile based immediate mode rendering utan tile based deferred rendering. PowerVR har använt TBDR sedan deras första 3D-produkt 1996. Nvidia har använt TBIM (alltså immediate mode) ett tag nu minst sedan Maxwell, lite tvistat när Tegra fick det. ATI/AMD använde TBIM på Imageon-serien mellan 2006-2009 (1 jan 2009 gick köpet igenom och den enheten flyttades till Qualcomm aka Adreno). TBIM används också på ARM Mali. TBIM är mer likt IMR, Adreno kan faktiskt växla mellan de båda.

Enda som lyckats med TBDR är Imagination/PowerVR och det var också de som gav tiled based rendering dåligt rykte med deras PC-kort. TBIM/TBIMR lär undvika några av nackdelarna med deferred rendering, dagens kretsar är dock så avancerade och långt gångna i utvecklingen att jag inte tror det spelar någon större roll eftersom de båda har fått till kretsar som fungerar och presterar. Sen innehåller de idag massor olika koncept så det handlar inte om något lika renodlat som på 90-talet.

Permalänk
Medlem
Skrivet av sesese:

Om denna informationen är sann så visar det att även dagens AMD kort kan få betydande prestanda via nya drivrutiner. Då AMD med stor sannolikhet kommer försöka att utnyttja även denna tekniken.

Varför låter inte Nvidia de gamla korten utnyttja denna tekniken?

För att det kräver hårdvara och förändring i arkitekturen såklart.

Permalänk
Medlem
Skrivet av Petterk:

För att det kräver hårdvara och förändring i arkitekturen såklart.

AMD får Vulkan att fungera på gamla 7970 så jag tror mer det handlar om vilja än något annat.

Visa signatur

Ryzen 5800X ROG STRIX X570-f GAMING FlareX DDR43600 cl 14-14-14-34 EVGA FTW3 Ultra RTX 3090

Permalänk
Medlem
Skrivet av skewgen:

Är det någonting du vet eller antar du bara det? Jag är ingen expert på området men jag tror faktiskt att du har fel.

På 80-talet kunde man göra en kopia av en krets genom att studera logiken under elektronmikroskop när vi låg runt 1 µm, hur man ska göra det samma med miljarder med transistorer och kretsdesigner som syntetiseras av datorer vet jag inte. En kretsdesign är dock skyddad av en egen lag (sker automatiskt precis som upphovsrätt, inget som hindrar att man inspireras däremot) så den får såklart inte stjälas eller kopieras på annat vis. Varför man skulle kopiera och validera någon annans design vet jag inte, vill man inte designa själv kan man köpa in en design av någon som licensierar ut sin eller erbjuder att bygga speciella kretsar åt kunden. Skulle nog säga att det är uteslutet att försöka analysera en körandes Pascal-GPU under elektronmikroskop, det gick på 90-talet att felsöka på detta vis i extremfallet om man själv designade kretsen, nu skulle du nog i första hand försöka hitta något annat sätt att hitta felen. Att idag klona arkitektur, ISA (utan ordentlig dokumentation) och hela köret? Varför? Enklare att implementera det genom att bygga upp en egen mikroarkitektur som klarar av vad man nu har för krav.

Permalänk
Medlem
Skrivet av sesese:

AMD får Vulkan att fungera på gamla 7970 så jag tror mer det handlar om vilja än något annat.

Rasterisering är fixed-function om du vet vad det innebär.

Permalänk
Datavetare
Skrivet av GilbertG:

Det har visat sig att drivrutinerna till Maxwell och Pascal analyserar alla shaders och byter ut en del mot varianter som går lättare att köra på deras kort.
#16264719

Det mesta som står i citatet länkat ovan är ju totalt svammel. T.ex. nämns detta

"Maxwell's Asychronous Thread Warp can queue up 31 Compute tasks and 1 Graphic task. Now compare this with AMD GCN 1.1/1.2 which is composed of 8 Asynchronous Compute Engines each able to queue 8 Compute tasks for a total of 64 coupled with 1 Graphic task by the Graphic Command Processor."

8*8=64 > 31 så verkar författaren av detta använda detta som bevis för att GCN skulle vara bättre, eller "mer parallell". Dels är lär man då först definiera vad "mer parallell" betyder, men just antalet HW-köer är bevisat totalt irrelevant i frågan då analyser med GPUView visar att de spel som idag använder "async shaders" använder en COMPUTE-kö. Doom utvecklarna fick specifikt frågan om det var några problem att XBO endast har två ACEs medan PS4 har åtta, de sa att det var totalt irrelevant då den endast använder en compute-kö (som används parallellt med grafikkön).

Sen är hela poängen med DX HLSL och Vulkans SPIR-V att man levererar förkompilerade shader-kernels. Dessa är kompilerade till ett format som ingen GPU direkt använder, utan det är helt analogt med hur t.ex. Java-program kompileras till byte-kod som när det körs kompileras till maskinkod av en JIT.

Så Nvidia analyserar och kompilerar absolut om shaders. AMD lär åtminstone kompilera mellanformatet till den ISA som CGN använder, men förhoppningsvis gör de också analys samt optimeringar.

Finns inte heller något som tyder på att Kepler, Maxwell eller Pascal klarar väsentligt färre "draw-calls" jämfört med GCN. Det är tvärt om väldigt jämt mellan lägren här, är mer relevant vilken typ av arbete "draw-calls" utför, AMD har mer shader-kapacitet medan Nvidia har mer kapacitet i fixed-function stegen (geometry setup och rasterization).

Däremot har GCN (förutom de mindre GCN1.0 korten) och till någon del de största Nvidia kretsarna problem med dålig effektivitet i fork-join delen där en ström av "draw-calls" ska delas upp till en massiv mängd småproblem (grafik är extremt dataparallellt, men detta jobb måste distribueras och distributionen samt färdigställande av resultat är serialiseringspunkter och därmed potentiella flaskhalsar för skalning) när man använder DX11/OpenGL.

Dessa flaskhalsar försvinner inte med DX12 men där finns ett koncept som DX12 kallar "multi-engine" som gör det möjligt att ha flera parallella jobb igång (d.v.s. man inför uppgiftsparallellism ortogonalt med dataparallellism), tanken här är att likt Hyperthreading kan man bättre utnyttja beräkningsenheter som blir "idle" t.ex. vid serialiseringspunkter i ett jobb som körs av en annan "engine". Är idag bara GCN och Pascal som använder detta, Nvidia behöver inte detta alls lika mycket då de redan i DX11 borde kunna skapa egen uppgiftsparallellism likt hur ARM gör i Mali. Detta tack vare designen man har sedan Maxwell.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Permalänk
Datavetare
Skrivet av Petterk:

Nu har nog folk missat att TBIM i Maxwell inte verkar stå för någon större ökning. Redan Kepler utan TBIM var bättre på att nyttja mer av den teoretiska prestandan än vad GCN är.

Jämför du t.ex. 780 Ti, 970 och 390 som alla presterar väldigt snarlikt så kan man göra observationen att 970 prestera väsentligt mycket bättre jämfört med sin shader-kapacitet. 780 Ti och 390 är på den punkten väldigt snarlika. Så skulle säga att Maxwell har långt högre kapacitet mot faktisk prestanda kvot, d.v.s. det är en väsentligt mycket mer effektiv design.

TFLOPS

Prestandaindex

970

3,5

90

780 Ti

5,0

88

390

5,1

93

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Permalänk
Medlem
Skrivet av Yoshman:

Jämför du t.ex. 780 Ti, 970 och 390 som alla presterar väldigt snarlikt så kan man göra observationen att 970 prestera väsentligt mycket bättre jämfört med sin shader-kapacitet. 780 Ti och 390 är på den punkten väldigt snarlika. Så skulle säga att Maxwell har långt högre kapacitet mot faktisk prestanda kvot, d.v.s. det är en väsentligt mycket mer effektiv design.

TFLOPS

Prestandaindex

970

3,5

90

780 Ti

5,0

88

390

5,1

93

Tänkte mer 780 Ti vs. 290X där. Där 290X har 5632 GFLOPS och 780 Ti har 5046 GFLOPS. Maxwell tar ett stort steg, men det är långt mer än rasterizer de ändrat

Nvidia kommer nog aldrig gå ut med några detaljer om TBR-teknikerna i Maxwell/Pascal, så det hela blir spekulationer. Finns massor annat för AMD att göra som inte innebär TBIM.

Permalänk
Medlem
Skrivet av Petterk:

På 80-talet kunde man göra en kopia av en krets genom att studera logiken under elektronmikroskop när vi låg runt 1 µm, hur man ska göra det samma med miljarder med transistorer och kretsdesigner som syntetiseras av datorer vet jag inte. En kretsdesign är dock skyddad av en egen lag (sker automatiskt precis som upphovsrätt, inget som hindrar att man inspireras däremot) så den får såklart inte stjälas eller kopieras på annat vis. Varför man skulle kopiera och validera någon annans design vet jag inte, vill man inte designa själv kan man köpa in en design av någon som licensierar ut sin eller erbjuder att bygga speciella kretsar åt kunden. Skulle nog säga att det är uteslutet att försöka analysera en körandes Pascal-GPU under elektronmikroskop, det gick på 90-talet att felsöka på detta vis i extremfallet om man själv designade kretsen, nu skulle du nog i första hand försöka hitta något annat sätt att hitta felen. Att idag klona arkitektur, ISA (utan ordentlig dokumentation) och hela köret? Varför? Enklare att implementera det genom att bygga upp en egen mikroarkitektur som klarar av vad man nu har för krav.

Som jag trodde då, det är svårt idag och inte värt det. Tack för info

Permalänk
Datavetare
Skrivet av Petterk:

Tänkte mer 780 Ti vs. 290X där. Där 290X har 5632 GFLOPS och 780 Ti har 5046 GFLOPS. Maxwell tar ett stort steg, men det är långt mer än rasterizer de ändrat

Nvidia kommer nog aldrig gå ut med några detaljer om TBR-teknikerna i Maxwell/Pascal, så det hela blir spekulationer. Finns massor annat för AMD att göra som inte innebär TBIM.

Visst har ändrade man en rad andra saker, Streaming Multiprocessor designen ändrades radikalt i Maxwell och den är absolut del i den höga effektiviteten. Är nog främst hur man med Maxwell lyckades få upp prestanda/Watt motsvarande en ny nod samt hur man lyckades skapa kretsar som klarade sig på väldigt mycket mindre VRAM-bandbredd jämfört med andra kretsar som nog ingen riktigt fått ihop tidigare. Nu är detta att det kommer av TBIM en gissning, men det verkar ju vara en väldigt kvalificerad och rimligt sådan.

Edit: Det här borde ju vara omöjligt, 970 och 480 har i praktiken samma prestanda per Watt trots 28 nm mot 14 nmFF

Frågan är om ens Intel har kvar sin prestanda/W ledning för GPUer när mobila Pascal-kretsarna kommer ut. Även om Intels GPUer inte har speciellt hög absolut prestanda har Intel kunna haft en bekväm prestanda/W ledning, med total TDP på 15 W får man ut rätt OK grafikprestanda. Intels ledning har kommer till stor del från att man legat rejält före i tillverkningsteknik.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Permalänk
Medlem
Skrivet av Yoshman:

Visst har ändrade man en rad andra saker, Streaming Multiprocessor designen ändrades radikalt i Maxwell och den är absolut del i den höga effektiviteten. Är nog främst hur man med Maxwell lyckades få upp prestanda/Watt motsvarande en ny nod samt hur man lyckades skapa kretsar som klarade sig på väldigt mycket mindre VRAM-bandbredd jämfört med andra kretsar som nog ingen riktigt fått ihop tidigare. Nu är detta att det kommer av TBIM en gissning, men det verkar ju vara en väldigt kvalificerad och rimligt sådan.

Edit: Det här borde ju vara omöjligt, 970 och 480 har i praktiken samma prestanda per Watt trots 28 nm mot 14 nmFF
https://tpucdn.com/reviews/MSI/RX_480_Gaming_X/images/perfwatt_1920_1080.png

Frågan är om ens Intel har kvar sin prestanda/W ledning för GPUer när mobila Pascal-kretsarna kommer ut. Även om Intels GPUer inte har speciellt hög absolut prestanda har Intel kunna haft en bekväm prestanda/W ledning, med total TDP på 15 W får man ut rätt OK grafikprestanda. Intels ledning har kommer till stor del från att man legat rejält före i tillverkningsteknik.

Där skulle man nog behöva analysera Maxwell gen1 och ställa mot gen2, med Maxwell 2 vi fick "tredje generationen" color compression som Nvidia vill härleda till stor del av bandbreddsbesparingen. Men det är nog svårt, första generationen är ju knappt en Maxwell när vi tänker nya features, ROPs och allt. Men kan man hitta TBR hos första generationens Maxwell bör man kunna analysera ganska bra.

Kommer de mobila Pascal-kretsarna vara något annat än nerklockade varianter? De ryktas ju ha i princip samma specs som desktop-varianterna.