Nvidias Ampere-arkitektur gör premiär i datacenterkortet A100

2020-05-14 20:00

Entusiast ★

Plats: Hemma
Registrerad: Aug 2010

●

Skrivet av kelthar:

Är detta största kretsen? Kommer det en A100 Ti också? Om inte så kommer nog ryktet om 8192 på 3080 Ti vara lite osannolikt väl?

Eller är de kanske heeelt orelaterade?

V100 hade 5120 FP32 (Cuda cores) vs 2080 Ti hade 4352 FP32

Om det är samma relation mellan dem så borde det vara
A100 6912 FP32 vs 3080 Ti ~5875 FP32

Gå till inlägget

Kretsen har ju 8192 kärnor totalt. Om yielden tillåter och konkurrensen kräver det så kan de säkerligen trycka ut 3080 Ti med en helt funktionell krets.

Mest troligt är dock en nedskalad variant. Vid dessa kretsstorlekar och med relativt färska 7 nanometer så tror jag att det är få hela kretsar. Skalar man ned för mycket börjar det nog bli aktuellt att konstruera en mindre krets istället, exempelvis A102.

V100 (Volta) och 2080 Ti (Turing) är äpplen och päron, det är inte samma krets och inte ens samma arkitektur. V100 släpptes dock för konsumenter i form av Titan V.

Senast redigerat 2020-05-14 20:16

Visa signatur

Rapportera Redigera

Citera flera Citera (1)

2020-05-14 20:32

Permalänk

Defender

Medlem ★

Plats: Hemma
Registrerad: Okt 2001

●

Skrivet av kelthar:

Är detta största kretsen? Kommer det en A100 Ti också? Om inte så kommer nog ryktet om 8192 på 3080 Ti vara lite osannolikt väl?

Eller är de kanske heeelt orelaterade?

V100 hade 5120 FP32 (Cuda cores) vs 2080 Ti hade 4352 FP32

Om det är samma relation mellan dem så borde det vara
A100 6912 FP32 vs 3080 Ti ~5875 FP32

Gå till inlägget

Släpps en med 8192 kommer det vara en Titan, inte ett 3080TI.

Visa signatur

Corsair Obsidian 1000D* Corsair AX1600i* Asus Z790 Prime-A* Intel 13900K* 32GB G-Skill DDR5 7600Mhz/36* Asus RTX 4090* Corsair MP600 1TB* Samsung 980 Pro 1TB

Rapportera Redigera

Citera flera Citera

2020-05-14 20:49

Permalänk

Chrisj

Medlem ★

Plats: Stockholm
Registrerad: Jul 2008

●

Skrivet av kelthar:

Är detta största kretsen? Kommer det en A100 Ti också? Om inte så kommer nog ryktet om 8192 på 3080 Ti vara lite osannolikt väl?

Eller är de kanske heeelt orelaterade?

V100 hade 5120 FP32 (Cuda cores) vs 2080 Ti hade 4352 FP32

Om det är samma relation mellan dem så borde det vara
A100 6912 FP32 vs 3080 Ti ~5875 FP32

Gå till inlägget

V100 var väl Volta medans 2080Ti var på Turing? Olika arkitektur alltså.

Rapportera Redigera

Citera flera Citera

2020-05-14 20:56

Permalänk

erixon

Medlem

Registrerad: Okt 2001

●

@xyllian: Jag håller med dig om att det är missledande, men jag tror att anledningen till TF32 är att den tar upp 32bitar i minnet även om man bara "räknar" med 19bitar.
Men som jag fattar så behövs ingen konvertering mellan TF32 och FP32 vilket spar konverterings steg och man kan lättare blanda TF32 och FP32 instruktioner och få ut mer prestanda när man kräver lite extra precision jämfört med ren FP16.

Det är vad jag tror...

Visa signatur

"Gravity is a myth, the earth sucks."

Rapportera Redigera

Citera flera Citera

2020-05-14 22:11

Permalänk

xyllian

Medlem ★

Plats: Solna
Registrerad: Nov 2008

●

Skrivet av erixon:

@xyllian: Jag håller med dig om att det är missledande, men jag tror att anledningen till TF32 är att den tar upp 32bitar i minnet även om man bara "räknar" med 19bitar.
Men som jag fattar så behövs ingen konvertering mellan TF32 och FP32 vilket spar konverterings steg och man kan lättare blanda TF32 och FP32 instruktioner och få ut mer prestanda när man kräver lite extra precision jämfört med ren FP16.

Det är vad jag tror...

Gå till inlägget

Mm det kan ju vara någorlunda rimlig anledning, att det faktiskt är 32-bitars flyttal som räknas genom en hybrid 16/32-bitars pipeline. Skulle vara riktigt intressant att se hur detta är implementerat i hårdvaran, då man på något vis behöver köra både uppdelning på fyra (64/4) och på två (64/2) i flyttalsenheterna samtidigt och få alla exponenter osv att hitta rätt. Antar att det är ganska komplex logik som har snurrat in där.

Rapportera Redigera

Citera flera Citera

2020-05-14 23:00

Permalänk

Yoshman

Datavetare ★

Plats: Stockholm
Registrerad: Jun 2011

●

Skrivet av xyllian:

Tack för inlägget och informationen. Jag gör ingen AI så vet inte vad som är viktigt, men om det som du säger är mycket addition kan det vara ok att byta till kortare mantissa, däremot vid multiplikation blir det uselt.

Sedan tycker jag helt klart att Nvidia vilseleder med TF32 och sannolikt är det med mening. Hade de kallat det för TF19 så hade det varit okej tex. Dessutom i figur 4 i artikeln där de gör prestandajämförelsen ställer de Volta FP32 mot Ampere TF32, klart missledande då Ampere FP32 inte är med i jämförelsen alls vilket får Amperes prestanda att se ut att vara 10x Volta, när det egentligen är Ampere 2x Volta och TF32 5x FP32.

Gå till inlägget

Det hjälper potentiellt vid addition, det förutsätter att exponenterna är olika. Det hjälper ju mer vid multiplikation.

Exempel där två FP19 tal multipliceras, notera att mantissan skulle avrundas om resultatet var FP19 istället för FP32.
Talen som multipliceras är 1.099609 (3f8cc000) * 0.899414 (3f664000)

I binärt

0 01111111 0001100110 0000000000000
*
0 01111110 1100110010 0000000000000
=
0 01111110 1111101001 0111101100000

Det markerade skulle alltid vara noll (i.e. alltid avrundat till 10 bitars mantissa) om man inte svaret är FP32.

Maskininlärning mår i flera fall faktiskt bra av lite "brus", d.v.s. få bitar i mantissa. Intel har ju skapat bfloat16 (Brain Floating Point) där exponenten matchar FP32 (8 bitar) men mantissa är bara 7 bitar. Ampere stödjer även bfloat16 i tensor-cores.

Senast redigerat 2020-05-14 23:05

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Rapportera Redigera

Citera flera Citera (6)

2020-05-14 23:18

Permalänk

Bengt-Arne

Medlem ★

Plats: ˈvɔ̂kstɔrp
Registrerad: Nov 2013

●

@loevet: OK!
Tyckte att jag kände igen baket

Rivals in Arms: Nvidia's $199,000 Ampere System Taps AMD Epyc CPUs

Källa: https://www.tomshardware.com/uk/news/nvidia-dgx-a100-ampere-a...

Visa signatur

Engineer who prefer thinking out of the box and isn't fishing likes, fishing likes is like fishing proudness for those without ;-)
If U don't like it, bite the dust :D
--
I can Explain it to you, but I can't Understand it for you!

Rapportera Redigera

Citera flera Citera (3)

2020-05-14 23:33

Permalänk

kelthar

Medlem ★

Plats: :: oVERdOZe bbS ::
Registrerad: Aug 2004

●

Skrivet av Chrisj:

V100 var väl Volta medans 2080Ti var på Turing? Olika arkitektur alltså.

Gå till inlägget

Skrivet av MrAdde:

Kretsen har ju 8192 kärnor totalt. Om yielden tillåter och konkurrensen kräver det så kan de säkerligen trycka ut 3080 Ti med en helt funktionell krets.

Mest troligt är dock en nedskalad variant. Vid dessa kretsstorlekar och med relativt färska 7 nanometer så tror jag att det är få hela kretsar. Skalar man ned för mycket börjar det nog bli aktuellt att konstruera en mindre krets istället, exempelvis A102.

V100 (Volta) och 2080 Ti (Turing) är äpplen och päron, det är inte samma krets och inte ens samma arkitektur. V100 släpptes dock för konsumenter i form av Titan V.

Gå till inlägget

Ja, det är sant att V100 är Volta, där blandade jag ihopa det. Trodde det var motsvarigheten i Turing. Man kanske kan använda Titan för att se någon trend?

Vet inte om cudakärnorna är i kluster om 64st, men det kan vara så. Och jag vet inte hur många kluster som man ökar med åt gången. Så siffrorna kommer aldrig stämma exakt och detta är ju vara en gissning.

Geforce Titan X = 3072,980 Ti = 2816 (92%)
Pascal: Nvidia Titan X/P100 = 3840, 1080 Ti = 3584 (93%)
Turing: Titan RTX = 4608, 2080 Ti = 4352 (94%)
Ampere: "Titan A"/A100 = 5120, 3080 Ti = 4894? (94%)

Känns som de följt ett visst förhållande tidigare mellan deras Titan och deras 80 Ti. Och P100 var ju faktiskt Nvidia Titan X. Så A100 kan vara nästa Titan. Volta var inte med i någon serie som de andra har varit.

Senast redigerat 2020-05-14 23:45

Visa signatur

Hur många datorer är för många?

Rapportera Redigera

Citera flera Citera

2020-05-14 23:45

Permalänk

kelthar

Medlem ★

Plats: :: oVERdOZe bbS ::
Registrerad: Aug 2004

●

Skrivet av Defender:

Släpps en med 8192 kommer det vara en Titan, inte ett 3080TI.

Gå till inlägget

Titan kommer antagligen med A100 som pascals kom med P100. Fast jag vet inte.

Visa signatur

Hur många datorer är för många?

Rapportera Redigera

Citera flera Citera

2020-05-14 23:56

Permalänk

scara

Medlem

Plats: Stockholm
Registrerad: Sep 2010

●

Goda nyheter, Ampere är också för Geforce. Nu blåser det upp till storm i höstas RDNA2 vs Ampere

Rapportera Redigera

Citera flera Citera (1)

2020-05-15 08:46

Permalänk

Yoshman

Datavetare ★

Plats: Stockholm
Registrerad: Jun 2011

●

Efter läst Nvidias beskrivning av Ampere så är detta jag personligen ser som viktigaste nyheten

Klicka för mer information

Asynchronous barrier

The A100 GPU provides hardware-accelerated barriers in shared memory. These barriers are available using CUDA 11 in the form of ISO C++-conforming barrier objects. Asynchronous barriers split apart the barrier arrive and wait operations and can be used to overlap asynchronous copies from global memory into shared memory with computations in the SM. They can be used to implement producer-consumer models using CUDA threads. Barriers also provide mechanisms to synchronize CUDA threads at different granularities, not just warp or block level.

Visa mer

GPU kan inte gör allt, så Jensen kommer inte kunna ersätta traditionella CPUer. Men det man kan göra på GPUer ska absolut göras när möjligt, detta då GPUer kan vara upp mot 100-tals gånger snabbare än CPUer! Ta t.ex. 3D-rendering i program som Blender (där CPUer faktiskt står sig långt bättre än vad de gör i t.ex. träning av AI-nätverk) är konsumentkorten 2060S och 2070S ungefär lika snabba som de absolut snabbaste server CPUerna.

Rent generellt: kan problemet uttryckas i vektorer och matriser, vilket är en rätt rejält stor klass av problem, så är GPUer i princip alltid överlägsen CPUer.

Att man nu har HW-stöd för "ISO C++-conforming barrier objects" gör det både enklare och effektivare för program att lägga ut de delar som lämpar sig för en GPU på den. Samma metoder/ramverk som fungerar för multicore fungerar nu också på Nvidias GPUer. Även mellan delar på GPUn uppför sig saker nu som i ett multicore program på en CPU tack vare detta, det gör miljön mer hemtamför en långt större mängd programmerare.

Tyvärr kanske detta också betyder att Nvidias enorma dominans inom GPGPU cementeras än mer. Intel kan eventuellt utmana här, deras oneAPI är från scratch specifik designat för att de ska vara så sömnlöst som möjligt att växla mellan CPU, GPU och FPGA (och oneAPI är faktiskt något lättare att använda än CUDA om man är van med "vanlig" C++, något som definitivt inte är kan sägas när man ställer OpenCL mot CUDA). I oneAPI säger dokumentationen ISO C++20 stöd, vilket om det är sant måste betyda att också Xe har det stöd Ampere har kring synkronisering med CPU (det är en C++11 finess). Problemet är att Intel lanserar en v1.0, Nvidia borde inte få några stora problem än på ett tag.

Nvidia är fullt medveten om varför man dominerar, det handlar långt mer om CUDA (programvaran) än HW. Jensen pratar om det i en av klippen, han pekar bl.a. på att CUDA nu går till version 11 och fortfarande i grunden är samma ramverk, vilket visar att de verkligen fick det till nära nog perfekt. Så ribban är hög för AMD/Intel, de kan inte bara kopiera CUDA eller, än värre, göra något som är nästan lika bra. De måste få till något som är bättre för att folk ska börja titta åt något annat än CUDA.

För konsumentkort är det ändå ray-tracing stödet jag ser fram mest emot. Ju snabbare övergången till ray-tracing (för det handlar inte om "om", utan bara när) händer ju roligare. Det är den största förändringen sedan rastrering flyttade ut från CPU till GPU med kort som Voodoo Graphics, Riva TNT och ATi Rage.

Senast redigerat 2020-05-15 11:36

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Rapportera Redigera

Citera flera Citera (7)

2020-05-15 08:56

Permalänk

Olle P

Medlem ★

Plats: Sundsvall
Registrerad: Okt 2003

●

Skrivet av scara:

... Ampere är också för Geforce. ...

Gå till inlägget

Som förväntat. Jag undrar mer över vilka funktioner som följer med till konsumentprodukterna i segmentet <$250 MSRP. (Lär ju knappast vara 40GB HBM2...)

Rapportera Redigera

Citera flera Citera (2)

2020-05-15 09:01

Permalänk

Mocka

Medlem ★

Plats: Göteborg
Registrerad: Jul 2004

●

Skrivet av unzane:

Hyfsat ointressant eftersom alla konsumentprodukter uteblev.

Gå till inlägget

Håller med men en ny generation brukar väl alltid börja med en presentation gällande företagssegmentet som sen utmynnar i ett konsumentkort. Mao är det numera garanterat att vi får 3000-serien (om den nu heter så).

Visa signatur

Rapportera Redigera

Citera flera Citera

2020-05-17 15:11

Permalänk

mpat

Medlem ★

Registrerad: Okt 2016

●

Värt att påpeka att A100 (borde det inte vara GA100?) har 40MB L2-cache. Det är dit alla de där extra transistorerna har tagit vägen. Om ”A104” (eller vad basen för 3080 nu kan heta) är designad mer som en vanlig GPU, kan man skippa mycket av den L2an och få ner storleken på chippet till något som vanliga dödliga har råd med. Som jämförelse har TU104 (2080) 4MB L2, och TU102 (2080 Ti) 6MB L2.

Visa signatur

5900X | 6700XT

Rapportera Redigera

Citera flera Citera (1)

2020-05-18 07:46

Permalänk

anon56869

Inaktiv

Registrerad: Jan 2005

●

Ett litet rack monster.

Tror ni det finns plats för decentraliserade "super computer" lösningar som golem project i framtiden?

Rapportera Redigera

Citera flera Citera

2020-05-18 10:22

Permalänk

sKRUVARN

Medlem ★

Registrerad: Okt 2005

●

Skrivet av kelthar:

Ja, det är sant att V100 är Volta, där blandade jag ihopa det. Trodde det var motsvarigheten i Turing. Man kanske kan använda Titan för att se någon trend?

Vet inte om cudakärnorna är i kluster om 64st, men det kan vara så. Och jag vet inte hur många kluster som man ökar med åt gången. Så siffrorna kommer aldrig stämma exakt och detta är ju vara en gissning.

Geforce Titan X = 3072,980 Ti = 2816 (92%)
Pascal: Nvidia Titan X/P100 = 3840, 1080 Ti = 3584 (93%)
Turing: Titan RTX = 4608, 2080 Ti = 4352 (94%)
Ampere: "Titan A"/A100 = 5120, 3080 Ti = 4894? (94%)

Känns som de följt ett visst förhållande tidigare mellan deras Titan och deras 80 Ti. Och P100 var ju faktiskt Nvidia Titan X. Så A100 kan vara nästa Titan. Volta var inte med i någon serie som de andra har varit.

Gå till inlägget

GP100 har väl inte suttit i något Titan, eller något annat konsumentkort? I bägge Titan X Pascal sitter det väl ett GP102 precis som i Ti (full krets för den senare Xp). Ingen av de två 100 kretsarna för teslakorten har väl landat i ett konsumentkort, och troligen gör det inte det i detta fallet heller. GA102 lär vara kretsen för Ti, och troligen för Titan också.

Rapportera Redigera

Citera flera Citera (1)

2020-05-18 10:46

Permalänk

kelthar

Medlem ★

Plats: :: oVERdOZe bbS ::
Registrerad: Aug 2004

●

Skrivet av sKRUVARN:

GP100 har väl inte suttit i något Titan, eller något annat konsumentkort? I bägge Titan X Pascal sitter det väl ett GP102 precis som i Ti (full krets för den senare Xp). Ingen av de två 100 kretsarna för teslakorten har väl landat i ett konsumentkort, och troligen gör det inte det i detta fallet heller. GA102 lär vara kretsen för Ti, och troligen för Titan också.

Gå till inlägget

Nej, GP102 satt i Titan. Fel av mig! Det viktiga i kråksången är att de har lika många CUDA som P100. Då kan man resonera så att A100 kanske har samma antal CUDA som Titan i denna generationen och att för hållandet mellan Titan och 3080 är ungefär likadant som de föregående 3 generationerna.

Geforce Titan X = 3072,980 Ti = 2816 (92%)
Pascal: Nvidia Titan X ~ P100 = 3840, 1080 Ti = 3584 (93%)
Turing: Titan RTX = 4608, 2080 Ti = 4352 (94%)
Ampere: "Titan A" ~ A100 = 6912, 3080 Ti = 6497? (94%)

Edit: ändrade cuda för ampere

Senast redigerat 2020-05-18 13:15

Visa signatur

Hur många datorer är för många?

Rapportera Redigera

Citera flera Citera

2020-05-18 11:20

Permalänk

sKRUVARN

Medlem ★

Registrerad: Okt 2005

●

Skrivet av kelthar:

Nej, GP102 satt i Titan. Fel av mig! Det viktiga i kråksången är att de har lika många CUDA som P100. Då kan man resonera så att A100 kanske har samma antal CUDA som Titan i denna generationen och att för hållandet mellan Titan och 3080 är ungefär likadant som de föregående 3 generationerna.

Geforce Titan X = 3072,980 Ti = 2816 (92%)
Pascal: Nvidia Titan X ~ P100 = 3840, 1080 Ti = 3584 (93%)
Turing: Titan RTX = 4608, 2080 Ti = 4352 (94%)
Ampere: "Titan A" ~ A100 = 5120, 3080 Ti = 4894? (94%)

Gå till inlägget

Som sagt notera att det finns två Pascal Titan, den första var inte fullt upplåst, antagligen pga yields och hade 3584 CUDA-kärnor. Och sen kan det väl vara så att en fullt upplåst A102 kan vara rätt nära A100 med stängda delar, men känns rätt osanolkt att de lanserar en krets på kanske 700mm2 på 7nm helt utan nedstängda delar så tidigt i generationen. Sen hade ju förra motsvarigheten V100 hade 5120 CUDA-kärnor, dvs mer än Titan RTX.

"Ampere: "Titan A" ~ A100 = 5120, 3080 Ti = 4894? (94%)"

Vad menar du med ~ A100? A100 har ju 6 912 CUDA-kärnor enligt nyheten.

Rapportera Redigera

Citera flera Citera (1)

2020-05-18 13:22

Permalänk

kelthar

Medlem ★

Plats: :: oVERdOZe bbS ::
Registrerad: Aug 2004

●

Skrivet av sKRUVARN:

Som sagt notera att det finns två Pascal Titan, den första var inte fullt upplåst, antagligen pga yields och hade 3584 CUDA-kärnor. Och sen kan det väl vara så att en fullt upplåst A102 kan vara rätt nära A100 med stängda delar, men känns rätt osanolkt att de lanserar en krets på kanske 700mm2 på 7nm helt utan nedstängda delar så tidigt i generationen. Sen hade ju förra motsvarigheten V100 hade 5120 CUDA-kärnor, dvs mer än Titan RTX.

"Ampere: "Titan A" ~ A100 = 5120, 3080 Ti = 4894? (94%)"

Vad menar du med ~ A100? A100 har ju 6 912 CUDA-kärnor enligt nyheten.

Gå till inlägget

Yes, rätt. Tog nog av misstag V100 från någon tidigare post.

V100 var utanför någon generation så den är lite svårt att jämföra med något konsumentkort eftersom det inte finns någon 80-motsvarighet? Eller har jag missat något?

1080 Ti släpptes i samband med Titan XP. Det jag har i listan är 1080 som släpptes i samband med Titan X. I listan har jag nog bara kört med 80 och inte 80 Ti. Slängde ihop det när jag var lite trött så jag kommer inte ihåg.

Men om förhållandet är kvar så kommer 3080 ha ~6497 cores (avrundat till något som är delbart med 64 gissar jag, 6400 kanske).

Måste nog gå igenom hela listan igen ...

Visa signatur

Hur många datorer är för många?

Rapportera Redigera

Citera flera Citera

2020-05-18 14:06

Permalänk

kelthar

Medlem ★

Plats: :: oVERdOZe bbS ::
Registrerad: Aug 2004

●

Skrivet av sKRUVARN:

Som sagt notera att det finns två Pascal Titan, den första var inte fullt upplåst, antagligen pga yields och hade 3584 CUDA-kärnor. Och sen kan det väl vara så att en fullt upplåst A102 kan vara rätt nära A100 med stängda delar, men känns rätt osanolkt att de lanserar en krets på kanske 700mm2 på 7nm helt utan nedstängda delar så tidigt i generationen. Sen hade ju förra motsvarigheten V100 hade 5120 CUDA-kärnor, dvs mer än Titan RTX.

"Ampere: "Titan A" ~ A100 = 5120, 3080 Ti = 4894? (94%)"

Vad menar du med ~ A100? A100 har ju 6 912 CUDA-kärnor enligt nyheten.

Gå till inlägget

Typ så här kanske:

https://docs.google.com/spreadsheets/d/1bj7Xex3EbDHjpZISlZBOa...

Visa signatur

Hur många datorer är för många?

Rapportera Redigera

Citera flera Citera (1)

2020-05-18 14:34

Permalänk

sKRUVARN

Medlem ★

Registrerad: Okt 2005

●

Skrivet av kelthar:

Typ så här kanske:
https://i.imgur.com/9qN4isp.png

https://docs.google.com/spreadsheets/d/1bj7Xex3EbDHjpZISlZBOa...

Gå till inlägget

Alltså antingen kommer det vara lång tid mellan detta Tesla kort och ett Titan, eller så är det bara orimligt att förvänta sig att dom skulle ha samma antal CUDA-kärnor. Det finns liksom ingen poäng med att göra en gigantisk GPU om du får plats med lika mycket på en mindre, om det inte är som i fallet hos pascal där det var ett år mellan GP100 och en komplett GP102, vilket kan öka yields. Dessutom så verkar denna GPU, likt V100, inte har RT-kärnor, vilket gör att kretsen har ännu mer ytan för CUDA-kärnor kontra RTX-korten. Eller tänker du att denna GPU kommer sitta i nästa Titan? Kommer då inte vara RT på nästa Titan? Men hade det inte varit för den faktorn så kan det nog vara så att teoriskt så hade nog ett fullt upplåst 102 chip matchat antal SM i denna GPU eftersom det ändå är ganska mycket avstängt.

Och vad är Turing Tesla för kort? TU102 används inte i något Tesla kort. Även om V100 är lite av en avstickare, så är det dumt att ignorera den, Det är 800+mm2 på 12nm, och TU102 är på 750mm2 på 12nm. Dvs, är det hyfsat troligt att storleksskillanden mellan dessa är ganska lika en eventuell A102 mot A100.

Sen finns ju även NVIDIA TITAN V, som kom med GV100, och inte någon mindre GPU. Det blir liksom lite för okonsekvent för att kunna bygga ett tydligt diagram för att räkna ut något, när nvidia ändrar lite till höger och vänster för varje släpp.

Senast redigerat 2020-05-18 15:11

Rapportera Redigera

Citera flera Citera (1)

2020-05-18 16:30

Permalänk

kelthar

Medlem ★

Plats: :: oVERdOZe bbS ::
Registrerad: Aug 2004

●

Skrivet av sKRUVARN:

Alltså antingen kommer det vara lång tid mellan detta Tesla kort och ett Titan, eller så är det bara orimligt att förvänta sig att dom skulle ha samma antal CUDA-kärnor. Det finns liksom ingen poäng med att göra en gigantisk GPU om du får plats med lika mycket på en mindre, om det inte är som i fallet hos pascal där det var ett år mellan GP100 och en komplett GP102, vilket kan öka yields. Dessutom så verkar denna GPU, likt V100, inte har RT-kärnor, vilket gör att kretsen har ännu mer ytan för CUDA-kärnor kontra RTX-korten. Eller tänker du att denna GPU kommer sitta i nästa Titan? Kommer då inte vara RT på nästa Titan? Men hade det inte varit för den faktorn så kan det nog vara så att teoriskt så hade nog ett fullt upplåst 102 chip matchat antal SM i denna GPU eftersom det ändå är ganska mycket avstängt.

Och vad är Turing Tesla för kort? TU102 används inte i något Tesla kort. Även om V100 är lite av en avstickare, så är det dumt att ignorera den, Det är 800+mm2 på 12nm, och TU102 är på 750mm2 på 12nm. Dvs, är det hyfsat troligt att storleksskillanden mellan dessa är ganska lika en eventuell A102 mot A100.

Sen finns ju även NVIDIA TITAN V, som kom med GV100, och inte någon mindre GPU. Det blir liksom lite för okonsekvent för att kunna bygga ett tydligt diagram för att räkna ut något, när nvidia ändrar lite till höger och vänster för varje släpp.

Gå till inlägget

Känns den bilden bättre?

Alla de som jag tagit med kommer från 900, 10 och 20-serien och siffrorna stämmer ganska bra överens mellan dem.

Eftersom det inte finns ett T100, så var det bara en gissning. Men det fanns ett Titan. Om man tittar på tidigare första Titans i serien så skulle det vara snarlikt.

V100 tillhörde inte någon serie som även hade konsumentkort så den passar inte in i bilden eftersom den inte har några konsumentkort att jämföra något förhållande med. Där finns ingen data man kan använda för något förhållande mellan konsumentserie och Titan / Tesla. Det är ju en gissning på 80-korten som jag är ute efter. Det kanske inte framgår.

20-serien har RT-kärnor och ändå är det ett liknande förhållande mellan Titan / 80.

Det är bara till för att visa förhållandet mellan Tesla och Titan rent historiskt och interpolera data för en gissning för framtiden.

Vi får väl se om min gissning stämmer. Kom med en bättre gissning själv :).

Senast redigerat 2020-05-18 16:36

Visa signatur

Hur många datorer är för många?

Rapportera Redigera

Citera flera Citera

2020-05-18 17:08

Permalänk

sKRUVARN

Medlem ★

Registrerad: Okt 2005

●

Skrivet av kelthar:

https://i.imgur.com/LJaqKHS.png
V100 tillhörde inte någon serie som även hade konsumentkort så den passar inte in i bilden eftersom den inte har några konsumentkort att jämföra något förhållande med. Där finns ingen data man kan använda för något förhållande mellan konsumentserie och Titan / Tesla. Det är ju en gissning på 80-korten som jag är ute efter. Det kanske inte framgår.

Gå till inlägget

Så för att den inte passar din bild ska vi inte ta med det? Som jag sa, likt V100 så kommer inte denna krets ha RT kärnor, och storleksmässigt så är det mycket möjligt att skillnaden är ganska lik V100 -> TU102, som A100->A102. Så att titta på volta och Turing kanske till och med är den bästa jämförelsen, snarare än att titta på hur det såg ut med pascal, för detta kort är en uppföljare till V100, och inte något Turing-kort.

Tar man förhållandet CUDA-kärnor mellan Tesla V100 och 2080Ti mot Tesla A100 så får man 5875. Vilket inte känns som ett helt orimligt område, men det beror mycket på hur stor kretsen blir och hur mycket kretsyta som går till RT/Tensor. Det har ju ryktats om 5376, vilket inte heller känns så tokigt, strax över 20% upp från 2080Ti, lägg på 20% till i prestanda från ökad IPC och klockfrekvenser så hamnar man inom en rimlig prestandaökning. 6400 CUDA-Cores och 4x RT-prestanda, låter imo för dyrt och eventuellt onödigt mycket kraftullare än 2080Ti.

Senast redigerat 2020-05-18 17:30

Rapportera Redigera

Citera flera Citera

2020-05-19 18:25

Permalänk

sesese

Medlem ★

Plats: jönköping
Registrerad: Mar 2007

●

Frågan är om AMDs kommande 4000 serie cpuer gynnas av att testas med dagens 2080ti eller med kommande 3080ti?

Skulle AMD gynnas av Nvidias 3000 serie så kommer AMD vänta tills Nvidia släpp sin serie.

Hur det än är så kommer 4/8 och 6/12 får det jobbig att maxa ut ett 3080TI. Finns den prestandan som alla pratar om så kommer även Intel 9900K och AMD 2700X får det jobbigt.

Visa signatur

Ryzen 5800X ROG STRIX X570-f GAMING FlareX DDR43600 cl 14-14-14-34 EVGA FTW3 Ultra RTX 3090

Rapportera Redigera

Citera flera Citera

2020-05-19 19:34

Permalänk

Novdid

Medlem ★

Plats: Malmö
Registrerad: Okt 2014

●

Skrivet av sesese:

Frågan är om AMDs kommande 4000 serie cpuer gynnas av att testas med dagens 2080ti eller med kommande 3080ti?

Skulle AMD gynnas av Nvidias 3000 serie så kommer AMD vänta tills Nvidia släpp sin serie.

Hur det än är så kommer 4/8 och 6/12 får det jobbig att maxa ut ett 3080TI. Finns den prestandan som alla pratar om så kommer även Intel 9900K och AMD 2700X får det jobbigt.

Gå till inlägget

Jag tror nog att 9900K kommer stå sig enormt länge som spel-CPU. Sedan angående detta med att "maxa" så är det enormt beroende vilket spel och vilken upplösning som menas. Ingen (tror jag) köper en topp CPU, parar den med en 2080Ti och lirar spel i 720p.

Rapportera Redigera

Citera flera Citera (1)

2020-05-20 00:01

Permalänk

sesese

Medlem ★

Plats: jönköping
Registrerad: Mar 2007

●

Skrivet av Novdid:

Jag tror nog att 9900K kommer stå sig enormt länge som spel-CPU. Sedan angående detta med att "maxa" så är det enormt beroende vilket spel och vilken upplösning som menas. Ingen (tror jag) köper en topp CPU, parar den med en 2080Ti och lirar spel i 720p.

Gå till inlägget

Förhoppningsvis så kommer 3080ti klara 2K utan att gå under 144MHz med en bra CPU. Frågan är om 9900K orkar leverera med mycket ögon godis på.

I swclockers test så ser man att inte ens en oc 8700K orkar med ett 2080ti fullt ut. Ska då kommande 3080ti vara +50% snabbare mot 2080ti då kommer det bli jobbigt även för 9900K.

Skulle vara intressant att höra hur sweclocker fundera inför de nya grafikkortet. Blir det intel igen men med 10/20 eller 18/36. Intels 10/20 som toppar 5,3GHz tror jag på om inte AMDs kommande 4000 blir +15% prestanda mot 3000 serien.

Min bedömning är att det bli en CPU med Max 12/24 då det fortfarande finns spel som är dåligt optimerade för fler kärnor.

Visa signatur

Ryzen 5800X ROG STRIX X570-f GAMING FlareX DDR43600 cl 14-14-14-34 EVGA FTW3 Ultra RTX 3090

Rapportera Redigera

Citera flera Citera

2020-10-17 14:04

Permalänk

Fulci

Medlem ★

Registrerad: Jun 2003

●

Nvidia bygger världens snabbaste AI center "Leonardo" med italienska Cineca
https://nvidianews.nvidia.com/news/cineca-to-build-worlds-fas...

"The new “Leonardo” system, built with Atos, is expected to deliver 10 exaflops of FP16 AI performance to enable advanced AI and HPC converged application use cases. Featuring nearly 14,000 NVIDIA Ampere architecture-based GPUs and NVIDIA® Mellanox® HDR 200Gb/s InfiniBand networking, Leonardo will propel Italy as the global leader in AI and high performance computing research and innovation."

Rapportera Redigera

Citera flera Citera (1)

Nvidias Ampere-arkitektur gör premiär i datacenterkortet A100

Externa nyheter

Spelnyheter från FZ