Bästa grafikkortet för maskin-inlärning till rimligt pris

Permalänk

Bästa grafikkortet för maskin-inlärning till rimligt pris

Jag är inte så road av spel (förutom schack) men mer intresserad av andra beräkningar man kan göra på grafikkort. Maskin-inärning använder tydligen INT8 eller FP16 så det handlar om bra prestanda där. Det är gott om CUDA-program så det talar för Nvidia. Men Vega har bra prestanda så det talar för AMD. Synpunkter?

Permalänk
Medlem

Jag anser att det är precis som du själv är inne på: Det finns massor av stöd redan för Nvidia och CUDA men AMD är nog mer bang for the buck. Dock framöver med Vega 20 ser det ju ut som att AMD kanske till och med slår Nvidia på fingrarna prestanda mot prestanda - men fortfarande med problemet med AMD att det saknas bra och utbrett stöd.

Så är du skapligt ny skulle jag lätt gå på Nvidia.

Om jag har tolkat allt rätt (jag håller inte direkt på med detta) ...

Visa signatur

🟢 Main: Ryzen7 5800X | Strix x470-I | 32GB | RTX2070S | Samsung C49RG9
🔵 unRaid: Ryzen5 2700X | B450M DS3H | 32GB
🟠 Tfn: Google Pixel 7 Lime Green

-:| @ eller citera för svar |:-

Permalänk

Snabb utveckling GTX->RTX

Det har tydligen blivit en stor förändring på FP16 prestanda. Min GTX 1050 Ti ligger på 0.033 TFLOPS och GTX 1080 Ti på 0.177 TFLOPS. RTX 1070 ligger däremot på 15 TFLOPS nästan i klass med Radeon Vega. Den nya Radeon VII ligger på 28 TFLOPS.

Permalänk
Medlem

Då känns det som att AMD is the way to go för prestanda. Får väl väga hur mycket det är värt att använda Nvidia och allt som redan är färdigt för att köra med det gröna laget.

Visa signatur

🟢 Main: Ryzen7 5800X | Strix x470-I | 32GB | RTX2070S | Samsung C49RG9
🔵 unRaid: Ryzen5 2700X | B450M DS3H | 32GB
🟠 Tfn: Google Pixel 7 Lime Green

-:| @ eller citera för svar |:-

Permalänk
Medlem

@Greyguy1948: NVIDIAs 2000-serie har ju Tensor-kärnor som är speciellt gjorda för just AI, där t.ex. 2080 Ti ligger på runt 100 TFLOPS i FP16-prestanda enbart med Tensor-kärnorna. Se t.ex. Wikipedia för lite siffror för de olika modellerna, och NVIDIA för en kort genomgång om hur man använder dem.

Permalänk
Medlem

@perost: Tror du missade det där med rimligt pris som står med i "topic".

Permalänk
Medlem
Skrivet av ToddTheOdd:

@perost: Tror du missade det där med rimligt pris som står med i "topic".

Och vad är rimligt pris då? TS nämner ju t.ex. själv Radeon VII, som får storstryk i FP16-prestanda av vilket kort som helst i 2000-serien. Det är bara att välja den prisnivå som passar.

Permalänk

@perost: Här har vi exempel på TPU:
Tesla T4
Den kostar ca 25 000SEK.
Men jag hittar inte denna info om någon i RTX-serien
FP16 med detta ska vara 8 ggr mer än för FP32
Troligen ger FP16 enligt IEEE ett något annat beräkningsresultat men det påvekar knappast maskin-inlärning.

Permalänk

Tensor cores

RTX 2070

Den har tydligen 288 tensor cores men ingen "reklam" för detta!

Permalänk
Medlem

@Greyguy1948: Se Wikipedia-länken i mitt tidigare inlägg, där framgår hur många Tensor-kärnor varje kort har (fjärde värdet i "Core config") och deras prestanda i olika lägen. Alla nuvarande kort i 2000-serien har som sagt Tensor-kärnor.

Permalänk

Datablad

@perost: Jo jag ser vad du menar. Jag har även försökt få denna info från Nvidias datablad. Men de är tydligen oroliga för någon annan användning än spel. Det kan ju hota tex Tesla T4.....

Permalänk

Anandtech

@Greyguy1948: Anandtech har en del tester här:
Compute & Synthetics GPU tests

Permalänk
Medlem

Intressant att Nvidia mörkar tensor biten.

Jag läste som hastigast någonstans för några dagar sedan att det finns någon kompilator som gör om den vanliga Cuda koden till något som funkar bra på AMD.

Permalänk
Skrivet av Mindboggle:

Intressant att Nvidia mörkar tensor biten.

Jag läste som hastigast någonstans för några dagar sedan att det finns någon kompilator som gör om den vanliga Cuda koden till något som funkar bra på AMD.

Här är en bra artikel om detta:
GPU for machine learning

Permalänk
Medlem

Trots att jag är programmerare själv kan inte säga att jag vet jättemycket om detta område. Något som kan vara intressant är intervjun som Gamers Nexus hade med en nvidia representant där de pratar om fördelarna i RTX-serien, bland annat handlar det om att grafikkortets "tensor-cores" kan (tillsammans med cuda cores) paralellisera INT-operationer och FP-operationer (något som inte tidigare har gått att utföra): https://www.youtube.com/watch?v=sZMKHmJfUmI

Misstänker att detta kan vara av nytta för maskininlärning samt dess prestanda. Allt detta är dock på väldigt låg nivå, och jag känner mig inte tillräckligt påläst för att säga vad som är bäst. Speciellt inte när det kommer till prestanda/krona för ditt specifika syfte.

Visa signatur

Motorola 68020 @ 42Mhz, AGA Grafik, 2MB RAM, 8MB Fast RAM, 2GB eMMC

Permalänk
Moderator
Festpilot 2020, Antiallo
Skrivet av Mindboggle:

Intressant att Nvidia mörkar tensor biten.

De gör de inte. De väljer dock att marknadsföra Ray-tracing istället vilket använder sig av tensor-kärnorna.

Skickades från m.sweclockers.com

Visa signatur

 | PM:a Moderatorerna | Kontaktformuläret | Geeks Discord |
Testpilot, Skribent, Moderator & Geeks Gaming Huvudadmin

Permalänk

Open CL

Skrivet av Mindboggle:

Intressant att Nvidia mörkar tensor biten.

Jag läste som hastigast någonstans för några dagar sedan att det finns någon kompilator som gör om den vanliga Cuda koden till något som funkar bra på AMD.

Ja här är ett exempel:
Från CUDA till Open CL

Permalänk

Hur mycket snabbare med GPU?

Mest data handlar om FP32 tex detta:
Speed-up with GPU
Detta är en äldre XEON med 12 trådar (ca 50% prestanda av dagens 12 trådar). Tesla 2070 ger ca 1 TFLOPS, BW=172 GB/s och minnet 6 GB. Ett billigt kort som GT 1030 ger 1 TFLOPS men BW=17 GB/s och minnet är 2 GB. Äldre billiga kort har i regel alldeles för lite minne....

Permalänk
Medlem
Skrivet av DavidtheDoom:

De gör de inte. De väljer dock att marknadsföra Ray-tracing istället vilket använder sig av tensor-kärnorna.

Tensor-kärnorna används väl inte särskilt mycket för raytracing? Turing har ju dedikerade RT-kärnor som står för den biten, medan tensor-kärnorna är gjorda för AI (se Sweclockers genomgång). 2070 har t.ex. 288 tensor-kärnor och 36 RT-kärnor (en per SM). Det är väl snarare DLSS som NVIDIA använt för att marknadsföra tensor-kärnorna än så länge.

Permalänk

ML in chess

Leela är en schackdator med två grafikkort (senaste info GTX 1080+RTX 2080).
Allt är open source och man kan följa hur det går.
Chess in machine learning

Man kan ladda ner programvara och testa.
En del i bifogat schackforum verkar dock lite väl optimistiska.
Det går att köra på en vanlig PC. Men utan en kraftig GPU verkar det rätt döfött, eller hur?

Permalänk

AMD inom ML

Här testar man tensor flow. Det ser ut att påverkas direkt om man ökar minnet. Vega Frontier är en 64 med 16 GB
http://blog.gpueater.com/en/2018/04/23/00011_tech_cifar10_bench_on_tf13/

Permalänk

Matris-multiplikation

Inom ML brukar matris-multiplikation vara avgörande:
Matrix multiply on GPUs

Prestanda är dock mycket typ "bergochdalbana". Jag gissar att detta har med cachen att göra.
Den är mer sofistikerad på en CPU.

Permalänk
Skrivet av Greyguy1948:

Inom ML brukar matris-multiplikation vara avgörande:
Matrix multiply on GPUs

Prestanda är dock mycket typ "bergochdalbana". Jag gissar att detta har med cachen att göra.
Den är mer sofistikerad på en CPU.

Tensor core + FP16 hjälper om det finns men "bergochdalbanan" blir ännu värre!
Tensor cores and FP16

Permalänk

RTX 2070

Det blev en MSI Ventus RTX 2070 för 5990:-
Igår körde jag Leela Zero ML/DL för schack.
Det går rätt fort med upplärningen- 530 spel/timme.
CPUn är en Ryzen 1700.