Nvidia lanserar kompakta AI-superdatorn DGX Spark

Permalänk
Medlem
Skrivet av evil penguin:

Jag tror ju att huvudpoängen med denna maskin ur Nvidias perspektiv är att det ska vara något slags devkit där man lokalt kan göra utvecklingsarbete med CUDA och öht kunna använda större modeller, och sedan driftsätter på svindyra Nvidia GPUer.

Dvs, CUDA med 128 GB minne till någorlunda överkomligt pris är USPen.
Och att prestandan är "sådär" ingår nog i konceptet just för att ha (jämförelsevis) lågt pris utan att konkurrera med GPU-lösningarna.

(Vad gäller FP4 så har det tidigare diskuterats lite i tråden, och stöd för FP4 med tillhörande prestandaförbättring läggs nog fram som en feature jämfört äldre plattform, snarare än att det bara är orättvist)

Jo, menar inte att det är orättvist som så, mer lite som att de kunde ha haft två rader där de visar att tidigare DGX inte hade stöd för FP4 medan nya har inte bara utmärkt FP4 men gissningsvis okej-ish FP16. I PDF jag länkade gjorde de så i jämförelse mot tidigare generation av GPUs som bara inte har dedikerade pipelines för FP4. Och ja, att det har devkit karaktär känns rätt tydligt, jag antar att det finns en nisch för att köra stora modeller i FP4, eller så vill de hacka ut en sådan nisch att sälja produkter i?

Visa signatur

Gamingrigg: MEG x570 ACE, 5950X, Ripjaws V 32GB 4000MT/S CL16, 6800XT Red Devil LE, HX1200i.
Laptop: XPS 9570 x GTX 1050 x 8300h + 16GB Vengeance 2666Mhz + Intel AX200
Valheim server: i7-8559 + Iris Plus 655 + 32GB + 256GB
Printers? Yes. Ender 5, Creality LD-002R, Velleman VM8600, Velleman K8200

Permalänk
Medlem
Skrivet av evil penguin:

För tydlighets skull så verkar det ju vara en lösning specifikt avsedd för att kunna stacka två sådana där burkar, snarare än att det är tänkt för allmänt nätverkande (utesluter inte att det senare är möjligt).
Nånting nånting Nvidia ConnectX nånting RDMA nånting

Så kan det vara.
Nvidia köpte upp Mellanox som skapade den äldre Infiniband standarden. ConnectX är ett varumärke som följt med där.

Visa signatur

Fractal Design Define R6, ASUS X99-E, Xeon E5-2697v3@3.5Ghz allcore, 64gb Hynix ECC REG 2133Mhz, rtx3090, 10gbe nic

Main Server: Proxmox med Truenas och annat virtuellt: Thinkstation P710 - 256gb RAM, Xeon 2697v3, 3xTesla P4 etc + 10gbe Nic

Permalänk
Datavetare

Nu är detta en väldigt nischad produkt, precis som nämnts i tråden lär huvudpoängen vara en CUDA (programvaran) kapabel lab-maskin där man kan experimentera till än lägre kostnad än de rätt svindyra Nvidia GPU datacenter-instanserna som finns.

Denna är för att tweak:a, för att sedan köra på big-iron GPUer.

Det sagt, ändå kul att se hur denna plattform står sig jämfört med t.ex. Ryzen 395 på CPU-sidan. Ser ut att vara väldigt jämt

https://browser.geekbench.com/v6/cpu/compare/14437985?baselin...

Nvidias GPU är bättre på t.ex. kompilering, medan Ryzen drar ifrån i fall som är AVX/AVX-512 optimerade (DGX Spark kör Arm X925/A725 som båda saknar SME2, det finns i årets Arm CPUer som lanserades förra månaden).

DGX Spark känns lite "meh" CPU-mässigt nu när både Qualcomm och Arm avtäckt nya modeller, som båda når nästan 4000 poäng i ST när de sitter i mobiler. Förseningen för DGX Spark så Arm han få ut en ny generation kapade en hel del av wow-faktorn...

Det jag ändå ser som viktigt att ha med sig med DGX Spark är att det är en produkt som specifikt är designad för att köra Linux!!! Den Linux den kommer med har jag förstått rätt mycket är Ubuntu Server, fast med alla drivers för plattformen förinstallerat + ett gäng CUDA-verktyg förinstallerat.

Statistiskt "ingen" kör dessa arbetslaster på Windows, så avsaknad av Windows-stöd är långt mindre viktigt än att veta att man får första klassens Linux-stöd. Sen kommer ju rätt mycket samma SoC för Windows längre fram, Nvidia/Mediatek ska ju göra en laptop-plattform (där kanske man kapat en del av 10+10 kärnorna, vi får se).

Skrivet av superapan:

Förhandstittarna visar på usel prestanda jämfört med både alternativ från Apple och AMD. Läser jag Redditposten korrent nedan är AMD 395 "AI PLUS MAX" (eller vad den heter) typ 4 ggr snabbare än DGX Spark för t.ex gpt-oss-120B (och då i nivå med RTX 3090).

https://www.reddit.com/r/LocalLLaMA/comments/1o6163l/dgx_spar...

Men man kanske vill betala för ekosystemet.

Endera har den personen gjort något misstag, alt. så är det något som gör prestandan sämre i pre-produktions versionen (han säger att det är sådan han har). I L1Techs review testas samma fall med rätt mycket bättre prestanda

Sen är det tyvärr så att den viktigare delen av detta, kapaciteten att generera tokens till svaret, är primärt begränsat av bandbredd så pass att det rätt mycket går att räkna ut vilken prestanda man kommer få när drivers/programvaran nått OK nivå.

Där är L1-Techs "bara" 2,4 gånger snabbare än reddit-resultatet. Att läsa in prompten, prefill, är L1-Techs resultat nästan 17x högre (dock svårt att se detta vara något stor flaskhals i praktiken, typiskt är svaret betydligt längre än frågan).

För de som inte använder DGX Spark specifikt för att testa CUDA-saker blir då denna lite "meh". För liknande prislapp kan man få MacStudio med M4 Max som har mer än dubbla RAM-bandbredden, eller för betydligt lägre prislapp man kan få Strix Halo (och MacMini med M4 Pro, då max 64 GB) där RAM-bandbredd är likartad.

Skrivet av Thermion:

Rent spontant så känns produkten dyr, för vad du får. Då du kan köpa konkurrentens (AMD) för halva priset, och du får x86 processor istället för ARM.

Mjukvaran till AMD's ekosystem utvecklas väldigt fort. AMD har blivit partner med Open AI dessutom som kommer hjälpa dem med mjukvaran.

Och det här väl anledningen till att Nvidia investerade i Intel, för att kunna köra ett Intel(x86)/Nvidia chip. Det lär komma om något år.

Jag hoppas ha råd med en sån här produkt i framtiden..

Värt att veta kring AMD här är att de primärt pushar HIP. I nuläget saknar Ryzen 395 AI MAX stöd för HIP, ollama går ändå att köra då det också finns en Vulkan-baserad back-end.

Tycker mognadsgrad på programvaran fortfarande är: Nvidia är #1, Apple klar #2. AMD har bättre stöd än Intel förutsatt att man har en AMD GPU som stöds. Intel stödjer typ alla deras GPUer lanserade senaste generationerna, men fick greja rätt mycket för att komma igång med deras programvara ihop med Xe2 på en NUC med U5 225H.

Är helt trivialt att komma igång med Nvidia/CUDA på Linux, likaså att komma igång med M-serie kretsarna på MacOS.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Permalänk
Medlem

Den borde har hetat DGX Spork istället. Kan det mesta men är inte bra på något.

Visa signatur

R&D Elektronik & Radioingenjör

Permalänk
Medlem
Skrivet av Yoshman:

Värt att veta kring AMD här är att de primärt pushar HIP. I nuläget saknar Ryzen 395 AI MAX stöd för HIP, ollama går ändå att köra då det också finns en Vulkan-baserad back-end.

ROCm-stöd finns ju för Ryzen 395 nu, men förbättringspotentialen är stor.

Permalänk
Medlem
Skrivet av Yoshman:

Värt att veta kring AMD här är att de primärt pushar HIP. I nuläget saknar Ryzen 395 AI MAX stöd för HIP, ollama går ändå att köra då det också finns en Vulkan-baserad back-end.

Menar du på Linux då, för trodde support fanns på Windows sedan ett tag, snabb googling verkar antyda det med, har inte koll på hur det ser ut i Linux men ser att i preview iallafall av 7.0.2 finns Ryzen AI listade .

Visa signatur

Gamingrigg: MEG x570 ACE, 5950X, Ripjaws V 32GB 4000MT/S CL16, 6800XT Red Devil LE, HX1200i.
Laptop: XPS 9570 x GTX 1050 x 8300h + 16GB Vengeance 2666Mhz + Intel AX200
Valheim server: i7-8559 + Iris Plus 655 + 32GB + 256GB
Printers? Yes. Ender 5, Creality LD-002R, Velleman VM8600, Velleman K8200

Permalänk
Medlem
Skrivet av Ryzer:

50k dyrt? Vi betalar mer i licensavgifter per dator/år än det...

Okej, och med den här datorn slipper ni dom kostnaderna...eller? Varför tyckte du det var en relevant jämförelse?

Permalänk
Datavetare

Fick läsa på om FP4-varianterna för att ens förstå hur det alls kan fungera med 4 bitar, 1 för ±, 2 för exponent, 1 för mantissa

Det som gör FP4/FP8 bättre än INT4/INT8 i många ML-fall är att man får större numeriskt intervall med FP på samma utrymme.

Sen är det ändå rejäla begränsningar med FP4/INT4, något som i praktiken löses med att man har en FP8/FP16 skalning per block (block är typiskt 8, 16, 32 stycken FP4 värden) så faktiskt värdet blir

skalfaktor * FP4n

Stora USP för DGX Spark här är att den har HW-stöd för FP4 och användandet av detta är kritiskt för att delvis komma runt den rätt begränsade bandbredden mot RAM. Strix Halo verkar stöda FP8, men inte FP4. Apples M3/M4 går bara ned till FP16 (vi lär se i alla fall FP8 i M5, som ser ut att släppas nu i oktober) och tappar därmed en del av sin fördel med högre RAM-bandbredd när man använder FP4/FP8-modeller.

Skrivet av Mr.f:

ROCm-stöd finns ju för Ryzen 395 nu, men förbättringspotentialen är stor.

Skrivet av Shiprat:

Menar du på Linux då, för trodde support fanns på Windows sedan ett tag, snabb googling verkar antyda det med, har inte koll på hur det ser ut i Linux men ser att i preview iallafall av 7.0.2 finns Ryzen AI listade .

Det positiva är att man överhuvudtaget kan köra ROCm/HIP på APUer, det gick inte alls tidigare men ändrades hyfsat nyligen (slutet av förra året eller början av detta år).

Tyvärr stöds inte ROCm officiellt, status för 80x0S (GPU i Strix Halo) är "preview" där man säger att vissa funktioner saknas eller fungerar inte som de ska. Dessa konsument GPUer stöd officiellt i senaste ROCm-versionen

Det går ändå åt rätt håll. Exempel på saker som faktiskt går att köra nu är Ollama och Blender. Problemet är att även när det fungerar är inte prestanda där den borde. Phoronix har testat Ollama på Strix Halo, fungerar med HIP/ROCm men Vulkan-back:end presterar bättre. L1-techs jämför DGX Spark och Strix Halo i slutet i videon länkad i tråden, han lyfter det som en klar fördel för DGX Spark att man där kan köra samma CUDA-ramverk som i datacenter, medan Strix Halo använder Vulkan medan datacenter kör HIP.

I Blender underpresterar det rejält, 890M borde ligga jämt med 140V (iGPU i Lunar Lake/Arrow Lake) och 8060S borde ligga jämt med M4 Pro.

Vi lär få in resultat i Blender-databasen för DGX Spark rätt snart. Är ju inte detta den är designad för, men laster likt Blender är inte alls lika bandbreddskrävande som stora LLMs. DGX Spark har rätt mycket en lägre klockad 5070 med rejält lägre bandbredd mot RAM, kanske realistiskt att förvänta sig laptop 5070 prestanda i denna typ av last?

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Permalänk
Medlem
Skrivet av Xeonist:

Okej, och med den här datorn slipper ni dom kostnaderna...eller? Varför tyckte du det var en relevant jämförelse?

För att det är en väldigt liten utgift i sammanhanget.

Visa signatur

''Man får betala för kvalitet och stabilitet'' //Pantburk 2024.
Poor 9800X3D + RTX 5090 user.

Permalänk
Skrivet av Covetous:

Jag vill ha en. Måste bara komma på en stark nog motivering att skaffa en.

Jag tyckte du hade en stark motivering till varför redan i första meningen

Visa signatur

If it ain't broken: tweak it...
folding@home

Permalänk
Medlem
Skrivet av Yoshman:

Det positiva är att man överhuvudtaget kan köra ROCm/HIP på APUer, det gick inte alls tidigare men ändrades hyfsat nyligen (slutet av förra året eller början av detta år).

Tyvärr stöds inte ROCm officiellt, status för 80x0S (GPU i Strix Halo) är "preview" där man säger att vissa funktioner saknas eller fungerar inte som de ska. Dessa konsument GPUer stöd officiellt i senaste ROCm-versionen

Nej jag hoppas det fortsätter förbättras och kommer en icke-preview snart. Jag kör just nu ROCm 6.4.4 och lemonade server på min strix halo, och det funkar men har inte lyckats ladda större modeller än ~20 Gb (Osäker just nu om det är ROCm eller lemonade som är problemet pga avsaknad av felmeddelanden, men riktigt stabilt är det inte). NPUn stöds inte på linux än heller.

Verkar ändå som att det jobbas ganska aktivt, bara nu ser jag att AI max 300-serien fått preview-stöd i ROCm 7.0.2 också. Det saknades så sent som förra veckan om jag inte missade nåt.