John Carmack om DGX Spark: halv prestanda och överhettar

Permalänk
Melding Plague

John Carmack om DGX Spark: halv prestanda och överhettar

Programmerar-ikonen ifrågasätter Nvidias nya AI-accelerator - halverad effekt och kraschar under långkörning.

Läs hela artikeln här

Visa signatur

Observera att samma trivselregler gäller i kommentarstrådarna som i övriga forumet och att brott mot dessa kan leda till avstängning. Kontakta redaktionen om du vill uppmärksamma fel i artikeln eller framföra andra synpunkter.

Permalänk
Skribent

Ärligt talat hade jag förväntat mig mer av Nvidia. Visst att de kan köra med tvivelaktig marknadsföring i spelsegmentet av produkter, men att de kör fulspel när det kommer till arbetsrelaterad utrustning, det känns som att leka med elden. Rykte är minst lika viktigt som produkten på denna nivå.

Visa signatur

< R5 7600X | 32 GB 6000 MT/s | RX 9070 XT >

< Redmi Note 14 Pro | Redmi Pad SE 11" >

Permalänk
Medlem

Nvidia... Falsk marknadsföring och utvalda prestandasiffror?? Nej,,, Inte då.. Nu har jag väl ändå hört allt..

Visa signatur

Teknik är en drog..
Förövrigt anser jag att Carthago borde ödeläggas.

Permalänk
Medlem

Jensen! Fram med stapeldiagramet nu och visa att det stämmer.

Permalänk
Medlem
Skrivet av Yatagarasu:

Ärligt talat hade jag förväntat mig mer av Nvidia. Visst att de kan köra med tvivelaktig marknadsföring i spelsegmentet av produkter, men att de kör fulspel när det kommer till arbetsrelaterad utrustning, det känns som att leka med elden. Rykte är minst lika viktigt som produkten på denna nivå.

Efter att ha "pysslat" med Nvidia Jetson är jag inte direkt förvånad. Konstanta problem med boot och överhettning även där. Kunde packa upp en ny enhet från fabrik och inom 30 restarts kunde den fastna i boot-loop eller visa det vaga och frustrerande internal error-neddelandet.
Jetson slängdes ut efter drygt ett år av försök, tester och katastrofal support av Nvidia. Byttes mot SOC-modul från tysk tillverkare och egensnickrat moderkort.
Och med pysslat menar jag projekt strax norr om 40milj och många enheter i potentiellt inköp, trots det var det omöjligt att få Nvidia att försöka hjälpa till att lösa problemen. Detta var pre-covid så kanske de fixat problemen med Jetson-platformen...har inte vågat ge mig i den sörjan igen.

Visa signatur

MSI K9N SLI Diamond | MSI Diamond HDMI 7600GT | AMD X2 4200+ | 1GB Kingston HyperX| 32" LG 5000:1 screen | Asus EeePC 701

Permalänk
Medlem

Va? Ett vinstdrifande företag med monopolställning gör fulspel? Hade alsrig trot det.

Visa signatur

GamingRig: Cooler Master NR200P/ASUS ROG STRIX B550-I GAMING/AMD Ryzen 5 5700G/Noctual NH-D12L/ASUS PRIME Radeon RX 9070 OC 16GB/Corsair SF750 Platinum/Kingston Fury Beast 2x16GB 3600MHz CL18/

Permalänk
Medlem

Får man säga lol

Visa signatur

Spelar spelet väldigt väl.

Permalänk
Medlem

Carmack ger DGX en spark🦶 😏
Synd att den ska överhetta, det verkade så intressant med sin FP4 beräkningsstöd, kanske går att lösa med bättre kylning?

Annat alternativ som Wendell delade med sig igår var att istället ha 2 st eller 4 st Radeon Pro 9700 32GB körandes under Linux med vLLM, verkar fungera ganska bra i hans test med 2 st.
Prismässigt så hamnar 4 st i typ samma klass som ett DGX, men redan vid 2st Pro 9700 så presterar de som ett 5090, dock med dubbla minne.

Annars verkar Strix Halo fortfarande vara den smidigare och billigare lösning, och till synes mindre problematisk. Bra med alternativ dock!

Permalänk
Skrivet av HappyPie:

Carmack ger DGX en spark🦶 😏
Synd att den ska överhetta, det verkade så intressant med sin FP4 beräkningsstöd, kanske går att lösa med bättre kylning?

Annat alternativ som Wendell delade med sig igår var att istället ha 2 st eller 4 st Radeon Pro 9700 32GB körandes under Linux med vLLM, verkar fungera ganska bra i hans test med 2 st.
Prismässigt så hamnar 4 st i typ samma klass som ett DGX, men redan vid 2st Pro 9700 så presterar de som ett 5090, dock med dubbla minne.

Annars verkar Strix Halo fortfarande vara den smidigare och billigare lösning, och till synes mindre problematisk. Bra med alternativ dock!

Prisvärd men inte så energivärd:
https://www.phoronix.com/review/amd-radeon-ai-pro-r9700

Permalänk
Medlem

Den var ju redan kraftigt försenad, och nu verkar man fått veta åtminstone en av anledningarna.

Visa signatur

MSI MPG X870E Carbon WiFi| AMD Ryzen 9 9800X3D@5,4 GHz locked| MSI MAG Coreliquid A15 360| WD Black SN850X 1TB + WD Black SN850X 2TB| Corsair Vengeance, DDR5-6600 64GB (2 x 32GB) @6400MHz CL 30-37-37-50| MSI RTX 4090 Suprim X| Asus ROG PG32UCDM QD-OLED| MSI MPG A1000G PCIE5 1000W| Lian Li O-11 EVO|

Permalänk
Redaktion
Teknikredaktör
Skrivet av HappyPie:

Carmack ger DGX en spark🦶 😏
Synd att den ska överhetta, det verkade så intressant med sin FP4 beräkningsstöd, kanske går att lösa med bättre kylning?

Annat alternativ som Wendell delade med sig igår var att istället ha 2 st eller 4 st Radeon Pro 9700 32GB körandes under Linux med vLLM, verkar fungera ganska bra i hans test med 2 st.
Prismässigt så hamnar 4 st i typ samma klass som ett DGX, men redan vid 2st Pro 9700 så presterar de som ett 5090, dock med dubbla minne.

Annars verkar Strix Halo fortfarande vara den smidigare och billigare lösning, och till synes mindre problematisk. Bra med alternativ dock!

Det finns ett antal partnertillverkare, så det ska bli intressant att följa och se om det är specifikt Nvidias egna modell som dras med dessa problem.

Permalänk
Medlem
Skrivet av Yatagarasu:

Ärligt talat hade jag förväntat mig mer av Nvidia. Visst att de kan köra med tvivelaktig marknadsföring i spelsegmentet av produkter, men att de kör fulspel när det kommer till arbetsrelaterad utrustning, det känns som att leka med elden. Rykte är minst lika viktigt som produkten på denna nivå.

Jag är mer trött på Nvidia än många men håller med här, att bara inte leverera prestandan alls är inte typiskt dem, och de brukar ju inte vara rädda för att fläska på med värme och effekt precis, och de har defintivt förmågan att bygga bra kylare vide behov Kan vara problem annat än ren hårdvara, skulle inte alls bli förvånad om de klantat sig med mjukvaran.

Skrivet av Opatagio:

Efter att ha "pysslat" med Nvidia Jetson är jag inte direkt förvånad. Konstanta problem med boot och överhettning även där. Kunde packa upp en ny enhet från fabrik och inom 30 restarts kunde den fastna i boot-loop eller visa det vaga och frustrerande internal error-neddelandet.
Jetson slängdes ut efter drygt ett år av försök, tester och katastrofal support av Nvidia. Byttes mot SOC-modul från tysk tillverkare och egensnickrat moderkort.
Och med pysslat menar jag projekt strax norr om 40milj och många enheter i potentiellt inköp, trots det var det omöjligt att få Nvidia att försöka hjälpa till att lösa problemen. Detta var pre-covid så kanske de fixat problemen med Jetson-platformen...har inte vågat ge mig i den sörjan igen.

Väldigt intressant, har vart tjänsteledig i ett par år men innan jag gick hölls det på att starta ett projekt som väntade lite på att en jetson-baserad server för ansiktsigenkänning skulle bli leveransklar, jag förvarnade dem om att jetson tenderar att vara svåra att få tag i konsekvent om man inte vet vilken modell som kommer vara den typ enda ur varje generation som faktiskt finns i lager i några år, men visste inte att det skulle vara problem med produkterna i sig. Tror det var någon advantech-variant och iallafall när jag haft att göra med advantech längre bak i tiden var deras hårdvara solid så man kan ju hoppas att det funkar om man bara köper av någon tillverkare som vet hur man bygger industrial-embedded.

Jävligt nyfiken att se hur det har gått, börjar jobba igen om några månader efter typ 3.5 år borta, misstänker att de kanske behövt hitta något som är mer pålitligt och tillgänglig än att stoppa in Jetsons överallt i stora maskiner med stora elmotorer som ska vara igång 24/7

Visa signatur

Gamingrigg: MEG x570 ACE, 5950X, Ripjaws V 32GB 4000MT/S CL16, 6800XT Red Devil LE, HX1200i.
Laptop: XPS 9570 x GTX 1050 x 8300h + 16GB Vengeance 2666Mhz + Intel AX200
Valheim server: i7-8559 + Iris Plus 655 + 32GB + 256GB
Printers? Yes. Ender 5, Creality LD-002R, Velleman VM8600, Velleman K8200

Permalänk
Medlem
Citat:

It gets quite hot even at this level, and I saw a report of spontaneous rebooting on a long run

Skall vi tolka det som att om Nvidias grejer krashar en gång (enligt hörsägen i detta fall) så måste det vara ett designflaw. Visst är det bra med högt ställda krav...

Visa signatur

- 5090

Permalänk
Medlem

Spännande såpa. Carmack har nu fått en Strix Halo av Framework.

https://www.tomshardware.com/tech-industry/semiconductors/use...

Visa signatur

snorleffe

Permalänk
Medlem
Skrivet av Lussarn:

Skall vi tolka det som att om Nvidias grejer krashar en gång (enligt hörsägen i detta fall) så måste det vara ett designflaw. Visst är det bra med högt ställda krav...

Kraschar för att den blir för varm...När den drar 100W... på en rating av 240W. Ja det låter som design flaw.

Menar du att det va ett undantag som vi inte behöver bry oss om?

Permalänk
Medlem
Skrivet av Shiprat:

Jag är mer trött på Nvidia än många men håller med här, att bara inte leverera prestandan alls är inte typiskt dem, och de brukar ju inte vara rädda för att fläska på med värme och effekt precis, och de har defintivt förmågan att bygga bra kylare vide behov Kan vara problem annat än ren hårdvara, skulle inte alls bli förvånad om de klantat sig med mjukvaran.

Väldigt intressant, har vart tjänsteledig i ett par år men innan jag gick hölls det på att starta ett projekt som väntade lite på att en jetson-baserad server för ansiktsigenkänning skulle bli leveransklar, jag förvarnade dem om att jetson tenderar att vara svåra att få tag i konsekvent om man inte vet vilken modell som kommer vara den typ enda ur varje generation som faktiskt finns i lager i några år, men visste inte att det skulle vara problem med produkterna i sig. Tror det var någon advantech-variant och iallafall när jag haft att göra med advantech längre bak i tiden var deras hårdvara solid så man kan ju hoppas att det funkar om man bara köper av någon tillverkare som vet hur man bygger industrial-embedded.

Jävligt nyfiken att se hur det har gått, börjar jobba igen om några månader efter typ 3.5 år borta, misstänker att de kanske behövt hitta något som är mer pålitligt och tillgänglig än att stoppa in Jetsons överallt i stora maskiner med stora elmotorer som ska vara igång 24/7

Du får gärna återkoppla hur det gått, är nyfiken jag med.
Användningsområdet för vår del var väldigt känsliga system, dvs risk för liv och lem i vissa situationer varpå Jetson för ca 5 år sedan inte var pålitligt nog i sådan miljö.

Visa signatur

MSI K9N SLI Diamond | MSI Diamond HDMI 7600GT | AMD X2 4200+ | 1GB Kingston HyperX| 32" LG 5000:1 screen | Asus EeePC 701

Permalänk

Varför skulle Nvidia göra så här? Har de inte kollat Apple och deras lyckade Macbook modeller.

Permalänk
Medlem
Skrivet av Dinkefing:

Varför skulle Nvidia göra så här? Har de inte kollat Apple och deras lyckade Macbook modeller.

#21023181

Eller är du sarkastisk?

Visa signatur

snorleffe

Permalänk
Medlem

Känns ju onekligen som Nvidia varit stressade när dom tog fram den här produkten. Den är ju trots allt försenad.

Känns som AMD's motsvarighet Ryzen AI 395+ Max är ett mognare alternativ. Har sett att deras ROCm programvara börjar mogna också och fungerar på både linux och windows out of the box.

Permalänk
Skrivet av snorleffe:

#21023181

Eller är du sarkastisk?

Varför skulle jag vara det? Att självaste Carmack inte är nöjd med den säger mycket.

Visst var inte RTX 50-serien blivit jättehyllad heller direkt men Nvidia borde sett till att Spark blivit en succé inget annat! Blir lite som Apple och deras Vision Pro även om det i första fallet handlar om prestandan.

Permalänk
Datavetare
Skrivet av HappyPie:

Carmack ger DGX en spark🦶 😏
Synd att den ska överhetta, det verkade så intressant med sin FP4 beräkningsstöd, kanske går att lösa med bättre kylning?

Annat alternativ som Wendell delade med sig igår var att istället ha 2 st eller 4 st Radeon Pro 9700 32GB körandes under Linux med vLLM, verkar fungera ganska bra i hans test med 2 st.
Prismässigt så hamnar 4 st i typ samma klass som ett DGX, men redan vid 2st Pro 9700 så presterar de som ett 5090, dock med dubbla minne.

Annars verkar Strix Halo fortfarande vara den smidigare och billigare lösning, och till synes mindre problematisk. Bra med alternativ dock!

Det som är väldigt märkligt här är avsändaren, hur kan någon som Carmack misslyckas att läsa innantill?

Enligt produktbladet har PSU, inte kretsen, en maximal kapacitet på 240 W. Rätt uppenbart att GPU-delen då inte kan dra i närheten av några 240 W.

TDP för hela SoC är 140 W, så verkar rätt rimligt att GPUn då kan dra ~100 W, det lämnar inte jättemycket till övers för 10+10 CPU-kärnor, RAM, NICs, etc.

Är helt med på att det är förvirrande när GPU-företagen hävdar en viss nivå för "AI-prestanda", för det handlar nästan alltid om prestandan "with sparse matrices" och är specifikt för detta som DGX Spark kan nå 1 PFLOP FP4.

Rimligen fungerar denna krets precis som övriga Blackwell-kretsar, i så fall är teoretiskt max hälften för "dense matrices". Fråga här är hur mycket av de LLMs som många kommer köra faktiskt ser någon relevans från "sparse" kapaciteten (är en genuin fråga, fått känslan av att dessa INTE typiskt ger sparse-matriser, men finns fall där det är relevant)?

Skrivet av Thermion:

Känns ju onekligen som Nvidia varit stressade när dom tog fram den här produkten. Den är ju trots allt försenad.

Känns som AMD's motsvarighet Ryzen AI 395+ Max är ett mognare alternativ. Har sett att deras ROCm programvara börjar mogna också och fungerar på både linux och windows out of the box.

Nvidias track-record är lite märkligt givet hur extremt väl de exekverar på sina GPUer samtidigt som de så ofta snubblat rejält kring exekvering av deras systemkretsar. Helt klart har de haft problem med DGX Spark, något som gjort att den inte alls känns lika spännande vid lansering (denna marknad rör sig extremt snabbt just nu).

Sen skulle jag definitivt INTE kalla Ryzen AI 395+ Max för ett "mognare alternativ". Det är precis som det mesta version 1.0 från AMD en produkt där kunderna i praktiken är beta-testare. Precis som vanligt är det riktigt bra HW, som kraftigt begränsas av programvara.

Men det går absolut åt rätt håll! I förra veckan lanserades första versionen av PyTorch som har någorlunda officiellt stöd för AMD och Intel GPUer. Tidigare har det i praktiken varit så att man fått CPU-stöd + CUDA-stöd på Linux och Windows, samt CPU + Metal-stöd på MacOS. Resten har varit diverse hack för att köra något annat.

ROCm har under året gått från att överhuvudtaget inte stödja APUer till att nu verkar fungera helt OK. Dock är stödet fortfarande i "preview" enligt AMD själva, det finns saker som inte fungerar än. Llama fungerar riktigt bra p.g.a. att det utöver AMDs HIP (som är deras direkta svar på CUDA) också kan använda Vulkan. Men det mesta, som PyTorch, Tensorflow och liknande behöver HIP.

Den viktigaste fördelen DGX Spark har är just att den kan luta sig på mjukvarustacken som är de-facto standard i branschen. Närmast realistiska konkurrent, för professionellt arbete där man måste sätta ett pris på tid, är i nuläget Apple.

Linux är default-valet här, att Apple ens kan vara ett realistiskt val är att väldigt mycket idag finns både till Linux och MacOS då barriären att porta mellan dessa två är klart mindre än att gå mellan Linux och Windows.

Men det är en barriär och för vissa saker är det inte ett alternativ att köra något annat än Linux. Positiva är att vi ser ut att få ett bredare stöd inom detta område. Tror både Medusa Halo (efterföljaren till Strix Halo) och Intels motsvarande med Celestial+Nova Lake kan bli riktigt fina utmanare till Nvidia. Men än så länge är allt icke-CUDA tyvärr lite för mycket "hobbynivå".

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer