Nvidia DGX och Mac Studio dunderduo för lokal AI

Permalänk
Melding Plague

Nvidia DGX och Mac Studio dunderduo för lokal AI

EXO Labs visar nyttan av att kombinera två datorer optimerade för väldigt olika uppgifter.

Läs hela artikeln här

Visa signatur

Observera att samma trivselregler gäller i kommentarstrådarna som i övriga forumet och att brott mot dessa kan leda till avstängning. Kontakta redaktionen om du vill uppmärksamma fel i artikeln eller framföra andra synpunkter.

Permalänk

Årets julklapp?
Förr i tiden var ofta årets julklapp väldigt nya saker som långtifrån alla hade råd med. Som mobiltelefon 1994, cd skivan 1995, dvd 2000, platttv 2004.
Och dator för lokal AI är lite på samma nivå. Kanske inte riktigt ännu men om några år.

Det jag främst hoppas med dagens AI speciellt LLM är att de fortsätter utvecklas, de blir mer lättkörd eller hårdvaran billigare. Många pratar på att LLM som den är byggd idag aldrig kommer bli AGI (Artificial General Intelligence) och det stämmer. Men de måste ju börja någonstans och gärna någonstans som folk vill betala för att använda. Lite som att folk skulle säga till de som utvecklade spelen doom, wolfenstein att deras grafikmotor aldrig kommer utvecklas till fotorealistiskt grafik och de istället borde satsa sin tid på en grafikmotor som klarar detta.

Permalänk
Medlem

Varför testa så liten modell och bara generera 32 tokens? Varför inte testa största modellen som får plats med en längre output?

Permalänk
Medlem
Skrivet av seraj5:

Varför testa så liten modell och bara generera 32 tokens? Varför inte testa största modellen som får plats med en längre output?

Väldigt bra fråga. Jag tänker att det bör ju ha tagit tid att få iordning allt så varför inte köra på ordentligt innan man skickar ut benchmarks. Kanske finns någon anledning till det som jag inte förstår mig på.

Visa signatur

Fujitsu M740n | Xeon E5-2699v3 | 196GB RAM
Nvidia P2000 | 2.5TB SSD | 10TB HDD | HA Skyconnect
Proxmox | Opnsense | UbuntuServer | Homeassistant
Citera gärna om du vill ha svar!

Permalänk
Datavetare

Så DGX spark lär kunna användas till en hel del spännande saker, men just LLMs kanske blir lite kämpigt p.g.a. låg bandbredd mot RAM om man inte bara vill ha "ja/nej" svar...

Sen visar detta just hur effektiv "rätt" kisel är i vissa specifika uppgifter. Innan M5 verkar M-serien rätt mycket sakna "Tensor-cores", när dessa kommer till sin rätt så ger de rejäl utväxling. M5 verkar fått någon form av Tensor-kärnor, vilket lär förklara att just prompt-processing är upp till 4x snabbare där jämfört med generationen innan.

Skrivet av seraj5:

Varför testa så liten modell och bara generera 32 tokens? Varför inte testa största modellen som får plats med en längre output?

Just generering av endast 32 token är något jag reagerat på också. Inte specifikt här, utan det verkar blivit någon form av standard gissningsvis då bl.a. llama-bench har ett sådan fall inbyggt.

8192 tokens kontext känns fullt rimligt, blir ju snabbt så att man kommer till maxstorlek där.

Att mäta generering av 32 tokens känns rätt märkligt, gjorde ett par frågor till ChatGPT och de flesta svar är >1000 tokens!

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Permalänk
Medlem
Skrivet av seraj5:

Varför testa så liten modell och bara generera 32 tokens? Varför inte testa största modellen som får plats med en längre output?

Skrivet av r80x:

Väldigt bra fråga. Jag tänker att det bör ju ha tagit tid att få iordning allt så varför inte köra på ordentligt innan man skickar ut benchmarks. Kanske finns någon anledning till det som jag inte förstår mig på.

Skrivet av Yoshman:

Just generering av endast 32 token är något jag reagerat på också. Inte specifikt här, utan det verkar blivit någon form av standard gissningsvis då bl.a. llama-bench har ett sådan fall inbyggt.

8192 tokens kontext känns fullt rimligt, blir ju snabbt så att man kommer till maxstorlek där.

Att mäta generering av 32 tokens känns rätt märkligt, gjorde ett par frågor till ChatGPT och de flesta svar är >1000 tokens!

Jag vet inte om det spelar så stor roll för slutsatsen, möjligen då att prefill-steget kan uppfattas som viktigare än det är (procentuellt dvs) om läsaren förutsätter att generereringssteget alltid är sådär kort.

Jag gissar väl att de är rätt nöjda med att detta är ett standardtest. De startar väl i mer eller mindre ett worst-case för Mac Studion, lång prompt+kort output, så det blir ju väldigt tydligt vad det gör för skillnad att flytta prefill-steget till något med mer beräkningskraft.

Visa signatur

Desktop spel m.m.: Ryzen 9800X3D || MSI X870 Tomahawk Wifi || MSI Ventus 3x 5080 || Gskill FlareX 6000 64GB || Kingston KC3000 2TB || Samsung 970 EVO Plus 2TB || Samsung 960 Pro 1TB || Fractal Torrent || Asus PG42UQ 4K OLED
Arbetsstation: Ryzen 7945HX || Minisforum BD790i || Asus Proart 4070 Ti Super || Kingston Fury Impact 5600 65 GB || WD SN850 2TB || Samsung 990 Pro 2TB || Fractal Ridge
Proxmox server: Ryzen 5900X || Asrock Rack X570D4I-2T || Kingston 64GB ECC || WD Red SN700 1TB || Blandning av WD Red / Seagate Ironwolf för lagring || Fractal Node 304

Permalänk
Medlem
Skrivet av Yoshman:

Sen visar detta just hur effektiv "rätt" kisel är i vissa specifika uppgifter. Innan M5 verkar M-serien rätt mycket sakna "Tensor-cores", när dessa kommer till sin rätt så ger de rejäl utväxling. M5 verkar fått någon form av Tensor-kärnor, vilket lär förklara att just prompt-processing är upp till 4x snabbare där jämfört med generationen innan.

Blir kul att se tester på första M5'orna med 128gb minne, än så länge verkar det ju bara finnas 32. :-/

Känns som Spark tappade mycket på att bli så försenad, det finns ju intressanta alternativ redan och flera är på gång i närtid. Spark blir en unik pryl först om man kopplar ihop två och får 256gb minne för LLM's.