Nvidia DGX och Mac Studio dunderduo för lokal AI

idag 06:00

Permalänk

Nyhet

Melding Plague

Registrerad: Dec 1999

●

Nvidia DGX och Mac Studio dunderduo för lokal AI

EXO Labs visar nyttan av att kombinera två datorer optimerade för väldigt olika uppgifter.

Läs hela artikeln här

Visa signatur

Observera att samma trivselregler gäller i kommentarstrådarna som i övriga forumet och att brott mot dessa kan leda till avstängning. Kontakta redaktionen om du vill uppmärksamma fel i artikeln eller framföra andra synpunkter.

Rapportera Redigera

Citera flera Citera (6)

idag 07:33

Permalänk

lillaankan_i_dammen

Medlem ★

Registrerad: Nov 2019

●

Årets julklapp?
Förr i tiden var ofta årets julklapp väldigt nya saker som långtifrån alla hade råd med. Som mobiltelefon 1994, cd skivan 1995, dvd 2000, platttv 2004.
Och dator för lokal AI är lite på samma nivå. Kanske inte riktigt ännu men om några år.

Det jag främst hoppas med dagens AI speciellt LLM är att de fortsätter utvecklas, de blir mer lättkörd eller hårdvaran billigare. Många pratar på att LLM som den är byggd idag aldrig kommer bli AGI (Artificial General Intelligence) och det stämmer. Men de måste ju börja någonstans och gärna någonstans som folk vill betala för att använda. Lite som att folk skulle säga till de som utvecklade spelen doom, wolfenstein att deras grafikmotor aldrig kommer utvecklas till fotorealistiskt grafik och de istället borde satsa sin tid på en grafikmotor som klarar detta.

Rapportera Redigera

Citera flera Citera (2)

idag 08:06

Permalänk

seraj5

Medlem ★

Plats: Linköping
Registrerad: Dec 2013

●

Varför testa så liten modell och bara generera 32 tokens? Varför inte testa största modellen som får plats med en längre output?

Rapportera Redigera

Citera flera Citera

idag 08:13

Permalänk

r80x

Medlem ★

Plats: Huskvarna
Registrerad: Jul 2004

●

Skrivet av seraj5:

Varför testa så liten modell och bara generera 32 tokens? Varför inte testa största modellen som får plats med en längre output?

Gå till inlägget

Väldigt bra fråga. Jag tänker att det bör ju ha tagit tid att få iordning allt så varför inte köra på ordentligt innan man skickar ut benchmarks. Kanske finns någon anledning till det som jag inte förstår mig på.

Visa signatur

Rapportera Redigera

Citera flera Citera

idag 08:29

Permalänk

Yoshman

Datavetare ★

Plats: Stockholm
Registrerad: Jun 2011

●

Så DGX spark lär kunna användas till en hel del spännande saker, men just LLMs kanske blir lite kämpigt p.g.a. låg bandbredd mot RAM om man inte bara vill ha "ja/nej" svar...

Sen visar detta just hur effektiv "rätt" kisel är i vissa specifika uppgifter. Innan M5 verkar M-serien rätt mycket sakna "Tensor-cores", när dessa kommer till sin rätt så ger de rejäl utväxling. M5 verkar fått någon form av Tensor-kärnor, vilket lär förklara att just prompt-processing är upp till 4x snabbare där jämfört med generationen innan.

Skrivet av seraj5:

Varför testa så liten modell och bara generera 32 tokens? Varför inte testa största modellen som får plats med en längre output?

Gå till inlägget

Just generering av endast 32 token är något jag reagerat på också. Inte specifikt här, utan det verkar blivit någon form av standard gissningsvis då bl.a. llama-bench har ett sådan fall inbyggt.

8192 tokens kontext känns fullt rimligt, blir ju snabbt så att man kommer till maxstorlek där.

Att mäta generering av 32 tokens känns rätt märkligt, gjorde ett par frågor till ChatGPT och de flesta svar är >1000 tokens!

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Rapportera Redigera

Citera flera Citera (1)

idag 08:47

Permalänk

evil penguin

Medlem ★

Registrerad: Apr 2002

●

Skrivet av seraj5:

Varför testa så liten modell och bara generera 32 tokens? Varför inte testa största modellen som får plats med en längre output?

Gå till inlägget

Skrivet av r80x:

Väldigt bra fråga. Jag tänker att det bör ju ha tagit tid att få iordning allt så varför inte köra på ordentligt innan man skickar ut benchmarks. Kanske finns någon anledning till det som jag inte förstår mig på.

Gå till inlägget

Skrivet av Yoshman:

Just generering av endast 32 token är något jag reagerat på också. Inte specifikt här, utan det verkar blivit någon form av standard gissningsvis då bl.a. llama-bench har ett sådan fall inbyggt.

8192 tokens kontext känns fullt rimligt, blir ju snabbt så att man kommer till maxstorlek där.

Att mäta generering av 32 tokens känns rätt märkligt, gjorde ett par frågor till ChatGPT och de flesta svar är >1000 tokens!

Gå till inlägget

Jag vet inte om det spelar så stor roll för slutsatsen, möjligen då att prefill-steget kan uppfattas som viktigare än det är (procentuellt dvs) om läsaren förutsätter att generereringssteget alltid är sådär kort.

Jag gissar väl att de är rätt nöjda med att detta är ett standardtest. De startar väl i mer eller mindre ett worst-case för Mac Studion, lång prompt+kort output, så det blir ju väldigt tydligt vad det gör för skillnad att flytta prefill-steget till något med mer beräkningskraft.

Visa signatur

Desktop spel m.m.: Ryzen 9800X3D || MSI X870 Tomahawk Wifi || MSI Ventus 3x 5080 || Gskill FlareX 6000 64GB || Kingston KC3000 2TB || Samsung 970 EVO Plus 2TB || Samsung 960 Pro 1TB || Fractal Torrent || Asus PG42UQ 4K OLED
Arbetsstation: Ryzen 7945HX || Minisforum BD790i || Asus Proart 4070 Ti Super || Kingston Fury Impact 5600 65 GB || WD SN850 2TB || Samsung 990 Pro 2TB || Fractal Ridge
Proxmox server: Ryzen 5900X || Asrock Rack X570D4I-2T || Kingston 64GB ECC || WD Red SN700 1TB || Blandning av WD Red / Seagate Ironwolf för lagring || Fractal Node 304

Rapportera Redigera

Citera flera Citera

idag 09:33

Permalänk

0cool

Medlem ★

Registrerad: Sep 2020

●

Skrivet av Yoshman:

Sen visar detta just hur effektiv "rätt" kisel är i vissa specifika uppgifter. Innan M5 verkar M-serien rätt mycket sakna "Tensor-cores", när dessa kommer till sin rätt så ger de rejäl utväxling. M5 verkar fått någon form av Tensor-kärnor, vilket lär förklara att just prompt-processing är upp till 4x snabbare där jämfört med generationen innan.

Gå till inlägget

Blir kul att se tester på första M5'orna med 128gb minne, än så länge verkar det ju bara finnas 32. :-/

Känns som Spark tappade mycket på att bli så försenad, det finns ju intressanta alternativ redan och flera är på gång i närtid. Spark blir en unik pryl först om man kopplar ihop två och får 256gb minne för LLM's.

Rapportera Redigera

Citera flera Citera

Nvidia DGX och Mac Studio dunderduo för lokal AI

Nvidia DGX och Mac Studio dunderduo för lokal AI

Externa nyheter