AMD kan bygga NPU-instickskort

Permalänk
Medlem
Skrivet av addman:

Ok men de flesta nya mid-highend processorer som släpps från både Intel och AMD har ju redan integrerade NPU's. Räcker inte dessa eller?

De är väldigt barskrapade jämfört med behovet om man skall utnyttja potentialen med AI. De duger för lite Copilot.

Skrivet av Patrik356b:

Detta blir nog nya "Ageia PhysX", d.v.s. kort som försvinner relativt fort för man kommer på en annan lösning som känns bättre

Ja kanske försvinner tids nog, men rätt stor skillnad. Physx var relativt enkla beräkningar som parallelliserade kretsar kunde avlasta CPU på. Så det var inga problem att lägga beräkningarna som bisyssla på ett mycket starkare grafikkort och avveckla korten.

Just nu ser vi inte taket på hur mycket prestanda vi kan ha nytta av för AI-beräkningar, och de körs redan på grafikkort. Enklare NPU-kretsar kan byggas in i CPU-er eller ersättas av GPU-er. Men pratar de krafigare grejer så kan man inte bygga in det i något annat än en separat krets under lång tid. Går ju såklart att baka ihop allt i feting-SOCs som Apples kretsar, Ryzen AI Max eller AMD Instinct. Men det kostar också.

Skrivet av GuessWho:

Så GeForce RTX 5070 Ti och RTX 5080 med 'bara' 896 GB/s respektive 960 GB/s är värdelösa för AI eftersom det är under 1TB/s minnesbandbredd ?

RTX 4090 då?
Det är över 1TB/s, men bara precis, 1.01 TB/s

Det kan väl inte vara så att RTX 4090 är fantastiskt med sin över 1TB/s minnesbandbredd och RTX 5080 är värdelöst med sin under 1TB/s minnesbandbredd, när skillnaden bara är ca 5.2% ?

Dagens professionella kort för AI ligger ofta runt 4-8TB/s

Skrivet av underd0g76:

Får vi automagiskt bättre AI i våra spel då eller? Luktar som det gjorde om PhysX-korten.

Allt handlar inte om spel. Men, hur tror du man skall göra framtidens spel? Det blir exponentiellt mer krävande att göra trovärdigare grafik, vilket vi ser med hur "liten" skillnad det är på dagens spel och spel som är 10 eller rent av 15 år gamla som gick på en bråkdel av prestandan. Blir också exponentiellt mer omfattande att skapa spelen, åtminstone utan AI, vilket skapar svindyra jätteproduktioner, som dödar allt risktagande och därmed nyskapande.

Tänk nu, processor och grafikkort skapar bara ett skelett av en miljö, men inte den slutgiltiga grafiken. AI lägger på texturer, ljus och atmosfäreffekter fotorealistiskt. När du väl är där har du inte längre alls samma skalningsbehov av prestanda. Så länge du kan rendera tillräcklig upplösning i tillräcklig frekvens så blir snyggare grafik mer en fråga om AI-träning än snabbare grafikkort. Det revoluitionerar på samma sätt som OoO processing och parallelliserade 3D-acceleratorer. Detta är vad FSR och DLSS siktar på. 100% AI-frames med 100% AI-pixlar från en väldigt förenklad input, men med krävande AI-modeller.

Lägg på NPCs som styrs av AI, både i rörelser och dialog. Och du har en helt ny typ av spel. Tror du VR kommer bli populärt igen då kanske?
Kommer du ihåg vad som gjorde spel magiska? Känslan av att hitta hemligheter eller lösningar ingen annan hittat. Är du äldre så minns du säkert hur man alltid drömde om att upptäcka bakgrunden man såg i sidescrollers. Och hur spännande det var att hitta hemligheter innan allt spoilades genom internet. Hur kul det var att bygga något eget innan youtube svämmade över med 1000 gånger mer avancerade projekt från folk som spelar heltid. Den magin kommer tillbaka med AI, för varje spelupplevelse blir på riktigt unik.

Och precis som storskaligheten av mobilbatterier möjliggjorde elbilsrevolutionen så kommer den som först mästrar dessa spel ha ett övertag på utveckling av humanoida robotar vars motorik och beteende är 100% AI.

Vi skall nog inte underskatta potentialen här, och de stora jättarna i branschen vet om den.

Permalänk
Medlem
Skrivet av GuessWho:

Så GeForce RTX 5070 Ti och RTX 5080 med 'bara' 896 GB/s respektive 960 GB/s är värdelösa för AI eftersom det är under 1TB/s minnesbandbredd ?

RTX 4090 då?
Det är över 1TB/s, men bara precis, 1.01 TB/s

Det kan väl inte vara så att RTX 4090 är fantastiskt med sin över 1TB/s minnesbandbredd och RTX 5080 är värdelöst med sin under 1TB/s minnesbandbredd, när skillnaden bara är ca 5.2% ?

Det är mellan tummen och pekfingret. 5070 Ti och 5080 är snarare rätt kassa för att de har lite minne. För hemmalek funkar de såklart men professionellt är de inget att ha.

Skrivet av Gtoxed:

hellre att köpa ett instickskort än att jag måste köpa helt ny CPU/moderkaka för att kunna köra lite lättare AI program. plus att man får användning för PCIe portarna äntligen!

Vilka PCIe-platser? Dagens konsumentmoderkort har ju knappt några, det är helt värdelöst.

Visa signatur

R&D Elektronik & Radioingenjör

Permalänk
Medlem
Skrivet av GuessWho:

Så GeForce RTX 5070 Ti och RTX 5080 med 'bara' 896 GB/s respektive 960 GB/s är värdelösa för AI eftersom det är under 1TB/s minnesbandbredd ?

RTX 4090 då?
Det är över 1TB/s, men bara precis, 1.01 TB/s

Det kan väl inte vara så att RTX 4090 är fantastiskt med sin över 1TB/s minnesbandbredd och RTX 5080 är värdelöst med sin under 1TB/s minnesbandbredd, när skillnaden bara är ca 5.2% ?

Ingenstans har nån sagt att man går från värdelöst till fantastiskt omedelbart när man korsar 1TB/s-gränsen. Bara att under 1TB/s är värdelöst.

Permalänk
Medlem
Skrivet av ajp_anton:

Ingenstans har nån sagt att man går från värdelöst till fantastiskt omedelbart när man korsar 1TB/s-gränsen. Bara att under 1TB/s är värdelöst.

Men Ryzen AI MAX verkar bara ha 256GB/s och det finns en del som verkar gilla den plattformen och Apples Macar verkar ha runt 800GB/s för de kraftfullaste varianterna och det finns folk som använder Mac för AI ändamål.

Så det verkar ju inte helt värdelöst även om mer är bättre.

Är det "värdelöst" på samma vis som en bil med under 1000 hästkrafter är "värdelös" trotts att väldigt många klarar sig med en bil med mindre än 1000 hästkrafter.

Permalänk
Medlem
Skrivet av GuessWho:

Så GeForce RTX 5070 Ti och RTX 5080 med 'bara' 896 GB/s respektive 960 GB/s är värdelösa för AI eftersom det är under 1TB/s minnesbandbredd ?

RTX 4090 då?
Det är över 1TB/s, men bara precis, 1.01 TB/s

Det kan väl inte vara så att RTX 4090 är fantastiskt med sin över 1TB/s minnesbandbredd och RTX 5080 är värdelöst med sin under 1TB/s minnesbandbredd, när skillnaden bara är ca 5.2% ?

Det är v/ram utöver bandbredd. Får inte llm plats så kvittar hastigheten...

Visa signatur

Intel i5 12600k OC 5.2GHz | Arctic Freezer II 240 | MSI Pro Z690 A | 2x 16Gb Corsair LPX 3200MHz | Asus Tuf 4070 Ti | Corsair Rm850x V3 | 2x 1Tb Samsung 980 m2 | 4x Noctua A14x25 2xT30, 1x Noctua A12x25, 3x ek loop

Permalänk
Medlem
Skrivet av Patrik356b:

Detta blir nog nya "Ageia PhysX", d.v.s. kort som försvinner relativt fort för man kommer på en annan lösning som känns bättre

Flygigare hår i minst två spel! ;D

Fast det var trots allt ändå lite kul när det verkligen fanns faktiska skillnader med viss hårdvara. Som när musiken i spel helt hade karaktären av ljudkortet.

Visa signatur

Operativsystemet som löser nästan alla problem: Mint

Permalänk
Medlem
Skrivet av Swedishchef_90:

Det är v/ram utöver bandbredd. Får inte llm plats så kvittar hastigheten...

Jo men exempelvis Mac Studio kan konfigureras med upp till 512GB enhetligt minne.

Min idé tidigare var om man kunde göra ett instickskort som man kanske slänger på 128 - 256GB DDR5 till mycket lägre pris än ett RTX PRO 6000 (som har 96GB VRAM).

Innan någon började med att en Mac Studio för 210 000 kr är lika slö som en Raspberry Pi (Hyperbol).

Eller menar du att det inte finns några AI tillämpningar som kan köras på mindre än 1TB RAM/VRAM ?

Permalänk
Medlem
Skrivet av AndreaX:

Flygigare hår i minst två spel! ;D

Fast det var trots allt ändå lite kul när det verkligen fanns faktiska skillnader med viss hårdvara. Som när musiken i spel helt hade karaktären av ljudkortet.

Alltid kul att lyssna på typ Duke Nukem t. ex. med olika ljudkort

Visa signatur

Byt namn på Nvidia till NvidAI

Permalänk
Medlem
Skrivet av Patrik356b:

Alltid kul att lyssna på typ Duke Nukem t. ex. med olika ljudkort

Det här var helt otroligt att upptäcka NU!

https://www.youtube.com/watch?v=R14XeuTXwaU

Permalänk
Medlem
Skrivet av Kilroy:

Det här var helt otroligt att upptäcka NU!

https://www.youtube.com/watch?v=R14XeuTXwaU

Fin video du hitta
Jag har mest lyssnat på olika ljudkort LGR testat

Visa signatur

Byt namn på Nvidia till NvidAI

Permalänk
Medlem

Vilka flashbacks jag fick från förr i tiden, ljudkort, nätverkskort och tom kontrollerkort men framförallt Voodoo.

Visa signatur

Workstation: Intel DX79SI | Intel Core i7-3930K | Cooler Master Hyper 212 EVO | ASUS GeForce GTX 1070 Dual | 6x4GB Kingston HyperX | Samsung 850 PRO 256GB
Server: HP Microserver Gen8 | Intel Xeon E3-1265Lv2 | HP Smart Array P222/512 FBWC | 2x8 ECC Kingston KTH-PL316E/8G | Samsung 850 PRO 256GB | 3x4TB WD Red WD40EFRX
Wii U | Switch 7754-7201-0621 | PS5 Segge81

Permalänk
Medlem
Skrivet av Gtoxed:

hellre att köpa ett instickskort än att jag måste köpa helt ny CPU/moderkaka för att kunna köra lite lättare AI program. plus att man får användning för PCIe portarna äntligen!

Nackdelen i många moderkort är att så fort du stoppar in ett till x16 PCIe kort så går båda på x8 fart istället. Processorerna eller chipset har inte bandbredden. För att det ska funka med många PCIe banor måste du ha Threadripper och där kostar senaste modellen ca 30000kr bara för processor och moderkort.

Permalänk
Medlem

Detta får mig att tänka på Denise, Agnus, Paula,,dvs co-processors i Amiga.

"Denise:
The display encoder, Denise handles graphics output, including bitplanes, palettes, scrolling, hardware sprites, and collision detection. It's essentially the core of the Amiga's visual capabilities.

Agnus:
The address generator unit, Agnus manages memory access for all custom chips and includes the Blitter (for fast block transfers) and the Copper (a co-processor that can manipulate hardware registers).

Paula:
The chip responsible for I/O, including the floppy disk drive controller, and audio, providing 4-channel 8-bit sound."

Visa signatur

Tommie Hansen
---
byme

Permalänk
Medlem
Skrivet av burger_:

Nackdelen i många moderkort är att så fort du stoppar in ett till x16 PCIe kort så går båda på x8 fart istället. Processorerna eller chipset har inte bandbredden. För att det ska funka med många PCIe banor måste du ha Threadripper och där kostar senaste modellen ca 30000kr bara för processor och moderkort.

GPUer tappar inte särskilt mycket på x8, och ännu mindre på 5.0 (när GPUer börjar stödja det).

NPU tror jag inte behöver så mycket bandbredd alls. Att ladda in modellen i NPUns minne kan få ta lite tid, men vad mer behöver den? Chatthistoriken om man kör en chatbot? Där är redan USB 2.0 rejäl overkill. Så egentligen klarar man sig väl på en x1-slot via chipsetet, om man bara accepterar långsam uppstart.

Permalänk
Medlem
Skrivet av ajp_anton:

GPUer tappar inte särskilt mycket på x8, och ännu mindre på 5.0 (när GPUer börjar stödja det).

NPU tror jag inte behöver så mycket bandbredd alls. Att ladda in modellen i NPUns minne kan få ta lite tid, men vad mer behöver den? Chatthistoriken om man kör en chatbot? Där är redan USB 2.0 rejäl overkill. Så egentligen klarar man sig väl på en x1-slot via chipsetet, om man bara accepterar långsam uppstart.

Blackwell kör med PCI Express 5.0

Exempelvis GeForce RTX 5060 kör med PCIe 5.0 X8

Men skillnaden mellan att köra PCIe 5.0 eller 4.0 på RTX 5000 serien är liten.
Ofta inom felmarginalen.
Går man ner till PCIe 3.0 kan skillnaden vara lite större och ännu mer om man går ner till PCIe 2.0 eller 1.x

Men känns ju inte speciellt relevant att använda RTX 5000 kort på en Pentium 4 eller Core 2 dator, eller ens en Sandy Bridge.
Så i princip alla datorer som det skulle kunna vara relevant att använda RTX 5000 kort på borde åtminstone stöda PCIe 3.0

Länge så var även moderkorten med PCI 5.0 stöd en blandning av PCIe 5.0, 4.0 och 3.0.
Men åtminstone de senaste Intel moderkorten, alltså inte Raptor Lake, inte 14th gen, utan de som kommer efter, Arrow Lake, Ultra 200 serien.
Där har de ökat upp till PCIe 4.0 som minimum nivå (minns inte om det gällde alla chipset).

Permalänk
Medlem
Skrivet av GuessWho:

Blackwell kör med PCI Express 5.0

Exempelvis GeForce RTX 5060 kör med PCIe 5.0 X8

Men skillnaden mellan att köra PCIe 5.0 eller 4.0 på RTX 5000 serien är liten.
Ofta inom felmarginalen.
Går man ner till PCIe 3.0 kan skillnaden vara lite större och ännu mer om man går ner till PCIe 2.0 eller 1.x

Men känns ju inte speciellt relevant att använda RTX 5000 kort på en Pentium 4 eller Core 2 dator, eller ens en Sandy Bridge.
Så i princip alla datorer som det skulle kunna vara relevant att använda RTX 5000 kort på borde åtminstone stöda PCIe 3.0

Länge så var även moderkorten med PCI 5.0 stöd en blandning av PCIe 5.0, 4.0 och 3.0.
Men åtminstone de senaste Intel moderkorten, alltså inte Raptor Lake, inte 14th gen, utan de som kommer efter, Arrow Lake, Ultra 200 serien.
Där har de ökat upp till PCIe 4.0 som minimum nivå (minns inte om det gällde alla chipset).

Har tydligen missat att grafikkorten redan stödjer 5.0. Tydligen gör RX9070 det också. Så detta är ännu mer ett icke-problem än vad jag trodde.

Dock kvarstår frågan om jag har fel angående bandbreddskraven för en dedikerad NPU. Om den har eget minne, vad mer kräver den? Säg att man kör den via PCIe x1 och det tar en timme att ladda upp en gigantisk modell till den, är det några problem sen när man väl startat upp den? Man skulle ju då i princip kunna köra den i en extern låda via USB, med oändligt med fysiskt utrymme att expandera minnet med DIMMs.

Permalänk
Medlem

Äventyret om jag har 0 koll om detta men ser absolut som en bra idé då detta blir mer riktad mot workstations och servrar med TR eller Epyc med extrema mängder PCI lanes och RAM möjlighet.
Samt så ör PCI så fruktansvärt underskattat så mycket potential men bara används för GPU SSD och NICs iaf för vanliga konsumenter

Permalänk
Skrivet av Gurk:

... störigt, NPU har alltid varit Network Processing Unit (nätverkskille här)

Hursom, det blir spännande att se vad som kommer till marknaden, laptops först kanske?

Egentligen borde det vara ANNPU. Det är varken nätverk eller "neurala" processing som dessa chip kommer utföra.

Permalänk
Medlem
Skrivet av ajp_anton:

Har tydligen missat att grafikkorten redan stödjer 5.0. Tydligen gör RX9070 det också. Så detta är ännu mer ett icke-problem än vad jag trodde.

Dock kvarstår frågan om jag har fel angående bandbreddskraven för en dedikerad NPU. Om den har eget minne, vad mer kräver den? Säg att man kör den via PCIe x1 och det tar en timme att ladda upp en gigantisk modell till den, är det några problem sen när man väl startat upp den? Man skulle ju då i princip kunna köra den i en extern låda via USB, med oändligt med fysiskt utrymme att expandera minnet med DIMMs.

Skrivet av ajp_anton:

NPU tror jag inte behöver så mycket bandbredd alls. Att ladda in modellen i NPUns minne kan få ta lite tid, men vad mer behöver den? Chatthistoriken om man kör en chatbot? Där är redan USB 2.0 rejäl overkill.

Ja du har rätt, även AMDs senaste generation med Radeon RX 9070 och RX 9060 har också PCIe 5.0
Det var DisplayPort UHBR20 (Ultra High Bit Rate 20) - 80.00 Gbit/s ,
som AMD inte har stöd för, förutom några dyra PRO kort.
Men DisplayPort är inte speciellt relevant för ett dedikerat NPU kort.
DisplayPort är mer relevant om man har ett grafikkort som man tänkt ansluta en (eller flera) skärm(ar) till.

AI är inte bara en sak/ett användningsområde.
I enterprise AI tillämpningar så verkar det vanligt att flera GPUer arbetar tillsammans och då blir bandbredden från en GPU till en annan betydande.
Kan även vara flera servrar som arbetar ihop och då blir även bandbredden mellan servrar betydande.
Därför många servrar har 400Gbit nätverk eller t.o.m. flera 400Gbit nätverkslänkar.

Även 800Gbit nätverk är väl inte helt omöjligt, men det är väl lite i "beta stadie" än så länge.
Ett problem om man ska ha en server med 800Gbit nätverk är att endast ett single NIC 800Gbit kräver 32X lanes PCIe 5.0
Det är inte helt omöjligt att lösa rent tekniskt, men inte smidigaste lösningen.
Där kommer PCIe 6.0 bli mycket bättre för där räcker det med 16X lanes för att köra 800Gbit.

Men lite enklare AI lösningar där det räcker att köra allt på ett ensamt kort.
Ja då kommer det inte bli lika bandbreddskrävande.
Men ändå AI finns för olika användningsområden och olika saker har olika krav.
Så svaret blir väl
"Det beror på"

Men verkar onödigt att köra USB 2.0 ändå även om det är möjligt.
De flesta datorer tillverkade efter 2012 har USB 3.0 / USB 3.x Gen 1 portar.
Verkar som det kom någon USB 3.0 certifierad kontroller redan 2010,
men för datorer från 2010/2011 så får man nog se USB 3 mer som en bonus än något självklart.

Exempelvis Intel NUC (Next Unit of Computing, mini PC)
Ivy Bridge NUC har/hade USB 2.0
Men Haswell NUC med Core i3-4010U eller Core i5-4250U släpptes Q4 2013 och har USB 3.0

T.o.m. Raspberry Pi 4 (2019) har USB 3.0