AMD lanserar Epyc 9004 – jätteprocessorer för superdatorer

Permalänk
Melding Plague

AMD lanserar Epyc 9004 – jätteprocessorer för superdatorer

När AMD introducerar Zen 4 för server- och datacenter står energieffektivitet, många kärnor och färska tekniker i fokus.

Läs hela artikeln här

Visa signatur

Observera att samma trivselregler gäller i kommentarstrådarna som i övriga forumet och att brott mot dessa kan leda till avstängning. Kontakta redaktionen om du vill uppmärksamma fel i artikeln eller framföra andra synpunkter.

Permalänk
Medlem

Ingen nyhet om intels fokus på "Intel On Demand"?
Känns som AMD kommer ta mycket marknadsandelar inom just superdatorer bland annat. Speciellt om de inte har sina "funktioner" bakom always online betalväggar.

Permalänk
Medlem

Verkligen höga prestandasiffror överallt. Väldigt imponerande grejer.

För er som är intresserade kan jag verkligen rekommendera att titta på Wendell från Level1Techs genomgång.

Ska bli intressant se vad Intels Sapphire Rapids åstadkommer. Den ryktas väl lanseras i Januari (om den inte bli försenad ytterligare )

Visa signatur

AMD 5800X ▪ MSI B550M Mortar ▪ G.Skill 32GB 3600MHz CL16 ▪ Palit 4070 Ti ▪ 1TB SSD 970 Evo+ ▪ Dark Power 13 1000W ▪ FD Define Mini C ▪ Aorus AD27QD + LG 27GL850

Permalänk
Medlem

Men springer den krisen?

Nej men riktigt imponerande. Ska bli ännu mer intressant att se den nya chipleten med ännu mindre kärnor sen, men dessa lär ju dubbla det som Intel kommer med nästa år. Sapphire Rapids är minst ett pr för sen till marknaden (samma med Arc såklart)

Permalänk
Medlem

En annan sak som AMD nämnde var att de gjort det mycket lättare att migrera VMs från Intel till AMD servrar. OM det stämmer kan det få en del kunder som är "låsta" i Intel's ekosystem att välja AMD när de uppgraderar.

Permalänk
Medlem

Man borde väl nästan kunna köra Cyberpunk utan något grafikkort med den här besten om man fick spelet att utnyttja alla kärnor dvs

Permalänk
Medlem
Skrivet av Tauri85:

Man borde väl nästan kunna köra Cyberpunk utan något grafikkort med den här besten om man fick spelet att utnyttja alla kärnor dvs

Nej, inte ens i närheten. GPU;er är bra på att köra en enkel instruktion på multipla/olika data. En CPU är i regel bra på multipla instruktioner på multipla data (@Yoshman kan säkert förklara det bättre). Jämförelsevis kan en Turing-GPU köra 1024 trådar per kärna (vet inte om det ändrats på senare arkitekturer). Ett 2080Ti har 68 SM's. Nu är siffran för all del teoretisk, men ger i varje fall en fingervisning om hur mycket effektivare en GPU är för sitt specifika ändamål.

Permalänk
Medlem
Skrivet av Jones377:

En annan sak som AMD nämnde var att de gjort det mycket lättare att migrera VMs från Intel till AMD servrar. OM det stämmer kan det få en del kunder som är "låsta" i Intel's ekosystem att välja AMD när de uppgraderar.

Visste inte att VMs behövde migreras mellan arkitekturer. Trodde man kunde köra en x86 vm på alla olika, men det kanske har att göra med nyttjandet av speciella instruktioner som bara finns på en plattform kanske? Vet du?

Edit: Verkar som cold migration aldrig varit ett problem, men live har inte gått i vissa fall.

Visa signatur

Hur många datorer är för många?

Permalänk
Inaktiv

Någon som vet vad för reell prestanda AVX512 ger i Zen5-tappning, jämfört med gamla AVX256? Beräkningsenheterna är ju tydligen fortfarande 256 bitar, så är det en instruktion/2 klockor som gäller då eller hur funkar det? (Med pipelining får man hoppas, så samma prestanda som med 512-bitars enheter, fast längre latency istället.)

Tydligen ingen nedklockning vid användning av AVX512 hos AMD sägs det, vilket ju är bra ur generell prestandasynpunkt.

Permalänk
Medlem
Skrivet av anon132576:

Någon som vet vad för reell prestanda AVX512 ger i Zen5-tappning, jämfört med gamla AVX256? Beräkningsenheterna är ju tydligen fortfarande 256 bitar, så är det en instruktion/2 klockor som gäller då eller hur funkar det? (Med pipelining får man hoppas, så samma prestanda som med 512-bitars enheter, fast längre latency istället.)

Tydligen ingen nedklockning vid användning av AVX512 hos AMD sägs det, vilket ju är bra ur generell prestandasynpunkt.

Wendell videon som länkade ovan av enbom går igenom AVX egenskaperna vid 18:38, ser onekligen intressant ut
(länken nedan är satt vid denna tid)

Permalänk
Skrivet av kelthar:

Visste inte att VMs behövde migreras mellan arkitekturer. Trodde man kunde köra en x86 vm på alla olika, men det kanske har att göra med nyttjandet av speciella instruktioner som bara finns på en plattform kanske? Vet du?

Edit: Verkar som cold migration aldrig varit ett problem, men live har inte gått i vissa fall.

Nyheten, gissar jag, är att en server som kör AVX-512 nu kan migreras.

Permalänk
Medlem

Wow AMD, DAMM! 😂

Visa signatur

🖥️ Fractal Design Node 804 • Asrock Fatal1ty X99M Killer • Intel 5820K • Noctua NH-U12S • Corsair Vengeance 16GB • Gigabyte GTX 970 • be quiet! Dark Power Pro 550w • 2x Intel 520 120GB • 2x 1TB • 1x 3TB
💻 Microsoft Surface Pro (8GB/128GB)
 iPhone 11 64GB 🎧 SONY WH-1000XM3
🎵📲 SONY NW-ZX300 64GB [Region changed & Mr Walkman custom firmware loaded] + 256GB xtra • Audio Technica ATH-M50X

Permalänk
Medlem

Jag tar 2

Visa signatur

Min Dator: AMD 3600 | GTX 680 | 16 GB RAM | Asus X570 Prime | Fractal Design Arc R2 | Thermalright Silver Arrow | Dell U2412M | Ibm Model M

Permalänk
Datavetare
Skrivet av DasIch:

Nej, inte ens i närheten. GPU;er är bra på att köra en enkel instruktion på multipla/olika data. En CPU är i regel bra på multipla instruktioner på multipla data (@Yoshman kan säkert förklara det bättre). Jämförelsevis kan en Turing-GPU köra 1024 trådar per kärna (vet inte om det ändrats på senare arkitekturer). Ett 2080Ti har 68 SM's. Nu är siffran för all del teoretisk, men ger i varje fall en fingervisning om hur mycket effektivare en GPU är för sitt specifika ändamål.

Ska man göra en någorlunda äpplen-mot-äpplen jämförelse mellan en GPU och CPU får man jämföra "CUDA-cores".

Närmaste man kommer en "CUDA-core" på en CPU är med formeln: SIMD1 databredd (256 i Zen4) / 32 (antal bitar i FP32) * peak-FLOP-per-kärna (4 st i Zen4) = 32 "CUDA-kärnor" per Zen4 kärna.

Så det är 96*32=3070 st "CUDA-kärnor" i EPYC 9654P/9654P.

Om man sedan utgår från att det går att hålla runt peak-frekvens med tillräcklig kylning, vilket Wendell säger är möjligt (han säger att man inte är så långt från maxfrekvensen i det läget) motsvarar FP32 kapaciteten en nivå mellan RTX3050 och RTX3060, närmare den senare.

Men jämförelsen haltar ändå lite mot CPUer då ovan bara är "shader steget", GPUer har sedan HW för rastrering / texturering som en CPU skulle behöva göra med sanna CPU-resurser som den använder till "shaders".

Oavsett: om någon verkligen försökte skulle man nog kunna göra en rätt bra software rendererare på en sådan här CPU! Dock inte så effektiv givet att CPUn drar ~400 W för att presterar motsvarande en instegs GPU med TDP på <150 W.

Det man gör med GPGPU konkurrera med att göra motsvarande med SIMD på CPU. Superdatorn Fujitsu A64FX som under ett par år var världens snabbaste använder inte GPGPU, istället har den en väldigt "bred" SIMD-data-path vilket fungerar lite som om den hade en integrerad GPU som saknar delarna för rastrering!

1 AMD/Intel/Qualcomm/Arm kör verkligen SIMD på sina GPUer, Nvidia kör en lite annan variant som de kallar SIMT. Innan Turing var det mest en teoretisk skillnad, från Turing och framåt är Nvidia något bättre på att hantera divergerande flöden än vad fallet blir med SIMD p.g.a SIMT. SIMD fungerar exceptionellt bra i traditionell rastrering då shaders där normalt har väldigt låg frekvens av divergerande flöden.

Skrivet av anon132576:

Någon som vet vad för reell prestanda AVX512 ger i Zen5-tappning, jämfört med gamla AVX256? Beräkningsenheterna är ju tydligen fortfarande 256 bitar, så är det en instruktion/2 klockor som gäller då eller hur funkar det? (Med pipelining får man hoppas, så samma prestanda som med 512-bitars enheter, fast längre latency istället.)

Tydligen ingen nedklockning vid användning av AVX512 hos AMD sägs det, vilket ju är bra ur generell prestandasynpunkt.

AVX512 ger i stora drag 3 nyheter

  • högre generell peak-prestanda, 2x över AVX p.g.a. 512 bitar databredd. Detta är enda saken Zen4 saknar

  • högre "AI" prestanda via VNNI, 8x i peak varav 2x kommer från punkten ovan -> Zen4 har 4x boost här

  • SIMD fungerar lysande i fall där alla "CUDA-kärnor" gör samma sak, det är möjligt att hantera divergenta flöden men det kostar prestanda. AVX512 har specifikt stöd för detta (vilket även moderna GPUer har) vilket minska prestandaförlusten

Ska man gå på Wedells video som är postad här verkar punkt 2 vara fokus för AMD när det kommer till AVX512. Låter fullt rimligt givet att Intel valde att stryka AVX512 i Alder Lake och i stället göra SIMD på x86 till än ännu större sörja2 genom att införa 256-bit VNNI.

AI är allt mer kritiskt, på x86 är det accelererat via VNNI instruktioner.

2 Problemet är att det finns allt fler sätt att koda i grunden samma sak. VNNI finns nu i en AVX-512 version som använder sig av EVEX (stödjer 128, 256 och 512 bit) samt VEX (stödjer 128 och 256 men är en annan binär kodning än EVEX...).

AVX/AVX2 har i sin tur ett nära nog 100 % överlapp med SSE sett till funktion, men med olika kodningar då AVX/AVX2 dels har stöd för 256-bit (utöver 128-bit) och stöd för upp till 4 operander per instruktion (mot 2 operander i SSE).

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Permalänk
Inaktiv
Skrivet av Yoshman:

Oavsett: om någon verkligen försökte skulle man nog kunna göra en rätt bra software rendererare på en sådan här CPU! Dock inte så effektiv givet att CPUn drar ~400 W för att presterar motsvarande en instegs GPU med TDP på <150 W.

Det skulle säkert kunna bli bra, men fan, pröjsa typ 80 papp eller säkert ännu mer nu efter coronainflation... Blir ett så dyrt experiment att det knappt ens är värt att försöka sig på... Är ju i princip bara storföretag och institutioner som har pengar att lägga på fetaste modellen av Epyc enbart för lek och experimenterande.

Annars borde ju en Epyc sopa banan med en GPU när det kommer till mer komplicerad shaderkod med villkor och hopp och sånt. CPUer har ju tonvis med hårdvara för att hjälpa till vid sådana situationer, och typ inget som finns i en GPU pga resursåtgång, strömförbrukning osv...

Permalänk
Medlem

Tänk om en 5 år eller så när man kan uppgradera sin homeserver till en sådan här för humana pengar

Visa signatur

Huvudriggen är en Gigabyte Aorus Xtreme | 128gb DDR5 6000 | Ryzen 7950X | 3080Ti
Utöver det är det för många datorer, boxar och servar för att lista :P

Permalänk
Medlem

Satt och funderade lite på det här med minnes-kanaler. På konsument processorer är det vanligtvis 2 kanaler och då kallar vi det "Dual Channel Memory" och på extrem-plattformar är det 4, 6 eller 8 och då kallas det "Quad", "Hexa" och "Octa". Är det någon som har hört/läst om de här processorerna har någon sådan benämning gällande minnes-kanaler?
Jag blev inte riktigt klok på vilket system namnen kommer ifrån, men att kalla det "Dozen Channel Memory" låter väl inte fel?

Visa signatur

Aopen H450A, MSI B450m
Ibland så skriver jag inte så fort.
Salt kan behövas om jag skrivit något efter 23:58

Permalänk
Medlem
Skrivet av tore_a:

Satt och funderade lite på det här med minnes-kanaler. På konsument processorer är det vanligtvis 2 kanaler och då kallar vi det "Dual Channel Memory" och på extrem-plattformar är det 4, 6 eller 8 och då kallas det "Quad", "Hexa" och "Octa". Är det någon som har hört/läst om de här processorerna har någon sådan benämning gällande minnes-kanaler?
Jag blev inte riktigt klok på vilket system namnen kommer ifrån, men att kalla det "Dozen Channel Memory" låter väl inte fel?

Dom följer ju inte nåt etablerat system då quad tex borde vara tetra om man följde grekiska räkneord, hexa eller octa följer ju dock det systemet.

https://wiki.c2.com/?NumericalPrefixes

Däremot används Deca för 10 core processorer och Dodeca för 12 core.
https://en.wikichip.org/wiki/dodeca-core

Så jag skulle förslå "Dodeca channels" för 12 kanaler eller på svenska "Dodeka kanaler", låter sådär men men XD

Permalänk
Medlem
Skrivet av tore_a:

Satt och funderade lite på det här med minnes-kanaler. På konsument processorer är det vanligtvis 2 kanaler och då kallar vi det "Dual Channel Memory" och på extrem-plattformar är det 4, 6 eller 8 och då kallas det "Quad", "Hexa" och "Octa". Är det någon som har hört/läst om de här processorerna har någon sådan benämning gällande minnes-kanaler?
Jag blev inte riktigt klok på vilket system namnen kommer ifrån, men att kalla det "Dozen Channel Memory" låter väl inte fel?

Dodeca används ofta för att prata om 12 kärnor i en cpu

(Edit: lite för långsam tydligen!)

Permalänk
Datavetare
Skrivet av anon132576:

Det skulle säkert kunna bli bra, men fan, pröjsa typ 80 papp eller säkert ännu mer nu efter coronainflation... Blir ett så dyrt experiment att det knappt ens är värt att försöka sig på... Är ju i princip bara storföretag och institutioner som har pengar att lägga på fetaste modellen av Epyc enbart för lek och experimenterande.

Annars borde ju en Epyc sopa banan med en GPU när det kommer till mer komplicerad shaderkod med villkor och hopp och sånt. CPUer har ju tonvis med hårdvara för att hjälpa till vid sådana situationer, och typ inget som finns i en GPU pga resursåtgång, strömförbrukning osv...

Modellen jag räknade med ovan kostar inga 80 papp, räknar man med moms hamnar den på det dubbla
(ca ~162 000 SEK)!

Är lite som man undrar hur pass dyrt det är att använda TSMC 5 nm. Efter att kollat på Phoronix och gjort lite perf/$ överslag så ser det ut lite som på CPU-marknaden: prestanda per socket ökar rätt ordentligt, men det har också priset gjort. Så perf/$ är (i alla fall för toppmodellerna) ökar inte speciellt mycket (positiva är att det trots allt ändå ökar, vilket inte riktigt hände på GPU-sidan när det var som värst).

Rätt schyst ökning av peak-effekten också. I Phoronix tester gick effekten för t.ex. Blender upp från ~560 W till ~810 W för toppkonfigurationerna i Milan resp. Genoa.

Borde inte effekten börja bli ett problem? Amazon valde att göra deras Graviton 3 plattform till tripple-socket då det gav snarlik effekt (fortfarande <400 W totalt) mot Intel/AMDs dual-socket alternativ räknat per system. Allt pekar ju på att även Intel kommer skruva upp effekt per socket, AMD/Intel låg på 250-300 W och går nu upp till 350-400 W (själva socket:en tål ännu mer, AMD nämnde 700 W som gräns för SP5)

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer