AMD lanserar Epyc 9004 – jätteprocessorer för superdatorer

2022-11-11 17:36

Melding Plague

Registrerad: Dec 1999

●

AMD lanserar Epyc 9004 – jätteprocessorer för superdatorer

När AMD introducerar Zen 4 för server- och datacenter står energieffektivitet, många kärnor och färska tekniker i fokus.

Läs hela artikeln här

Visa signatur

Observera att samma trivselregler gäller i kommentarstrådarna som i övriga forumet och att brott mot dessa kan leda till avstängning. Kontakta redaktionen om du vill uppmärksamma fel i artikeln eller framföra andra synpunkter.

Rapportera Redigera

Citera flera Citera (1)

2022-11-11 17:44

Permalänk

str8forthakill

Medlem ★

Plats: Vid datorn
Registrerad: Feb 2007

●

Ingen nyhet om intels fokus på "Intel On Demand"?
Känns som AMD kommer ta mycket marknadsandelar inom just superdatorer bland annat. Speciellt om de inte har sina "funktioner" bakom always online betalväggar.

Rapportera Redigera

Citera flera Citera (4)

2022-11-11 18:03

Permalänk

enbom

Medlem ★

Registrerad: Mar 2005

●

Verkligen höga prestandasiffror överallt. Väldigt imponerande grejer.

För er som är intresserade kan jag verkligen rekommendera att titta på Wendell från Level1Techs genomgång.

Ska bli intressant se vad Intels Sapphire Rapids åstadkommer. Den ryktas väl lanseras i Januari (om den inte bli försenad ytterligare )

Visa signatur

AMD 5800X ▪ MSI B550M Mortar ▪ G.Skill 32GB 3600MHz CL16 ▪ Palit 4070 Ti ▪ 1TB SSD 970 Evo+ ▪ Dark Power 13 1000W ▪ FD Define Mini C ▪ Aorus AD27QD + LG 27GL850

Rapportera Redigera

Citera flera Citera (10)

2022-11-11 18:23

Permalänk

medbor

Medlem ★

Like-magnet

Registrerad: Okt 2011

●

Men springer den krisen?

Nej men riktigt imponerande. Ska bli ännu mer intressant att se den nya chipleten med ännu mindre kärnor sen, men dessa lär ju dubbla det som Intel kommer med nästa år. Sapphire Rapids är minst ett pr för sen till marknaden (samma med Arc såklart)

Rapportera Redigera

Citera flera Citera

2022-11-11 18:39

Permalänk

Jones377

Medlem

Registrerad: Jan 2006

●

En annan sak som AMD nämnde var att de gjort det mycket lättare att migrera VMs från Intel till AMD servrar. OM det stämmer kan det få en del kunder som är "låsta" i Intel's ekosystem att välja AMD när de uppgraderar.

Rapportera Redigera

Citera flera Citera (9)

2022-11-11 20:32

Permalänk

Tauri85

Medlem ★

Registrerad: Apr 2022

●

Man borde väl nästan kunna köra Cyberpunk utan något grafikkort med den här besten om man fick spelet att utnyttja alla kärnor dvs

Rapportera Redigera

Citera flera Citera

2022-11-11 23:17

Permalänk

DasIch

Medlem ★

Plats: Stockholm
Registrerad: Aug 2001

●

Skrivet av Tauri85:

Man borde väl nästan kunna köra Cyberpunk utan något grafikkort med den här besten om man fick spelet att utnyttja alla kärnor dvs

Gå till inlägget

Nej, inte ens i närheten. GPU;er är bra på att köra en enkel instruktion på multipla/olika data. En CPU är i regel bra på multipla instruktioner på multipla data (@Yoshman kan säkert förklara det bättre). Jämförelsevis kan en Turing-GPU köra 1024 trådar per kärna (vet inte om det ändrats på senare arkitekturer). Ett 2080Ti har 68 SM's. Nu är siffran för all del teoretisk, men ger i varje fall en fingervisning om hur mycket effektivare en GPU är för sitt specifika ändamål.

Rapportera Redigera

Citera flera Citera (1)

2022-11-11 23:42

Permalänk

kelthar

Medlem ★

Plats: :: oVERdOZe bbS ::
Registrerad: Aug 2004

●

Skrivet av Jones377:

En annan sak som AMD nämnde var att de gjort det mycket lättare att migrera VMs från Intel till AMD servrar. OM det stämmer kan det få en del kunder som är "låsta" i Intel's ekosystem att välja AMD när de uppgraderar.

Gå till inlägget

Visste inte att VMs behövde migreras mellan arkitekturer. Trodde man kunde köra en x86 vm på alla olika, men det kanske har att göra med nyttjandet av speciella instruktioner som bara finns på en plattform kanske? Vet du?

Edit: Verkar som cold migration aldrig varit ett problem, men live har inte gått i vissa fall.

Senast redigerat 2022-11-11 23:59

Visa signatur

Hur många datorer är för många?

Rapportera Redigera

Citera flera Citera

2022-11-12 00:30

Permalänk

anon132576

Inaktiv

Registrerad: Mar 2009

●

Någon som vet vad för reell prestanda AVX512 ger i Zen5-tappning, jämfört med gamla AVX256? Beräkningsenheterna är ju tydligen fortfarande 256 bitar, så är det en instruktion/2 klockor som gäller då eller hur funkar det? (Med pipelining får man hoppas, så samma prestanda som med 512-bitars enheter, fast längre latency istället.)

Tydligen ingen nedklockning vid användning av AVX512 hos AMD sägs det, vilket ju är bra ur generell prestandasynpunkt.

Rapportera Redigera

Citera flera Citera

2022-11-12 03:18

Permalänk

HappyPie

Medlem ★

Plats: Göteborg
Registrerad: Nov 2002

●

Skrivet av anon132576:

Någon som vet vad för reell prestanda AVX512 ger i Zen5-tappning, jämfört med gamla AVX256? Beräkningsenheterna är ju tydligen fortfarande 256 bitar, så är det en instruktion/2 klockor som gäller då eller hur funkar det? (Med pipelining får man hoppas, så samma prestanda som med 512-bitars enheter, fast längre latency istället.)

Tydligen ingen nedklockning vid användning av AVX512 hos AMD sägs det, vilket ju är bra ur generell prestandasynpunkt.

Gå till inlägget

Wendell videon som länkade ovan av enbom går igenom AVX egenskaperna vid 18:38, ser onekligen intressant ut
(länken nedan är satt vid denna tid)

Rapportera Redigera

Citera flera Citera (3)

2022-11-12 09:18

Permalänk

FattarNiInte

Medlem

Registrerad: Mar 2016

●

Skrivet av kelthar:

Visste inte att VMs behövde migreras mellan arkitekturer. Trodde man kunde köra en x86 vm på alla olika, men det kanske har att göra med nyttjandet av speciella instruktioner som bara finns på en plattform kanske? Vet du?

Edit: Verkar som cold migration aldrig varit ett problem, men live har inte gått i vissa fall.

Gå till inlägget

Nyheten, gissar jag, är att en server som kör AVX-512 nu kan migreras.

Rapportera Redigera

Citera flera Citera (1)

2022-11-12 11:33

Permalänk

RVX

Medlem ★

Registrerad: Aug 2008

●

Wow AMD, DAMM! 😂

Visa signatur

🖥️ Fractal Design Node 804 • Asrock Fatal1ty X99M Killer • Intel 5820K • Noctua NH-U12S • Corsair Vengeance 16GB • Gigabyte GTX 970 • be quiet! Dark Power Pro 550w • 2x Intel 520 120GB • 2x 1TB • 1x 3TB
💻 Microsoft Surface Pro (8GB/128GB)
 iPhone 11 64GB 🎧 SONY WH-1000XM3
🎵📲 SONY NW-ZX300 64GB [Region changed & Mr Walkman custom firmware loaded] + 256GB xtra • Audio Technica ATH-M50X

Rapportera Redigera

Citera flera Citera

2022-11-12 12:39

Permalänk

hölmiz

Medlem ★

Plats: Gillstad
Registrerad: Feb 2009

●

Jag tar 2

Visa signatur

Rapportera Redigera

Citera flera Citera

2022-11-12 16:54

Permalänk

Yoshman

Datavetare ★

Plats: Stockholm
Registrerad: Jun 2011

●

Skrivet av DasIch:

Nej, inte ens i närheten. GPU;er är bra på att köra en enkel instruktion på multipla/olika data. En CPU är i regel bra på multipla instruktioner på multipla data (@Yoshman kan säkert förklara det bättre). Jämförelsevis kan en Turing-GPU köra 1024 trådar per kärna (vet inte om det ändrats på senare arkitekturer). Ett 2080Ti har 68 SM's. Nu är siffran för all del teoretisk, men ger i varje fall en fingervisning om hur mycket effektivare en GPU är för sitt specifika ändamål.

Gå till inlägget

Ska man göra en någorlunda äpplen-mot-äpplen jämförelse mellan en GPU och CPU får man jämföra "CUDA-cores".

Närmaste man kommer en "CUDA-core" på en CPU är med formeln: SIMD¹ databredd (256 i Zen4) / 32 (antal bitar i FP32) * peak-FLOP-per-kärna (4 st i Zen4) = 32 "CUDA-kärnor" per Zen4 kärna.

Så det är 96*32=3070 st "CUDA-kärnor" i EPYC 9654P/9654P.

Om man sedan utgår från att det går att hålla runt peak-frekvens med tillräcklig kylning, vilket Wendell säger är möjligt (han säger att man inte är så långt från maxfrekvensen i det läget) motsvarar FP32 kapaciteten en nivå mellan RTX3050 och RTX3060, närmare den senare.

Men jämförelsen haltar ändå lite mot CPUer då ovan bara är "shader steget", GPUer har sedan HW för rastrering / texturering som en CPU skulle behöva göra med sanna CPU-resurser som den använder till "shaders".

Oavsett: om någon verkligen försökte skulle man nog kunna göra en rätt bra software rendererare på en sådan här CPU! Dock inte så effektiv givet att CPUn drar ~400 W för att presterar motsvarande en instegs GPU med TDP på <150 W.

Det man gör med GPGPU konkurrera med att göra motsvarande med SIMD på CPU. Superdatorn Fujitsu A64FX som under ett par år var världens snabbaste använder inte GPGPU, istället har den en väldigt "bred" SIMD-data-path vilket fungerar lite som om den hade en integrerad GPU som saknar delarna för rastrering!

¹ AMD/Intel/Qualcomm/Arm kör verkligen SIMD på sina GPUer, Nvidia kör en lite annan variant som de kallar SIMT. Innan Turing var det mest en teoretisk skillnad, från Turing och framåt är Nvidia något bättre på att hantera divergerande flöden än vad fallet blir med SIMD p.g.a SIMT. SIMD fungerar exceptionellt bra i traditionell rastrering då shaders där normalt har väldigt låg frekvens av divergerande flöden.

Skrivet av anon132576:

Någon som vet vad för reell prestanda AVX512 ger i Zen5-tappning, jämfört med gamla AVX256? Beräkningsenheterna är ju tydligen fortfarande 256 bitar, så är det en instruktion/2 klockor som gäller då eller hur funkar det? (Med pipelining får man hoppas, så samma prestanda som med 512-bitars enheter, fast längre latency istället.)

Tydligen ingen nedklockning vid användning av AVX512 hos AMD sägs det, vilket ju är bra ur generell prestandasynpunkt.

Gå till inlägget

AVX512 ger i stora drag 3 nyheter

högre generell peak-prestanda, 2x över AVX p.g.a. 512 bitar databredd. Detta är enda saken Zen4 saknar
högre "AI" prestanda via VNNI, 8x i peak varav 2x kommer från punkten ovan -> Zen4 har 4x boost här
SIMD fungerar lysande i fall där alla "CUDA-kärnor" gör samma sak, det är möjligt att hantera divergenta flöden men det kostar prestanda. AVX512 har specifikt stöd för detta (vilket även moderna GPUer har) vilket minska prestandaförlusten

Ska man gå på Wedells video som är postad här verkar punkt 2 vara fokus för AMD när det kommer till AVX512. Låter fullt rimligt givet att Intel valde att stryka AVX512 i Alder Lake och i stället göra SIMD på x86 till än ännu större sörja² genom att införa 256-bit VNNI.

AI är allt mer kritiskt, på x86 är det accelererat via VNNI instruktioner.

² Problemet är att det finns allt fler sätt att koda i grunden samma sak. VNNI finns nu i en AVX-512 version som använder sig av EVEX (stödjer 128, 256 och 512 bit) samt VEX (stödjer 128 och 256 men är en annan binär kodning än EVEX...).

AVX/AVX2 har i sin tur ett nära nog 100 % överlapp med SSE sett till funktion, men med olika kodningar då AVX/AVX2 dels har stöd för 256-bit (utöver 128-bit) och stöd för upp till 4 operander per instruktion (mot 2 operander i SSE).

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Rapportera Redigera

Citera flera Citera (3)

2022-11-12 21:52

Permalänk

anon132576

Inaktiv

Registrerad: Mar 2009

●

Skrivet av Yoshman:

Oavsett: om någon verkligen försökte skulle man nog kunna göra en rätt bra software rendererare på en sådan här CPU! Dock inte så effektiv givet att CPUn drar ~400 W för att presterar motsvarande en instegs GPU med TDP på <150 W.

Gå till inlägget

Det skulle säkert kunna bli bra, men fan, pröjsa typ 80 papp eller säkert ännu mer nu efter coronainflation... Blir ett så dyrt experiment att det knappt ens är värt att försöka sig på... Är ju i princip bara storföretag och institutioner som har pengar att lägga på fetaste modellen av Epyc enbart för lek och experimenterande.

Annars borde ju en Epyc sopa banan med en GPU när det kommer till mer komplicerad shaderkod med villkor och hopp och sånt. CPUer har ju tonvis med hårdvara för att hjälpa till vid sådana situationer, och typ inget som finns i en GPU pga resursåtgång, strömförbrukning osv...

Rapportera Redigera

Citera flera Citera

2022-11-12 22:50

Permalänk

inquam

Medlem ★

Plats: Karlskrona
Registrerad: Aug 2009

●

Tänk om en 5 år eller så när man kan uppgradera sin homeserver till en sådan här för humana pengar

Visa signatur

Huvudriggen är en Gigabyte Aorus Xtreme | 128gb DDR5 6000 | Ryzen 7950X | 3080Ti
Utöver det är det för många datorer, boxar och servar för att lista :P

Rapportera Redigera

Citera flera Citera

2022-11-13 01:20

Permalänk

tore_a

Medlem

Plats: Östergötland
Registrerad: Apr 2020

●

Satt och funderade lite på det här med minnes-kanaler. På konsument processorer är det vanligtvis 2 kanaler och då kallar vi det "Dual Channel Memory" och på extrem-plattformar är det 4, 6 eller 8 och då kallas det "Quad", "Hexa" och "Octa". Är det någon som har hört/läst om de här processorerna har någon sådan benämning gällande minnes-kanaler?
Jag blev inte riktigt klok på vilket system namnen kommer ifrån, men att kalla det "Dozen Channel Memory" låter väl inte fel?

Visa signatur

Aopen H450A, MSI B450m
Ibland så skriver jag inte så fort.
Salt kan behövas om jag skrivit något efter 23:58

Rapportera Redigera

Citera flera Citera

2022-11-13 08:02

Permalänk

pa1983

Medlem ★

Registrerad: Okt 2001

●

Skrivet av tore_a:

Satt och funderade lite på det här med minnes-kanaler. På konsument processorer är det vanligtvis 2 kanaler och då kallar vi det "Dual Channel Memory" och på extrem-plattformar är det 4, 6 eller 8 och då kallas det "Quad", "Hexa" och "Octa". Är det någon som har hört/läst om de här processorerna har någon sådan benämning gällande minnes-kanaler?
Jag blev inte riktigt klok på vilket system namnen kommer ifrån, men att kalla det "Dozen Channel Memory" låter väl inte fel?

Gå till inlägget

Dom följer ju inte nåt etablerat system då quad tex borde vara tetra om man följde grekiska räkneord, hexa eller octa följer ju dock det systemet.

https://wiki.c2.com/?NumericalPrefixes

Däremot används Deca för 10 core processorer och Dodeca för 12 core.
https://en.wikichip.org/wiki/dodeca-core

Så jag skulle förslå "Dodeca channels" för 12 kanaler eller på svenska "Dodeka kanaler", låter sådär men men XD

Visa signatur

Yotube videos om retro hårdvara och spel
Gallerier om retro hårdvara
Brain Drain Retro Lan Discord server
Braindrain Retro Lan social media websida

Rapportera Redigera

Citera flera Citera (2)

2022-11-13 08:04

Permalänk

medbor

Medlem ★

Like-magnet

Registrerad: Okt 2011

●

Skrivet av tore_a:

Satt och funderade lite på det här med minnes-kanaler. På konsument processorer är det vanligtvis 2 kanaler och då kallar vi det "Dual Channel Memory" och på extrem-plattformar är det 4, 6 eller 8 och då kallas det "Quad", "Hexa" och "Octa". Är det någon som har hört/läst om de här processorerna har någon sådan benämning gällande minnes-kanaler?
Jag blev inte riktigt klok på vilket system namnen kommer ifrån, men att kalla det "Dozen Channel Memory" låter väl inte fel?

Gå till inlägget

Dodeca används ofta för att prata om 12 kärnor i en cpu

(Edit: lite för långsam tydligen!)

Rapportera Redigera

Citera flera Citera (1)

2022-11-13 08:35

Permalänk

Yoshman

Datavetare ★

Plats: Stockholm
Registrerad: Jun 2011

●

Skrivet av anon132576:

Det skulle säkert kunna bli bra, men fan, pröjsa typ 80 papp eller säkert ännu mer nu efter coronainflation... Blir ett så dyrt experiment att det knappt ens är värt att försöka sig på... Är ju i princip bara storföretag och institutioner som har pengar att lägga på fetaste modellen av Epyc enbart för lek och experimenterande.

Annars borde ju en Epyc sopa banan med en GPU när det kommer till mer komplicerad shaderkod med villkor och hopp och sånt. CPUer har ju tonvis med hårdvara för att hjälpa till vid sådana situationer, och typ inget som finns i en GPU pga resursåtgång, strömförbrukning osv...

Gå till inlägget

Modellen jag räknade med ovan kostar inga 80 papp, räknar man med moms hamnar den på det dubbla
(ca ~162 000 SEK)!

Är lite som man undrar hur pass dyrt det är att använda TSMC 5 nm. Efter att kollat på Phoronix och gjort lite perf/$ överslag så ser det ut lite som på CPU-marknaden: prestanda per socket ökar rätt ordentligt, men det har också priset gjort. Så perf/$ är (i alla fall för toppmodellerna) ökar inte speciellt mycket (positiva är att det trots allt ändå ökar, vilket inte riktigt hände på GPU-sidan när det var som värst).

Rätt schyst ökning av peak-effekten också. I Phoronix tester gick effekten för t.ex. Blender upp från ~560 W till ~810 W för toppkonfigurationerna i Milan resp. Genoa.

Borde inte effekten börja bli ett problem? Amazon valde att göra deras Graviton 3 plattform till tripple-socket då det gav snarlik effekt (fortfarande <400 W totalt) mot Intel/AMDs dual-socket alternativ räknat per system. Allt pekar ju på att även Intel kommer skruva upp effekt per socket, AMD/Intel låg på 250-300 W och går nu upp till 350-400 W (själva socket:en tål ännu mer, AMD nämnde 700 W som gräns för SP5)

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Rapportera Redigera

Citera flera Citera (2)

AMD lanserar Epyc 9004 – jätteprocessorer för superdatorer

AMD lanserar Epyc 9004 – jätteprocessorer för superdatorer

Externa nyheter

Spelnyheter från FZ