Intel planerar 3D V-Cache-utmanare – för servrar

Permalänk
Medlem

Nu har jag inte läst alla kommentarer men nån skrev att Intel är påväg att gå under vilket jag ifrågasätter. I alla fall inte pågrund av nån 3D-cache.
På det företaget jag jobbar på så handlar man från Dell/HP = Intel.
Vi har väl ca 10000 datorer, mest laptops, och på min laptop sitter det en i5-8365U vilket är en 5 år gammal processor.
Jag menar Intel trycker ju ut denna typ av processorer till företag och är väl därför Intel har så stor marknadsandel, vilket inte skulle öka mycket med en 3D-cache variant.

PS. Jag är lite av en AMD-fan DS.

Permalänk
Medlem
Skrivet av SwedenVirre:

Jo men folk som inte spelar hade t.ex Zen C varienter passat bättre i mitt tycke, du offrar lite prestanda för en betydande mängd energi åtgång vilket är något som dom implementerat i 8500G t.ex. Vilket även gör dom billigare att tillverka och lättare att sälja större volymer.

så att du har två linjer på desktop sidan, stora kärnor samt mycket cache, samt mindre kärnor och mindre cache där man tappar i princip bara spelprestanda och vissa data intesiva server laster(vilket majoriteten inte vill betala för eller nyttjar för den delen)

så mer marginal för AMD och lite billigare cpuer till den breda massan.

Jag tycker nog det finns utrymme för tre typer av produkter.

  1. Energieffektiva och billiga processorer för den som bara vill skriva i Word och kolla Youtube.

  2. V-Cache och medelstort antal kärnor (6 - 8 stycken) för gamers

  3. Många kärnor (12+) för den som sysslar med produktivitet och kör program som kan dra nytta av många kärnor.

Viktigt att komma ihåg att V-Cache inte gör så mycket nytta utanför (vissa) spel och ett fåtal andra specifika laster, så det är inte nödvändigtvis något man behöver för alla typer av laster, speciellt de som drar nytta av många kärnor.

Däremot verkar det gå mot att de flesta *nackdelarna* med V-Cache börjar försvinna. På Zen3 och Zen4 offrade man en del i klockhastighet för att få V-Cache. På Zen3 fanns även V-Cache bara upp till 8 kärnor. På Zen4 kunde man visserligen få 16 eller 12 kärnor, men bara 8 eller 6 av dem hade tillgång till V-Cache vilket gjorde speciellt 7900X3D till en väldigt märklig och obalanserad produkt.

På Zen5 däremot får man näsan samma klockhastighet med som utan V-Cache, och det verkar även som att 9950X3D kommer ha V-Cache kopplad till båda CCD:erna, så då är det högre priset i princip den enda nackdelen som finns kvar.

Visa signatur

Phanteks XT Pro Silent | Phanteks PH-TC14PE | Seasonic Core GX V2 850W | Asus Prime X370 Pro | Ryzen 9 5950X | Corsair 32GB 3600 MT/s | ASRock RX 9070 XT Steel Legend 16GB | WD Blue SN550 NVMe SSD 1TB
https://soundcloud.com/advancedfollower

Permalänk
Medlem

När man tror Intel inte kan sjunka lägre på intresse radarn för en gamer...

Intel: "hold my beer"

Permalänk
Medlem
Skrivet av Pepsin:

Jag tycker nog det finns utrymme för tre typer av produkter.

  1. Energieffektiva och billiga processorer för den som bara vill skriva i Word och kolla Youtube.

  2. V-Cache och medelstort antal kärnor (6 - 8 stycken) för gamers

  3. Många kärnor (12+) för den som sysslar med produktivitet och kör program som kan dra nytta av många kärnor.

Viktigt att komma ihåg att V-Cache inte gör så mycket nytta utanför (vissa) spel och ett fåtal andra specifika laster, så det är inte nödvändigtvis något man behöver för alla typer av laster, speciellt de som drar nytta av många kärnor.

Däremot verkar det gå mot att de flesta *nackdelarna* med V-Cache börjar försvinna. På Zen3 och Zen4 offrade man en del i klockhastighet för att få V-Cache. På Zen3 fanns även V-Cache bara upp till 8 kärnor. På Zen4 kunde man visserligen få 16 eller 12 kärnor, men bara 8 eller 6 av dem hade tillgång till V-Cache vilket gjorde speciellt 7900X3D till en väldigt märklig och obalanserad produkt.

På Zen5 däremot får man näsan samma klockhastighet med som utan V-Cache, och det verkar även som att 9950X3D kommer ha V-Cache kopplad till båda CCD:erna, så då är det högre priset i princip den enda nackdelen som finns kvar.

Jag håller med, Jag hade ju förvisso i åtanke att dom mindre Zen C kärnorna också tar plats i cpuer med 16(eller mnöjligen fler) på desktop för den typen av last.

Men å andra sidan så har AMD en bra lineup idag med 9xxxx serien, där finns produkter i stort sätt för alla, och även lite märkligare produkter t.ex med 79xxX3D serien, men jag förstår varför den släpptes på det viset också, att ha mer cache på den andra CCDn gör inget då man ändå vill ha ett spel t.ex där cachen finns och man vill gärna inte gå från CCD till CCD(likt vi såg i tidigare ryzen där latenserna stack mellan CCX)

Visa signatur

Jag har ingen dator att visa upp här nere längre, men jag har en fräsig formel 1 bil i Lego!

Permalänk
Skrivet av Thomas:

Absolut, deras ingenjörer har bekräftat detta.
De tog några överblivna dies från serverkretsar, byggde ihop en AM4-CPU och testade den i spel. Riktigt häftigt att deras CCDs är så modulära att det överhuvudtaget är möjligt.

https://www.youtube.com/watch?v=RTA3Ls-WAcw#t=13m10s

Varför i hela friden startade de inte bara ett spel på en server istället för att se hur cachen presterar?
Låter ju smått omständigt att bygga om cpun till AM4 för att undersöka prestandan.

Permalänk
Medlem
Skrivet av FattarNiInte:

Varför i hela friden startade de inte bara ett spel på en server istället för att se hur cachen presterar?
Låter ju smått omständigt att bygga om cpun till AM4 för att undersöka prestandan.

Ibland är det roligare att vara Frankenstein?

Visa signatur

Intel i5 12600k OC 5.2GHz | Arctic Freezer II 240 | MSI Pro Z690 A | 2x 16Gb Corsair LPX 3200MHz | Asus Tuf 4070 Ti | Corsair Rm850x V3 | 2x 1Tb Samsung 980 m2 | 4x Noctua A14x25 2xT30, 1x Noctua A12x25, 3x ek loop

Permalänk
Medlem
Skrivet av GuessWho:

Alltså Intels S processorer. De som är för "vanliga användare".

Exempelvis Core i7 7700K Tillhör Kaby Lake S

Kaby Lake S - Cores - Intel
Kaby Lake S (KBL-S) is the name of the core for Intel's mainstream performance line of processors based on the Kaby Lake microarchitecture serving as a successor to Skylake S core. These chips are primarily targeted towards desktop performance to value computers, AiOs, and minis.

Exempel

Processor Core/T L3 cache RAM Socket Arkitektur i5-2500K 4/4 6 MB DDR3 LGA1155 Sandy Bridge i7-2700K 4/8 8 MB DDR3 LGA1155 Sandy Bridge i7-3770K 4/8 8 MB DDR3 FCLGA1155 Ivy Bridge i7-4770K 4/8 8 MB DDR3 FCLGA1150 Haswell i7-4790K 4/8 8 MB DDR3 FCLGA1150 Devil's Canyon i5-5675C 4/4 4 MB* DDR3 FCLGA1150 Broadwell i7-5775C 4/8 6 MB* DDR3 FCLGA1150 Broadwell i7-6700K 4/8 8 MB DDR4 FCLGA1151 Skylake i7-7700K 4/8 8 MB DDR4 FCLGA1151 Kaby Lake --- i3-8350K 4/4 8 MB DDR4 FCLGA1151 Coffee Lake i5-8600K 6/6 9 MB DDR4 FCLGA1151 Coffee Lake i7-8700K 6/12 12 MB DDR4 FCLGA1151 Coffee Lake

* Broadwell procesorerna i5-5675C och i7-5775C har bara 4 MB respektive 6MB L3 cache.
Men de har också 128MB eDRAM som i första hand är tänkt för att ge kraftfullare iGPU, men som även kan användas som L4 cache.

I övrigt var det så det såg ut.
i5 = 4 kärnor UTAN HT (4C/4T) med 6MB L3
i7 = 4 kärnor MED HT (4C/8T) med 8MB L3
Fram tills Coffee Lake lanserades.

Om jag inte bommat någon så är detta de modeller som var flaggskepps modellerna för vanliga S plattformarna, de vanliga mainstream plattformarna, fram tills Coffee Lake lanserades.
Förutom att jag även slängde med i5 2500K för att visa en i5 modell samt i5-5675C för att Broadwell generationen avvek från vanliga receptet.

Processorer för Servrar, workstation och HEDT är något annat.

Vanliga Hashwell hade namn i 4000 serien och använde LGA1150 socketen.
Normalt är 5000 serien Broadwell.

i7-5820K är inte Broadwell utan Haswell E och använder LGA2011.
LGA 2011
LGA 2011 was designed for high-end desktops and high-performance servers.

High-performance servers och HEDT är inte samma segment som vanliga S maintream processorerna och använder inte ens samma socklar. Du kan inte installera din i7-5820K i ett vanligt LGA1150 moderkort (tvärtom fungerar inte heller).

Om du bortser från att jag inkluderade någon i5 och en i3 modell för referens i tabellen, så ska övrigt vara det som var top of the line i respektive generation på vanliga S plattformen.
S plattformarna användes av de flesta konsumenter och på företag för vanliga kontorsdatorer och dylikt om de inte behövde workstations och kraftfullare servrar.
Även vissa enklare servrar använde S plattformarna.

Snygg genomgång! Vet att HEDT/Extreme skiljer sig, men när man säger "för vanliga användare" så är det värt att nämna att för vanliga användare tror jag ofta att i5 är i5 och i7 är i7, ville notera att vissa i7 framförallt stack ju ut. Jag hade en i7-950, såg inget värde i att uppgradera förrän det sen blev en 5820K. Har även en server med 2 st E5 2470v2 i som skrotar i något hörn

Följde hela "fyrkärniga" perioden väldigt noga då jag konstant var sugen på att uppgradera spelriggen men kände att det liksom inte hände något. Just det blev anledningen att jag fastnade i ryzen när jag tröttnade på att vänta - kört AM4 sedan 2018.

Har på ett par olika företag stött på den oerhört frustrerande policyn att krav på laptops ska vara i5/i7, och innan jag tog över beställningarna på senaste jobbet så var det inte great precis, en serie laptops hade köpts in för säljare som behövde köra stors cadprojekt- tror de hade fått 7200U eller något i den serien. Annan personal som efterfrågade 15" men inte körde något tungt hade råkat få precision med 6870HQ eller något i den kalibern.

Visa signatur

Gamingrigg: MEG x570 ACE, 5950X, Ripjaws V 32GB 4000MT/S CL16, 6800XT Red Devil LE, HX1200i.
Laptop: XPS 9570 x GTX 1050 x 8300h + 16GB Vengeance 2666Mhz + Intel AX200
Valheim server: i7-8559 + Iris Plus 655 + 32GB + 256GB
Printers? Yes. Ender 5, Creality LD-002R, Velleman VM8600, Velleman K8200

Permalänk
Medlem
Skrivet av maweric:

Vad tjänar en server CPU på att ha mer cache? Om det innebär lägre frekvens jämfört med en CPU utan extra cache.

Det är precis som på desktop sidan att det helt beror på vad som körs på servern. Därför som de inte kommer att släppa detta på alla sina Xeon utan enbart på vissa modeller precis som AMD gör med Epyc.

Visa signatur

|Ryzen 5800x3d|RX 7900XTX Hellhound|Asus Prime X370 Pro|32GiB Corsair 3200MHz CL16 Vengeance|Corsair HX1000i|Fractal Define R5|LG 45GR95QE|Corsair K100|Razer DeathAdder V3 Pro|Ubuntu 24.04|

Permalänk
Medlem
Skrivet av F.Ultra:

Det är precis som på desktop sidan att det helt beror på vad som körs på servern. Därför som de inte kommer att släppa detta på alla sina Xeon utan enbart på vissa modeller precis som AMD gör med Epyc.

Vilka scenarion tjänar man på den extra cachen då?

Visa signatur

JJ2 Multiplayer
JJ2 ZStats

[1] Ryzen 5800X | 5500XT | Kingston A2000 | Lenovo G24-10 144Hz [2] Ryzen 5700G | RX 480 | WD Blue SN550 [3] Ryzen 5600G | Kingston A2000 [4] Ryzen 3600 | GT 740 | 850 EVO [5] Ryzen 3600 | Geforce 405 | 850 EVO (alla är i bruk)

Permalänk
Medlem
Skrivet av maweric:

Vilka scenarion tjänar man på den extra cachen då?

Phoronix testar rätt blandade arbetslaster, med HPC är det mer komplicerat än att bara säga "x är bättre än y i alla laster av typ z" då det beror på configs och man, gissar jag, kan kontrollera rätt väl hur man vill arbeta med saker- det är inte som ett spel där alla i princip behöver kunna köra samma exakta process på samma sätt. Det ser ut som att X3D har en betydelsefull styrka i vissa scenarion där, men utan att vara insatt i exakt hur och vad de kör pytorch på så vågar jag inte påstå att deras pytorch-resultat kan generaliseras, till exempel.

Visa signatur

Gamingrigg: MEG x570 ACE, 5950X, Ripjaws V 32GB 4000MT/S CL16, 6800XT Red Devil LE, HX1200i.
Laptop: XPS 9570 x GTX 1050 x 8300h + 16GB Vengeance 2666Mhz + Intel AX200
Valheim server: i7-8559 + Iris Plus 655 + 32GB + 256GB
Printers? Yes. Ender 5, Creality LD-002R, Velleman VM8600, Velleman K8200

Permalänk
Medlem

Varför ska AI beräkningar göras på gpun och inte på cpun? Känns som teknikutvecklingen på CPU sidan har stannat upp. Vilket medför att fler saker flyttas över till gpun på hemdatorer.

Visa signatur

Ryzen 5800X ROG STRIX X570-f GAMING FlareX DDR43600 cl 14-14-14-34 EVGA FTW3 Ultra RTX 3090

Permalänk
Medlem
Skrivet av sesese:

Varför ska AI beräkningar göras på gpun och inte på cpun? Känns som teknikutvecklingen på CPU sidan har stannat upp. Vilket medför att fler saker flyttas över till gpun på hemdatorer.

Varför är väldigt enkelt... Det är typ 1000 ggr snabbare. Finns inte en chans att cpu kommer komma ikapp närmaste tiden

Visa signatur

Intel i5 12600k OC 5.2GHz | Arctic Freezer II 240 | MSI Pro Z690 A | 2x 16Gb Corsair LPX 3200MHz | Asus Tuf 4070 Ti | Corsair Rm850x V3 | 2x 1Tb Samsung 980 m2 | 4x Noctua A14x25 2xT30, 1x Noctua A12x25, 3x ek loop

Permalänk
Medlem
Skrivet av maweric:

Vilka scenarion tjänar man på den extra cachen då?

Eftersom L3 är en evicition cache (dvs det som hamnar där är det som behövde flyttas från L1 och L2 för att få plats med ny data) så gynnas sådan mjukvara som behöver access till data som den haft access till tidigare men där mängden är för stor för att på plats i L1 och L2 mellan accesserna samt att det skall vara så pass liten processning av datan att latensen mot minnet är kritiskt.

Så t.ex en databas server där många av förfrågningarna kommer på samma datamängd samtidigt som den mängden är större än L1/L2 men får plats i L3 (har man tur kanske hela index får plats i L3).

Ett annat scenario (som typ aldrig benchmarkas) är om du har många fler trådar/processer än kärnor som behöver köras (dvs tung multitasking), där kommer l1 och l2 ofta att skrivas över av den tråd/processor som fick kärnan och vid nästa scheduling så kommer l1 och l2 att skrivas över av nästa tråd/applikation (pga att l1 och l2 är så små), l3 kan då tillhandahålla det som slängdes ut från l1/l2 så att tråden/processen slipper läsa från långsamt minne varje gång som den kastas ut och in från en kärna.

Skrivet av sesese:

Varför ska AI beräkningar göras på gpun och inte på cpun? Känns som teknikutvecklingen på CPU sidan har stannat upp. Vilket medför att fler saker flyttas över till gpun på hemdatorer.

Därför att AI beräkningar är mestadels multiplikationer av flyttal och det råkar också vara precis vad beräkning av 3d-grafik består av så arkitekturen hos en GPU (som har tusentals enklare kärnor [16384 på en 4090]) passar mycket bättre för detta än en CPU (som har betydligt färre men generella kärnor).

Visa signatur

|Ryzen 5800x3d|RX 7900XTX Hellhound|Asus Prime X370 Pro|32GiB Corsair 3200MHz CL16 Vengeance|Corsair HX1000i|Fractal Define R5|LG 45GR95QE|Corsair K100|Razer DeathAdder V3 Pro|Ubuntu 24.04|

Permalänk
Medlem

När AI kommer in i CPUn så kommer tekniken att gå från att endast finnas i vissa PC stationer till att finnas i alla. När alla ny PC plattformer får AI så kommer ännu fler program och webbläsar nyttja tekniken. Det viktiga är inte prestandan utan att alla får del av AI hårdvara. När alla moderna PC stationer har AI då kommer prestandan bli mer intressant. Därför är det viktigt att tekniken kommer in i CPUn.

Visa signatur

Ryzen 5800X ROG STRIX X570-f GAMING FlareX DDR43600 cl 14-14-14-34 EVGA FTW3 Ultra RTX 3090

Permalänk
Datavetare
Skrivet av GuessWho:

Exempelvis under Intels quad core era hade en i7 8MB L3 cache.
Oavsett om du kör en i7-2600K eller en i7-7700K hade de 8MB L3 cache.
Medan om du istället går upp till en Ryzen med Zen 2, Zen 3, Zen 4 eller Zen 5 har de haft 32MB L3 per chiplet.
Så går du från en i7-7700K till en Ryzen 5 3600X eller Ryzen 7 3800X så får du 32MB L3 cache istället.
Att gå från 8MB L3 till 32MB L3 är ju ändå fyra gånger så mycket.
Även om det i det senare fallet är 6 eller 8 kärnor som delar på det istället för 4 kärnor, så är det fortfarande mer både totalt och sett per kärna.

Jämför då mot Intel CPUer fram till Skylake generationen så hade Ryzen väldigt mycket mer tillgänglig cache då L3$ på Ryzen är en victim-cache (exclusive) medan Core fram till Skylake körde med inclusive L3$.

Båda har för och nackdelar. Huvudfördelen med exlusive policy är att kapaciteten blir summan av L2+L3, medan den är L3 för inclusive. Fördelen med inclusive cache är att enklare att implementera och har lägre latens när olika kärnor petar på samma data.

Just då det börjar bli svårt för Intel/AMD att skala upp IPC på vettiga sätt har de lagt allt mer av transistorbudget på cache. Det har gjort inclusive L3$ problematisk då den policyn fungerar bara bra om L3$ är betydligt större än privat L2$. Så dagens Intel-modeller har en "non-inclusive" policy mellan L2$ och L3$.

Klicka för mer information

Inclusive Cache

  • Benefits:

    • Simplifies data sharing across cache levels by ensuring the L3 cache contains all L1 and L2 data.

    • Simplifies cache coherence in multi-core environments.

    • Suitable for workloads with predictable data access patterns.

  • Drawbacks:

    • Consumes more L3 cache space due to redundancy.

    • Limits effective size for unique data, reducing efficiency for diverse workloads.

Non-Inclusive Cache

  • Benefits:

    • Maximizes unique data in the L3 cache, reducing redundancy and increasing efficiency.

    • Ideal for large, diverse workloads and modern multi-core systems.

    • Reduces unnecessary coherence traffic, improving latency.

  • Drawbacks:

    • More complex to manage cache coherence.

    • Slightly higher implementation cost due to adaptive strategies.

Victim Cache

  • Benefits:

    • Retains evicted data from L1/L2 caches for potential reuse, improving hit rates for temporal locality workloads.

    • Compact and cost-effective, making it ideal for embedded or constrained systems.

  • Drawbacks:

    • Limited scalability to larger systems or highly diverse workloads.

    • Not as effective for workloads requiring a high degree of unique data storage.

Visa mer
Skrivet av GuessWho:

Det kan ju hända i framtiden också att även vanliga versioner får ökad mängd cache jämfört med de modeller som finns tillgängliga idag.

Absolut. Det trista är att just SRAM har drabbats hårdare av försämrad skalning än annat... Så tyvärr kommer den relativa kostnaden för cache öka snabbare än önskat

Skrivet av sesese:

Varför ska AI beräkningar göras på gpun och inte på cpun? Känns som teknikutvecklingen på CPU sidan har stannat upp. Vilket medför att fler saker flyttas över till gpun på hemdatorer.

Det är inte så enkelt att GPU alltid är bättre än CPU på AI/machine-learning. Vore så fallet skulle t.ex. Xeon Max vara helt meningslöst, lika så att addera AVX-512 (och SVE2 hos ARM64).

För träning är oftast GPU att föredra, men finns modeller/algoritmer där CPU är snabbare. Mindre modeller gillar CPU bättre, större gillar GPU.

För inferens är ofta, men inte alltid, latens viktig och den är lägre hos CPU. För LLMs är ändå GPU bättre för riktigt stora modeller blir begränsade av RAM-bandbredd, den är långt högre hos GPU!

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer