Intel tillkännager Cascade Lake-AP med upp till 48 kärnor och tolv minneskanaler

2018-11-05 19:16

Medlem ★

Plats: Stockholm
Registrerad: Dec 2008

●

Nåja, Fler kärnor är något som behövs, då HT/SMT har nått sin ände.
Med alla dessa sidechain exploits så är det väl snart ingen seriös aktör som kommer köra med HT/SMT påslaget längre.
( bonus, bättre IPC när alla kärnor går för fullt)

Rapportera Redigera

Citera flera Citera

2018-11-05 19:30

Medlem ★

Plats: Jönköping
Registrerad: Nov 2004

●

Skrivet av Jacob:

Det var länge sen man blev anklagad för att ha en bias mot Intel, normalt fall är vi ju köpta av just Intel eller Nvidia. Att citationstecken används så är väl inget nytt. Det är ett citat av något från Intel, sen är det en länk i då det är relevant i sammanhanget. Ska jag lägga någon värdering i formuleringen "helt ny skapelse" tycker jag det är positivt laddat snarare än negativt.

Har svårt att sätta fingret på exakt vad som görs för fel och får dig att reagera mot mig som person. Kan dock konstatera att rapporteringen om AMD generellt varit mer positiv typ de senaste två åren, vilket har en direkt koppling till att bolagets processorer numera är bra till skillnad från innan de släppte Zen och jag inte kunde rekommendera en AMD-processor till någon. Samtidigt är det ingen hemlighet att motpolen (Intel) har sina utmaningar idag och då blir rapporteringen i större utsträckning så klart mer ... negativ.

Tittar vi på grafikkortssidan tycker jag det snarare är tvärtom. Där är vår rapportering och det jag som utpekad skriver mer negativ om AMD som är i klart underläge och behöver rycka upp sig. Varken jag eller någon annan i redaktionen kommer skriva att solen skiner när så inte är fallet för att skapa nån form av "jämvikt" i hur snälla vi är mot företag X, Y och Z.

Avslutningsvis förstår jag inte vad FZ har med något på SweClockers eller mig själv att göra. Vi sitter under samma tak, men arbetar i allt väsentligt som två helt fristående redaktioner. De har en stil som du beskriver (och inte tycker om), medan vi har en annan där vi siktar på att förhålla oss så neutralt som möjligt i nyheter.

Gå till inlägget

Jag upplevde artikeln som saklig - personen som klagade har jag svårt att se är något annat än en Intel-fanboy som vaknat på fel sida.

Med det sagt så låter det som en spännande produkt. Det kommer bli intressant att se hur (om?) AMD svarar!

Skickades från m.sweclockers.com

Visa signatur

WS: MSI B350M Mortar | AMD Ryzen 7 1700 | PH-TC14PE | 32GB DDR4 3000MHz | 1TB Kingston NV2 | Intel Arc A750 8GB | 2*BenQ G2420HDB
Router: Gigabyte GA-870-UD3 | AMD Phenom II x6 1055t @ 2600MHz, 1.25V | 12GB DDR3 | 2*250GB HDD @ RAID1 | 4TB HDD
Laptop: Thinkpad X220 4291-QF6

Rapportera Redigera

Citera flera Citera (1)

2018-11-05 19:36

Medlem ★

Plats: Jönköping
Registrerad: Nov 2004

●

Skrivet av Lordsqueak:

Nåja, Fler kärnor är något som behövs, då HT/SMT har nått sin ände.
Med alla dessa sidechain exploits så är det väl snart ingen seriös aktör som kommer köra med HT/SMT påslaget längre.
( bonus, bättre IPC när alla kärnor går för fullt)

Gå till inlägget

Har SMT nått sin ände? Vi har ju inte sett mer än 2 trådar per kärna i x86 mig veterligen - det är ju ingenting.
Det du skrev inom parentes förstår jag inte vad du vill få sagt med, SMT används ju just för att maximera utnyttjandegraden i en bred arkitektur?

Skickades från m.sweclockers.com

Visa signatur

WS: MSI B350M Mortar | AMD Ryzen 7 1700 | PH-TC14PE | 32GB DDR4 3000MHz | 1TB Kingston NV2 | Intel Arc A750 8GB | 2*BenQ G2420HDB
Router: Gigabyte GA-870-UD3 | AMD Phenom II x6 1055t @ 2600MHz, 1.25V | 12GB DDR3 | 2*250GB HDD @ RAID1 | 4TB HDD
Laptop: Thinkpad X220 4291-QF6

Rapportera Redigera

Citera flera Citera

2018-11-05 19:47

Medlem

Plats: Västkusten
Registrerad: Aug 2010

●

Skrivet av Paddanx:

Mja... ironiskt är ju... Intel är först.
Core2Quad är 2 st limmade Core2Duo

Gå till inlägget

Skrivet av Wolfkin:

Det är ju inte som om det vore första gången för Intel, ni kommer väl ihåg Core 2 Quad?

Gå till inlägget

Skrivet av mpat:

Var inte Intel först med att limma ihop kretsar med Pentium D?

Gå till inlägget

mpat har rätt.
Pentium D var före.
Anledningen att fler Tänker på Core 2 Quad (som var dubbla Core 2 Duo chip) är att Core 2 Quad var en ganska lyckad och populär produkt. Medan Pentium D inte blev lika populär.
Man ja både Core 2 Quad och Pentium D "använde lim".

Ska man göra en 2 kärnig processor så är helt klart en monolitisk design bättre än "att limma".
Men pratar vi stora 30+ kärnor processorer så blir det svårt att få någon vettig yeild om man ska använda en monolitisk design. I en mångkärnig processor blir det också svårare att få till att alla kärnor ska ha snabb kommunikation med alla andra kärnor, allt minne, etc än i en få-kärnig processor. Så det är sannolikt att man ändå får göra kompromisser som gör att det inte blir lika stora fördelar att hålla sig till en monolitisk design.

Så det kan mycket väl vara ett smart drag av Intel och de får säkert kunder som köper dem.

Det ironiska är att Intel klagar på AMD för att Ryzen Threadripper och Epyc "använder lim"
Sen börjar de själva använda det.

Oavsett vad man har för åsikter om Intel och AMD, vilket som är ens favoritmärke (om man har ett), vad för dator(er) man har. Så behöver man inte vara ett stort fan av hyckleri.

Så vitt jag kan minnas har Intel alltid varit större än AMD. Tycker det är lite tråkigt att det känner ett behov av att ta till cheap shots när de ändå är Goliat.

Rapportera Redigera

Citera flera Citera (5)

2018-11-05 19:55

Medlem

Plats: Västkusten
Registrerad: Aug 2010

●

Skrivet av Dracc:

Har SMT nått sin ände? Vi har ju inte sett mer än 2 trådar per kärna i x86 mig veterligen - det är ju ingenting.
Det du skrev inom parentes förstår jag inte vad du vill få sagt med, SMT används ju just för att maximera utnyttjandegraden i en bred arkitektur?

Gå till inlägget

Det verkar som han tänker på säkerhetshålen som spectre, meltdown etc.
Vissa av de säkerhetsbristerna drabbar bara system med SMT aktiverat.
Det bästa är om säkerhetshålen kan fixas ordentligt utan att man behöver ta bort SMT.
Så att vi både kan äta kakan och ha den kvar.

Rapportera Redigera

Citera flera Citera (2)

2018-11-05 20:13

Medlem ★

Registrerad: Okt 2016

●

Skrivet av Dracc:

Har SMT nått sin ände? Vi har ju inte sett mer än 2 trådar per kärna i x86 mig veterligen - det är ju ingenting.
Det du skrev inom parentes förstår jag inte vad du vill få sagt med, SMT används ju just för att maximera utnyttjandegraden i en bred arkitektur?

Skickades från m.sweclockers.com

Gå till inlägget

Det finns ju SMT med fyra eller åtta trådar per kärna, så man kan fråga sig varför Intel inte byggt något sådant. En möjlighet är att det är på gång, och att ändringarna i Haswell (två nya issue-ports) och Skylake (bredare avkodning) är en förberedelse för detta. En annan är att Intel gillar att ta bra betalt för sina extra kärnor. Det är dock lite intressant att ingen bland de som utvecklar mobila processorer gett sig på SMT än. Det kanske är så att SMT inte är så användbart på modern användar-inriktad kod?

Visa signatur

5900X | 6700XT

Rapportera Redigera

Citera flera Citera (2)

2018-11-05 20:16

Medlem ★

Plats: Jönköping
Registrerad: Nov 2004

●

Skrivet av GuessWho:

Det verkar som han tänker på säkerhetshålen som spectre, meltdown etc.
Vissa av de säkerhetsbristerna drabbar bara system med SMT aktiverat.
Det bästa är om säkerhetshålen kan fixas ordentligt utan att man behöver ta bort SMT.
Så att vi både kan äta kakan och ha den kvar.

Gå till inlägget

Ska man tro IBM (och om mitt minne tjänar mig rätt ett antal fler källor) så är den egentliga boven när det kommer till spectre och meltdown inte nödvändigtvis flertrådning utan spekulativ exekvering.

Skickades från m.sweclockers.com

Visa signatur

WS: MSI B350M Mortar | AMD Ryzen 7 1700 | PH-TC14PE | 32GB DDR4 3000MHz | 1TB Kingston NV2 | Intel Arc A750 8GB | 2*BenQ G2420HDB
Router: Gigabyte GA-870-UD3 | AMD Phenom II x6 1055t @ 2600MHz, 1.25V | 12GB DDR3 | 2*250GB HDD @ RAID1 | 4TB HDD
Laptop: Thinkpad X220 4291-QF6

Rapportera Redigera

Citera flera Citera (1)

2018-11-05 20:19

Medlem ★

Plats: Jönköping
Registrerad: Nov 2004

●

Skrivet av mpat:

Det finns ju SMT med fyra eller åtta trådar per kärna, så man kan fråga sig varför Intel inte byggt något sådant. En möjlighet är att det är på gång, och att ändringarna i Haswell (två nya issue-ports) och Skylake (bredare avkodning) är en förberedelse för detta. En annan är att Intel gillar att ta bra betalt för sina extra kärnor. Det är dock lite intressant att ingen bland de som utvecklar mobila processorer gett sig på SMT än. Det kanske är så att SMT inte är så användbart på modern användar-inriktad kod?

Gå till inlägget

Kikar du närmare på valfri ARM-arkitektur så ser du snart varför det inte pysslas med SMT på den mobila fronten - den arkitekturen har (i normala fall) inget utrymme för sådant. För få FPUer och APUer. Men den klarar sig fint ändå för att vi sällan utför raketforskning på våra mobiltelefoner.

Skickades från m.sweclockers.com

Visa signatur

WS: MSI B350M Mortar | AMD Ryzen 7 1700 | PH-TC14PE | 32GB DDR4 3000MHz | 1TB Kingston NV2 | Intel Arc A750 8GB | 2*BenQ G2420HDB
Router: Gigabyte GA-870-UD3 | AMD Phenom II x6 1055t @ 2600MHz, 1.25V | 12GB DDR3 | 2*250GB HDD @ RAID1 | 4TB HDD
Laptop: Thinkpad X220 4291-QF6

Rapportera Redigera

Citera flera Citera

2018-11-05 21:13

Datavetare ★

Plats: Stockholm
Registrerad: Jun 2011

●

"Ihop-limmande desktop kretsar" var ett rätt korkat uttalande från Intel då det är just bara den delen av det hela medellandet som majoriteten idag känner till. Den relevanta delen av uttalande faller konsekvent bort.

Hela uttalandet var

"Inconsistent performance from 4 glued together desktop dies"

Den inledande delen är vad man rimligen ville få fram då det gör designen olämplig för en rad tillämpningar. Den inledande delen är också något som andra verifierat är fallet.

Det borde inte ha förvånat något givet att exakt samma problem gäller även för Intel multi-socket system, av exakt samma anledning.

För OSet är en Skylake SP krets verkligen en CPU med en 6-kanals minneskontroller och en PCIe kontroller med 48 kanaler.

En Epyc CPU är för OSet fyra stycken 8-kärniga CPUer med fyra 2-kanals minneskontroller och fyra PCIe kontroller med 32-kanaler var, där alla kretsar har en direktlänk mellan sig

Ett quad-socket Skylake SP är för OSet fyra stycket 4-28 kärninga CPUer med fyra 6-kanals minneskontroller och fyra PCIe kontrollers med 48-kanaler var.

En Cascade Lake AP, som av den läckta informationen verkar primärt riktad mot HPC marknaden som ersätter för Xeon Phi (som Intel har lagt ned), lär ur alla praktiska aspekter därför vara identiskt med ett dual-socket Cascade Lake SP system. Enda fördelen med att stoppa in två kretsar i samma paket är att det tar mindre plats, ur OS och applikationsperspektivet är dual socket Cascade Lake SP och single-socket Cascade Lake AP identiskt (möjligen kan man trimma latens och bandbredd mellan kretsar on-package).

Skrivet av _Merc_:

Att Limma ihop 2stycken 28 kärniga CPUer kommer att bli svindyrt för Intel, sen är även frågan hur latensen är på deras brygga mellan 2 sjukt stora chip.

Gå till inlägget

Latensen på limmade kretsar blir självklart rejält mycket sämre jämfört med latensen inom en monolitisk krets. Men "worst-case" i detta fall är att Intel kör UPI rakt av mellan kärnorna och överhuvudtaget inte utnyttjar att ett väsentligt kortare avstånd kan utan större problem användas till att minska latens samt öka bandbredd (d.v.s. helt enkelt höja frekvensen på UPI-bussen on package)

UPI på Skylake SP har mer eller mindre identisk latens och bandbredd mellan sockets som Epyc har mellan chiplets on-package. Länk.

Hur det är bra eller dåligt lämnar jag till var och en att avgöra.

Skrivet av Dracc:

Har SMT nått sin ände? Vi har ju inte sett mer än 2 trådar per kärna i x86 mig veterligen - det är ju ingenting.
Det du skrev inom parentes förstår jag inte vad du vill få sagt med, SMT används ju just för att maximera utnyttjandegraden i en bred arkitektur?

Gå till inlägget

Primära orsaken till att SMT uppfanns var för att ha ett väldigt effektivt sätt att "gömma" latens.

Har funnits CPUer med både två och fyra kärnor per CPU som bara varit kapabla att köra en till två instruktioner per cykel. Varför skulle man vilja ha SMT där???

Tja, om man får en cache-miss så kan lätt ta >100 cykler innan CPUn får den informationen man behöver. Har man då flera CPU-trådar per kärna så kan man ju göra vettig arbete så länge minst en tråd har den informationen den behöver.

Tittar man specifikt på x86 finns ytterligare anledningar: x86 är en rent ut sagt horribel design om man vill designa en riktigt bred back-end. Primärt av två anledningar

x86 tillåter extremt lite flexibilitet när det kommer till hur CPUn får ändra ordning på läsningar och skrivningar mot RAM. Detta är en effekt av att man specificerade detta i en tid innan multi-core var vanligt samt vid en tid när RAM var långt snabbare i förhållande till CPU-hastigheten jämfört med idag. ARM, PowerPC och i princip alla RISC förutom SPARC har en modell här som tillåter långt mer flexibilitet för CPUn att hantera minnesoperationer
en väldigt stor andel av x86 instruktioner påverkar en global resurs, status-registret. För alla som kan något alls om multi-core programmering, det är som att ha flera trådar läsa/skriva till samma minnesadress -> horribel skalning. Många CPU-designer lider av detta, undantagen är 64-bitars ARM samt RISC-V där majoriteten av alla instruktioner bara påverkar de register som är utdata

SMT hjälper båda dessa fall då två separata trådar i de flesta fall kan hantera sina minnesoperationer helt oberoende av varandra samt varje CPU-tråd har en egen uppsättning av alla register så med två trådar dubblar man i praktiken skalbarheten m.a.p konstant modifiering av en, mellan instruktioner i samma instruktionsström, delad global resurs.

Ovan ger en vink om varför Apple kan designa en 64-bitars ARM CPU som kan processa 7 instruktioner per cykel och faktiskt dra rejäl nytta av det (IPC runt 50 % högre jämfört med Skylake) medan Skylake/Zen har grava problem att processa 4-5 instruktioner per cykel även med SMT.

Skrivet av GuessWho:

Ska man göra en 2 kärnig processor så är helt klart en monolitisk design bättre än "att limma".
Men pratar vi stora 30+ kärnor processorer så blir det svårt att få någon vettig yeild om man ska använda en monolitisk design. I en mångkärnig processor blir det också svårare att få till att alla kärnor ska ha snabb kommunikation med alla andra kärnor, allt minne, etc än i en få-kärnig processor. Så det är sannolikt att man ändå får göra kompromisser som gör att det inte blir lika stora fördelar att hålla sig till en monolitisk design.

Gå till inlägget

Finns monolitiska kretsar tillverkade på TSMC 40 nm med 72 kärnor. Mer nutida design har ju Cavium en 32C/128T krets på TSMC 16 nm samt Intels Xeon Phi med 72C/228T tillverkad på Intel 14 nm.

Är definitivt enklare att tillverka ett gäng mindre kretsar och "limma ihop dem". Problemet är att bara en relativt liten delmängd av de problem som datorer används för att lösa skalar något vidare över flera kretsar av dessa orsaker

inom en monolitisk krets är latensen mellan kärnor ungefär en tiopotens lägre än det bästa vi idag har mellan kretsar
inom en monolitiskt krets är bandbredd en till två tiopotenser högre jämfört med vad som är ekonomiskt rimligt att få mellan kretsar (detta har mer med ekonomi än teknik att göra, bandbredd är till skillnad från latens ett "lätt" problem att skala)

Skrivet av GuessWho:

Det verkar som han tänker på säkerhetshålen som spectre, meltdown etc.
Vissa av de säkerhetsbristerna drabbar bara system med SMT aktiverat.
Det bästa är om säkerhetshålen kan fixas ordentligt utan att man behöver ta bort SMT.
Så att vi både kan äta kakan och ha den kvar.

Gå till inlägget

Ett till problem som drabbar SMT upptäcktes i dagarna. Ingen verkar ha några större förhoppningar att det kommer gå att fixa då det rätt mycket utnyttjar det faktum att CPU-trådar i en SMT design delar exekveringsportar.

"The only way to mitigate this attack is to disable SMT/Hyper-threading on a computer, which OpenBSD has already done by default since this summer when another timing attack was released called TLBleed."

Skrivet av Dracc:

Ska man tro IBM (och om mitt minne tjänar mig rätt ett antal fler källor) så är den egentliga boven när det kommer till spectre och meltdown inte nödvändigtvis flertrådning utan spekulativ exekvering.

Gå till inlägget

Helt korrekt. Redan innan Spectre/Meltdown fanns en del kända s.k. "side-channel attacks" mot kretsar med SMT, men verkar som i jakten på Spectre/Meltdown relaterade problem har man även lyckats skaka ut en hel del SMT-relaterade problem.

Problemet med spekulativ exekvering är: vi lär bara ser mer och mer av detta då det är enda kända sättet att på något sätt öka mängden arbete en CPU kan utföra per cykel.

Den snabbaste CPU-designen som finns utan att spekulativ körning används är ARM Cortex A55. Den utför mindre än hälften så mycket per cykel som dagens "big-core" x86 CPUer (som i sin tyr "bara" utför ~75 % av Apples senaste 64-bitars ARM per cykel).

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Rapportera Redigera

Citera flera Citera (4)

2018-11-05 21:27

Datavetare ★

Plats: Stockholm
Registrerad: Jun 2011

●

Skrivet av dpom86:

Men vem ska köpa denna undrar jag?
Notera att i AMD's marknadsföring säger dom "våra kommande cpu'er kommer dominera Intel's kommande cpu'er".
Notera att i Intel's marknadsföring säger dom "våra kommande cpu'er kommer dominera AMD's nuvarande cpu'er".

Alla rykten, både business rykten och prestanda rykten, pekar på att AMD kommer totalstompa Intel på servermarknaden de kommande ~3 åren. Intel har själva insett detta och kommer överge sitt Xeon brand - de har redan tillkännagett sin nya arkitektur som ska ersätta Xeon under ett nytt varumärke för att kunna konkurrera mot Epyc's chiplet design. Men här är haken: deras nya design är bara på ritbordet, de har announce'at att de börjat jobba på en ny design. De kommande årens AMD dominans är exakt tiden det kommer ta för Intel att gå från ritbordet till färdig produkt.

Epyc kommer _garanterat_ komma i fler än 48 kärnor, om inte direkt vid launch så snart där efter. Hur vet vi det? Jo för att dess design, som Intel nu börjat kopiera med sin kommande Xeon ersättare, är gjord för att skala mycket högre i core-count. Men det är inte allt, den är dessutom billigare att tillverka då den har garanterat bättre yield och binning by design. AMD's Rome består nämligen av ett centralt kontroll chip tillverkat på 14nm, där man lägger all IO och annan circuitry som inte skalar prestandamässigt med node-shrink, vilket sparar pengar, + en massa små compute-chip på 7nm med bara kärnor i som ansluts till kontroll-chippet. Eftersom dessa är små, och vi snackar sisådär 8 sådana chip per cpu (med ett par kärnor i varje) så kommer de ha bra yields & gå att binna bättre: istället för ett stort monolitiskt chip som bara kan säljas som top-end ifall hela chippet blev top-silicone, så kan du "limma ihop" en handfull av hårt binnade små chip till en kanon top-end produkt. Det är en enkel fråga om yield-matte att AMD kommer kunna leverera hårdare binnade top-modeller i högre volymer till ett fantastiskt pris.

Lägg till detta på att Intel inte kan fortsätta limma mer än två chip som de ska göra nu: Redan idag sneglar server-marknaden mycket tveksamt på denna release då Intel's announce'ade tdp för detta dual-chip skjutit i höjden. I en high density serverhall är Intel's nya rekordhöga tdp ett stort no-no. Det handlar inte om en ny optimerad arkitektur, det är nära nog bara två monolitiska chip tillsammans så naturligtvis fås ~dubbel tdp.

Vi vet redan att AMD's nya Rome kommer ha mycket lägre tdp, dessutom fler kärnor (antingen vid launch eller strax där efter), bättre prestanda (enligt läckor) och mer minne/pci-lanes.
Och...
...kosta hälften så mycket.

Ovan är en blandning av fakta och mycket trovärdiga rykten, och baserat på dem har det börjat spridas lite lösare, mindre bekräftade rykten som säger att under de kommande åren kommer några av de stora serverleverantörerna inte att leverera några nya Xeon servermodeller ö.h.t.
Xeon kan inte skala högre, därför limmar Intel i desperation en design som ej är gjord för att limmas, medan Epyc's nya "fas 2" multichiplet design bara är i startfasen och är designad för att skala up från här.

Det spelar ingen roll om Intel får ordning på 10nm, iaf inte på server sidan, för deras svar till AMD's chiplets "fas 2" design är bara på ritbordet och fortfarande flera år bort. Visst 10nm kommer tillåta Intel att komma ikapp AMD tdp-mässigt, men det löser inte problemet att Xeon inte skalar högre prestandamässigt eller core-count mässigt på ett sätt som ligger i närheten sätt till yeilds och tillverkningskostnader. Om inte AMD har en 128-core på marknaden innan Intel kommer ut med sin Xeon ersättare äter jag upp min hatt - och detta har beslutsfattarna på de stora serverleverantörerna fått upp ögonen för. Att leverera Xeon-brand servrar år 2020 är att leverera en undermålig icke-konkurrenskraftig och överprisad produkt som enligt Intel själva har nått vägs ände och kommer avvecklas.

https://i.imgur.com/sZtkLxU.png(Koncept: 14nm IO-chip i mitten med 7nm beräkningschip runt)

Gå till inlägget

Vi får förhoppningsvis veta mer om Rome imorgon.

Men att ingen gjort den rätt uppenbara observationen i denna bild

Låt oss nu kalla kopplingen mellan "compute cores" och den stora kretsen i mitten för "front-side bus" samt kalla den stora kretsen i mitten för "north-bridge". Någon som känner igen designen?

Detta är exakt vad Intel gjorde med Pentium D och Core2Quad, d.v.s. flera "limmade" CPU-kretsar som man delar samma minneskontroller så man fortfarande bara får en NUMA-zon per sockel (och som lök på laxen får man då också en homogen PCIe hantering per socket och inte en väldigt asymmetrisk sådan som man för med I/O-delen lokalt i varje CPU-krets).

Hoppas verkligen ryktet kring detta är sant, för designen man hade med nuvarande Epyc har exakt samma problem man hade med Magny-Cours Opteron och av exakt samma själ då som nu leder det till en design som bara fungerar inom en rätt smal nisch.

Givet Intels problem med 10 nm, givet att de har kapacitetsproblem med 14 nm och givet att 64-bitars ARM än så långe inte stampat x86 till småbitar i datacenter (det kommer hända, frågan är bara när) så är enda rimliga förklaringen till att Epyc förfarande har <2 % marknadsandel Q3 2018 just att designen hindrar dem från att ersätta Xeon i majoriteten av användarfallen.

Intels quad- och octa-socket system används också i väldigt få fall. Det är inte enbart en prisfråga, faktum är att ett quad-system blir billigare jämfört med ett dual-socket system om man matchar antalet CPU-kärnor i båda (plus att det då går att klocka CPUer i quad-systemet högre). Men antalet applikationer som fungerar bra med ens två NUMA-zoner är få och de som fungerar bra med fyra NUMA-zoner är en riktigt liten nisch.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Rapportera Redigera

Citera flera Citera (4)

2018-11-05 21:33

Medlem ★

Plats: Piteå
Registrerad: Jul 2017

●

Skrivet av oceanic:

Jodå...

https://cdn.wccftech.com/wp-content/uploads/2018/05/AMD-CPU-Market-Share-Q1-2018.png

Skickades från m.sweclockers.com

Gå till inlägget

Mellan 2016 och 2018 har man tappat marknadsandelar om man ska tro den grafen medan AMD har ökat under denna tid. Så jodå..

Skrivet av oceanic:

Alltid lika roligt att se forumets hängivna amd-fanbois upphetsatt kommenterar och sporrar varandra i nyhetsflödet då något tycks ge sken av att intel skulle göra en amd’re bland serverprodukt de flesta aldrig kommer i närheten av... fascinerande.

Skickades från m.sweclockers.com

Gå till inlägget

Nästan lika roligt som att se folk slänga epitet runt sig för folk gillar utveckling. För att det ska bli något annat än monopol så är det bara bra för marknaden att det går bra för AMD så det jämnar ut sig.. men alltid ska det finnas folk som skriker fanboys bara för att man som neutral gillar att det går bra för en part så den dominerande parten tvingas utveckla igen.

Men visst är det enklare att skrika fanboy än att sätta sig in i VARFÖR folk gillar vad de ser.

Visa signatur

Fractal Design Meshify 2 Compact w/ Dark Tint | AMD R7 9800X3D | MSI MAG X870 Tomahawk WIFI | 64 GB Corsair DDR5 6000 MHz CL30 | Asus Prime RTX 5070 Ti OC 16GB GDDR7 | 512 GB Samsung Pro 850 SSD + 2TB WD Black + SN850 NVME PCI-E 4.0 | Corsair RM750X |

Rapportera Redigera

Citera flera Citera (3)

2018-11-05 21:56

Medlem ★

Registrerad: Okt 2016

●

Skrivet av Dracc:

Kikar du närmare på valfri ARM-arkitektur så ser du snart varför det inte pysslas med SMT på den mobila fronten - den arkitekturen har (i normala fall) inget utrymme för sådant. För få FPUer och APUer. Men den klarar sig fint ändå för att vi sällan utför raketforskning på våra mobiltelefoner.

Skickades från m.sweclockers.com

Gå till inlägget

Apple’s designer är bredare än Intels just nu, och framför allt mycket bredare än de sex issue ports Intel hade när man introducerade HT i Core-designen. Samsung verkar vara på väg åt det hållet. Jag är bara lite förvånad att de kan utnyttja en så bred design utan SMT. Jag känner iofs till mycket av vad Yoshman skriver nedan (hade missat det där om CC-registret och ARM64, dock, får läsa på lite) men ändå... A12 har 13 portar, varav 6 är heltalsoperationer. Det är väldigt brett att fylla utan SMT.

Visa signatur

5900X | 6700XT

Rapportera Redigera

Citera flera Citera (1)

2018-11-05 21:59

Datavetare ★

Plats: Stockholm
Registrerad: Jun 2011

●

Skrivet av Xinpei:

För att det ska bli något annat än monopol så är det bara bra för marknaden att det går bra för AMD så det jämnar ut sig.. men alltid ska det finnas folk som skriker fanboys bara för att man som neutral gillar att det går bra för en part så den dominerande parten tvingas utveckla igen.

Gå till inlägget

Om man verkligen gillar utveckling bör man hålla tummar för att det går käpprätt åt fanders för både Intel och AMD. För just nu är x86 en rejäl bromskloss för utveckling, både på server och desktop.

Är relativt nyligen som man inom programmeringsvärlden kunnat formalisera saker som hur olika CPU-trådar bör "se" skrivningar utförda av andra CPU-trådar.

Inte fullt lika nyligen som man slog i ett hårt tak i hur mycket det går att skriva upp frekvens.

x86 är allt annat än en optimal design vare sig för att hantera hur C++, Java, C# m.fl. specificerat sitt beteende i multitrådade applikationer. 64-bitars ARM (men INTE 32-bitars ARM) samt något som kallas RISC-V (som till skillnad från ARM är en helt öppen/fri specifikation) är specifikt designade för att vara en perfekt match för vad de populära programspråken vi ha i detta fall. En konsekvens att båda dessa CPU-designer lanserades första gången 2011, vilket var sent nog för att alla ovan nämna språk skulle ha färdigställt specifikationen för multitrådade applikationer (de är extremt snarlika i sin specifikation, C++ är klart mer flexibel och ARM64/RISC-V stödjer alla varianter perfekt).

När det inte går att skruva upp frekvens är enda vägen till högre enkeltrådprestanda (som är och lär förbli extremt viktigt för både servers och än mer desktop) att designa allt "bredare" CPU-kärnor. x86 är horribel ur flera aspekter här.

Att AMD/Intel ens lyckas avkoda upp till 4-5 instruktioner per cykel är ren ingenjörsmagi. x86 instruktioner kan vara från 1 byte till 15 bytes, enda sättet att veta när nästa instruktion börjar är att först lura ut hur lång framförvarande instruktion är.

Lite enklare för Apple att kunna avkoda upp till 7 instruktioner när alla instruktioner är 4 bytes långa...

Alla CPUer har ett globalt tillstånd associerade med varje CPU-tråd. x86 (och i princip alla CPUer som är äldre än 10 år med möjligt undantag för PowerPC) tenderar att väldigt frekvent modifiera detta globala tillstånd, något som försvårar designen av en riktigt bred "back-end" då man även måste gissa hur detta globala tillstånd ändras för att kunna göra lyckad spekulativ körning. 64-bitars ARM och RISC-V är specifikt designade för att så sällan som möjligt modifiera globala tillstånd, vilket gör en riktigt fet back-end betydligt enklare att designa.

Tyvärr lär byte till någon annat än x86 på skrivbordet ta väldigt lång tid. Det lär gå fortare på server-sidan, men kommer ändå vara en smärtsamt seg process. Detta hade faktiskt gått fortare om Intel helt saknat konkurrens på x86 då företag hatar "single source" (och nej, Intel hade inte blivit uppdelade i det läget givet att det säljs mer än tio ARM CPUer per x86), även om fast majoriteten i slutändan ändå köper från en och samma tillverkare.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Rapportera Redigera

Citera flera Citera (9)

2018-11-06 01:10

Medlem ★

Plats: Gbg
Registrerad: Maj 2007

●

Skrivet av Dracc:

Har SMT nått sin ände? Vi har ju inte sett mer än 2 trådar per kärna i x86 mig veterligen - det är ju ingenting.
Det du skrev inom parentes förstår jag inte vad du vill få sagt med, SMT används ju just för att maximera utnyttjandegraden i en bred arkitektur?

Skickades från m.sweclockers.com

Gå till inlägget

Förlåt att jag vilt hoppar in i eran diskussion, men eftersom ni pratar om SMT kunde jag inte låta bli...
Det finns rykten, och jag medger att de ska tas med en stor nypa salt, att denna nya Intel cpu har SMT avstängt för att hålla nere tdp. Detta förklarar i så fall också varför, om man läser det finstilta i Intel's presentation, deras prestanda claims är gentemot en AMD Epyc med SMT avstängd...

That's right.
Cascade Lake år 2019, kommer enligt Intel's finstilta configurations-spec i slutet av dessa presentations slides, vara snabbare än en AMD cpu från mitten av 2017 med SMT avstängt.

Känns det redan chockerande dåligt eller som extremt osmakligt fulspel så fortsätt hålla hårt i foliehatten:
Fortsätter man läsa det finstilta så testade de inte mot sin egen cpu på riktigt, utan bara mot "Advanced processor projections" av hur de förväntar sig att deras nya cpu borde prestera. De har alltså testat en current-gen AMD 32-core Epyc med SMT avstängt mot hur de gissar att deras kommande 48-core processor kommer prestera.... och säger att de "vinner" i prestanda med 70%.

Med SMT så har denna cpu 96 trådar.
Att 96 trådar Cascade Lake bara vinner med 70% mot 32 trådar Epyc är för dåligt för att vara sant, så antingen har Cascade Lake inte SMT alls eller kanske mer troligt om vi ignorerar ryktena så hade den också SMT avstängt.
Fortfarande stirrar vi då på ett scenario där 50% fler trådar ger 70% prestanda mot en gammal Epyc (+13% tråd-för-tråd).
Samtidigt vet vi att kommande Epyc Rome - enligt faktisk fysisk sampling av tidiga testexemplar och inte någon "Advanced projection" spekulation - även den presterar minst 70% bättre än samma Epyc cpu som Intel testade mot - och det på ett testexemplar som inte hade fullt fungerande minneskontroller...

Redan där kan vi konstatera att Intel har förlorat striden om prestandan, but it gets worse:
Epyc Rome väntas kosta mindre än Intel's 28-core kostar idag.

Låt mig formulera det enkelt... Intel Cascading Bullshit Lake.
Jag orkar inte låtsas som att jag inte formligen vadar mig fram i Intel PR-bullshit ända sedan AMD lanserade Zen.
Det enda Intel "vinner" är en BS Award och deras kommande processor är det som flyter i deras konstgjorda BS-sjö.
Jag tror de flesta kan lista ut vilket ord jag fiskar efter där.

Senast redigerat 2018-11-06 04:03

Visa signatur

SweClockers Dark Pearl tema: http://www.sweclockers.com/forum/trad/1484891
(Rek. Stylus)

Rapportera Redigera

Citera flera Citera (4)

2018-11-06 01:33

Medlem ★

Plats: Gbg
Registrerad: Maj 2007

●

@Yoshman: Jo, ironin i att framtiden går "tillbaka" till en design som påminner om svunna tiders nordbryggor är inte förlorad på mig.

Visa signatur

SweClockers Dark Pearl tema: http://www.sweclockers.com/forum/trad/1484891
(Rek. Stylus)

Rapportera Redigera

Citera flera Citera (3)

2018-11-06 06:31

Medlem

Registrerad: Feb 2003

●

Skrivet av Dracc:

Har SMT nått sin ände? Vi har ju inte sett mer än 2 trådar per kärna i x86 mig veterligen - det är ju ingenting.
Det du skrev inom parentes förstår jag inte vad du vill få sagt med, SMT används ju just för att maximera utnyttjandegraden i en bred arkitektur?

Skickades från m.sweclockers.com

Gå till inlägget

Såvitt jag vet kör Xeon Phi x86 och deras 7200 serie 4 trådar per kärna. Förvisso HT dock.

Rapportera Redigera

Citera flera Citera (1)

2018-11-06 07:05

Inaktiv

Registrerad: Nov 2010

●

Skrivet av Yoshman:

Tyvärr lär byte till någon annat än x86 på skrivbordet ta väldigt lång tid. Det lär gå fortare på server-sidan, men kommer ändå vara en smärtsamt seg process. Detta hade faktiskt gått fortare om Intel helt saknat konkurrens på x86 då företag hatar "single source" (och nej, Intel hade inte blivit uppdelade i det läget givet att det säljs mer än tio ARM CPUer per x86), även om fast majoriteten i slutändan ändå köper från en och samma tillverkare.

Gå till inlägget

Beroende på vilken användare vill jag påstå raka motsatsen. Desktop går emot en bra webbläsare som stöder html5, resten kvittar. Jag ser webbläsaren som framtidens virtual machine som java har. Många inklusive mig har krav på att allt vi gör ska fungera på Windows, Linux, MacOs, Android, iOS etc och det blir dyrt att utveckla separat för allt detta.

Arkitekturen 86 har sitt ursprung på 70 talet, denna har sedan under snart 50 år byggs på där den hela tiden ska vara bakåtkompatibel. Rena förnuftet säger att den då knappast inte samtidigt är optimerad och bara använder sig av en begränsad instruktionsuppsättning för det som behövs idag etc.

Arm i sin tur ser jag som utvecklad för mindre krävande system, det var ofta dit man hoppade efter man pillade med 8 bitars mikrokontrollerna Atmel och Pic när ville göra något större.

Jag är tveksam till om ARM i sin tur är helt optimerad för massiva laster som körs datacenters som är i storleksordningen Facebooks datacenter i Luleå. Utvecklingen går emot brutalt stora datacenters som kör hur mycket som helst, ofta från helst olika kunder genom cloudtjänster. Ofta används flyttalsdelen väldigt lite och jag kan faktisk tänka mig lite bulldozer design med att ha mindre flyttals FPUer.

Så min gissning är att vi i framtiden kommer få olika typer av processorer för klient och servrar. Det som talar emot det är att stora volymer hjälper utvecklingen. Bara se på pekskärm som har funnits hur länge som helst, men när i nästan alla i de rikare länderna har en pekskärm på sin mobil så skenade utvecklingen iväg.

Senast redigerat 2018-11-06 07:13

Rapportera Redigera

Citera flera Citera

2018-11-06 08:12

Medlem ★

Plats: Jönköping
Registrerad: Nov 2004

●

Skrivet av Tomika:

Såvitt jag vet kör Xeon Phi x86 och deras 7200 serie 4 trådar per kärna. Förvisso HT dock.

Gå till inlägget

Huh, TIL.

Visa signatur

WS: MSI B350M Mortar | AMD Ryzen 7 1700 | PH-TC14PE | 32GB DDR4 3000MHz | 1TB Kingston NV2 | Intel Arc A750 8GB | 2*BenQ G2420HDB
Router: Gigabyte GA-870-UD3 | AMD Phenom II x6 1055t @ 2600MHz, 1.25V | 12GB DDR3 | 2*250GB HDD @ RAID1 | 4TB HDD
Laptop: Thinkpad X220 4291-QF6

Rapportera Redigera

Citera flera Citera

2018-11-06 09:08

Medlem ★

Plats: Sundsvall
Registrerad: Okt 2003

●

Skrivet av mpat:

Det finns ju SMT med fyra eller åtta trådar per kärna, så man kan fråga sig varför Intel inte byggt något sådant. ...

Gå till inlägget

Finns flera anledningar.
1. Den viktigaste torde vara att det är väldigt få typer av arbetsuppgifter som vinner på att ha ännu fler trådar per kärna, samtidigt ökas overhead så att alla andra program går jämförelsevis långsammare. Med två trådar per kärna kan man vinna prestanda utan att tappa när flertrådigt inte hjälper.

Skrivet av Yoshman:

Ett till problem som drabbar SMT upptäcktes i dagarna. Ingen verkar ha några större förhoppningar att det kommer gå att fixa då det rätt mycket utnyttjar det faktum att CPU-trådar i en SMT design delar exekveringsportar.

Gå till inlägget

2. Detta är ett argument att inte alls använda SMT.

Skrivet av dpom86:

Det finns rykten, och jag medger att de ska tas med en stor nypa salt, att denna nya Intel cpu har SMT avstängt för att hålla nere tdp. Detta förklarar i så fall också varför, om man läser det finstilta i Intel's presentation, deras prestanda claims är gentemot en AMD Epyc med SMT avstängd...

Gå till inlägget

3. Inaktiverat HT för att hålla ner TDP verkar rimligt, eftersom HT ökar kärnornas belastning och denna CPU redan lär dra mer effekt än önskvärt. Det är även en metod att stoppa sårbarheten som nämns ovan.
Däremot ska man vara observant på att i Intels jämförelse mot Epyc används också ett benchmark som ska köras utan SMT. Epyc hade fått sämre resultat med SMT aktivt. Säger alltså inte rakt ut att den nya Xeon inte kan använda HT...

Jim har som vanligt en intressant och djuplodande analys...

Rapportera Redigera

Citera flera Citera (3)

2018-11-06 13:59

Medlem ★

Plats: gbg
Registrerad: Nov 2007

●

Skrivet av Olle P:

Finns flera anledningar.
1. Den viktigaste torde vara att det är väldigt få typer av arbetsuppgifter som vinner på att ha ännu fler trådar per kärna, samtidigt ökas overhead så att alla andra program går jämförelsevis långsammare. Med två trådar per kärna kan man vinna prestanda utan att tappa när flertrådigt inte hjälper.

Gå till inlägget

Håller med för desktop-scenarion, MEN det beror helt och hållet på vilket område man avser.
Skiftar man fokus till t.ex. Datacentertillämpningar, där man bygger skräddarsydda lösningar som skalar parallellt och där låg energiförbrukning är ledordet, så förändras scenariot ganska drastiskt.

Visa signatur

Tower: ace Battle IV | CPU AMD Phenom II X2 BE unlocked 4cores@3,2GHz | RAM 8GB DDR2@800MHz | MB ASUS M4A785-M | GFK AMD Radeon HD 6850 1GB | HDD Kingston SSD Now 60GB (/) Seagate 2TB(/home) | OS Ubuntu 20.04 LTS
-Numera titulerad: "dator-hipster" då jag har en AMD GPU och dessutom kör Linux.

Rapportera Redigera

Citera flera Citera

2018-11-06 18:40

Medlem

Plats: Västkusten
Registrerad: Aug 2010

●

Skrivet av Olle P:

3. Inaktiverat HT för att hålla ner TDP verkar rimligt, eftersom HT ökar kärnornas belastning och denna CPU redan lär dra mer effekt än önskvärt.

Gå till inlägget

Jämför man I7 8700K med 6C/12T mot I7 9700K med 8C/8T så verkar det generellt som at 9700K är snabbare men också strömtörstigare och att skillnaden i effekt är större än skillnaden i prestanda.
Så 9700K är generellt bättre prestanda absolut sett.
Men 8700K har generellt bättre prestanda per watt.

Så jämför man bara med HT av mot HT på, allt annat samma, antal kärnor, klockfrekvenser etc så drar det mer ström än med HT av.

Men jämför man med att använda HT istället för att öka antal kärnor eller klockfrekvenser för att få ungefär samma prestanda så verkar det som att HT är det strömsnålare alternativet.
(Under förutsättning att man kör något som drar nytta av HT.)

Skickades från m.sweclockers.com

Rapportera Redigera

Citera flera Citera

2018-11-06 19:50

Datavetare ★

Plats: Stockholm
Registrerad: Jun 2011

●

Skrivet av mpat:

Det finns ju SMT med fyra eller åtta trådar per kärna, så man kan fråga sig varför Intel inte byggt något sådant. En möjlighet är att det är på gång, och att ändringarna i Haswell (två nya issue-ports) och Skylake (bredare avkodning) är en förberedelse för detta. En annan är att Intel gillar att ta bra betalt för sina extra kärnor. Det är dock lite intressant att ingen bland de som utvecklar mobila processorer gett sig på SMT än. Det kanske är så att SMT inte är så användbart på modern användar-inriktad kod?

Gå till inlägget

I de flesta fall ger SMT ett positivt tillskott av prestanda, i alla fall så länge man har 2-4 trådar per CPU.

Finns två primära nackdelar med tekniken

cache-storlek per tråd minskar då trådarna måste dela på den resursen
prestanda per CPU-tråd minskar vilket kan leda till höga svarstider eller hög varians i svarstider

Den första punkten är orsaken till varför man i princip alltid slår av SMT i SIMD-optimerade algoritmer. Med rätt gjord SIMD-optimering får man så hög kapacitet att bandbredd blir primär flaskhals, att då minska cachen sett per tråd har i flera fall en större negativ effekt jämfört med den vinst man får med SMT.

Cache-effekten blir ju större ju fler trådar man har per kärna, SMT-8 är därför bara en fördel i applikationer där "working-set" ändå är så stort att cachen inte tillför så mycket (finns absolut sådana laster på servers, men de är inte supervanliga).

POWER8 har stöd för SMT-8, men normalfallet är att man konfigurerar dessa system med SMT-4.

Den andra fallet blir ju också mer uttalat ju fler trådar man har. Svarstiden kan dock bli lägre med SMT om servern hanterar väldigt många fler sessions än den har CPU-kärnor och sessionerna kräver mycket CPU. Så här är det väldigt mycket från fall till fall.

I just fallet Cascade Lake AP verkar den plattformen inte vara en generell serverplattform om man kikar på presentationerna. Det verkar vara en plattform specifikt inriktad på HPC (Linpack) och maskininlärning (inferens steget). Detta är typexempel på sådant där man normalt stänger av SMT, så är ju inte omöjligt att Cascade Lake AP är en relativt nischad produkt mot dessa områden vilket i så fall inte alls gör det osannolikt att den saknar SMT stöd.

Skrivet av anon159643:

Arm i sin tur ser jag som utvecklad för mindre krävande system, det var ofta dit man hoppade efter man pillade med 8 bitars mikrokontrollerna Atmel och Pic när ville göra något större.

Jag är tveksam till om ARM i sin tur är helt optimerad för massiva laster som körs datacenters som är i storleksordningen Facebooks datacenter i Luleå. Utvecklingen går emot brutalt stora datacenters som kör hur mycket som helst, ofta från helst olika kunder genom cloudtjänster. Ofta används flyttalsdelen väldigt lite och jag kan faktisk tänka mig lite bulldozer design med att ha mindre flyttals FPUer.

Gå till inlägget

Du kan inte bara säga "ARM", att jämföra 32-bitars ARM med 64-bitars ARM är rätt mycket som att jämföra x86 med SPARC.

SPARC och x86 har samma minneskonsistensmodell (båda kör med något som kallas TSO, lätt för människor att förstå men allt annat än optimalt ur optimeringssynpunkt), båda ser stor nytta av SMT men är väl någonstans där de stora likheterna.

32-bitars ARM är på många sätt en lika horribel instruktionsuppsättning som x86. T.ex. så är i princip alla instruktioner villkorade på tillståndet hos statusregistret. Vem f-n tyckte det var en bra ide? Fanns säkert fördelar sent 80-tal / tidigt 90-tal om man siktade på mikrokontrollers, men en sådan design gör det rätt svårt att designa något med riktigt högt IPC.

Finns en rad andra designmissar i 32-bitars ARM, överhuvudtaget är 32-bitars ARM ett lysande exempel på att RISC/CISC uppdelningen är meningslös. Tror nog alla klassar 32-bitars ARM som "RISC", men den har massor med riktigt komplicerade instruktioner, finns en instruktion som kan spara/ladda godtyckligt antal register till/från stacken och den måste i praktiken mikrokodas (och är en instruktion som används väldigt mycket...).

64-bitars ARM är en helt ny instruktionsuppsättning, man har samma minneskonsistensmodell som 32-bitars ARM (då den modellen är både strömsnål och ger väldigt mycket utrymme för optimeringar på multicore CPUer). Däremot är formatet på instruktioner helt annorlunda, bara de instruktioner man förväntar sig vara villkorade är nu villkorade medan majoriteten är opåverkade samt påverkar inte själv statusregister (vissa instruktioner finns i två varianter, en som påverkar statusregister och en som inte gör det).

Går man in lite mer på detaljer så ser man också att det egentligen bara är de CPU-modeller som enbart stödjer 64-bitars ARM som presterar riktigt bra, rätt säker att förklaringen ligger rätt mycket i att man under en övergångsperiod var tvungen att stödja båda instruktionsuppsättningarna och då kunde man inte heller riktigt nå (och numera klå) x86 prestanda.

Apples riktigt snabba modeller är enbart 64-bit, ARMs första "desktop-class" krets (deras egna ord) är Cortex A76 som också är deras första rena 64-bitars krets.

Om du fortfarande är skeptiskt. Titta vad Crays nuvarande top-of-the-line produkt använder för CPU, det är Cavium Thunder X2 (som naturligtvis är en ren 64-bitars ARM).

Skrivet av Olle P:

Jim har som vanligt en intressant och djuplodande analys...
https://www.youtube.com/watch?v=RbuQ4SK7wRA

Gå till inlägget

Kan hålla med om "intressant", inte lika övertygad om "djuplodande".

Karln måste ju ha något personligt agg mot Intel.

Han kallar Cooper Lake för "två ihop-packade Skylake SP kretsar". Hade hade läst det material som visas i hans egen video borde han noterat att redan Cascade Lake är en delvis ny krets då den stödjer funktioner som Skylake SP saknar (detta finns i Intels officiella dokumentation för deras CPUer). Vidare stödjer Cascade Lake Optane memory (vilket var nyheten som presenterades, precis som nämns lanserades själva minneskretsarna tidigare i år).

Självklart finns möjligheten att Copper Lake aldrig släpps, men om den släpps är det redan känt att även etta är en krets med nya funktioner, som stöd för ett relativt nytt flyttalsformat som är tänkt för maskininlärning.

Fast hade han läst på de slides han visar i videon borde ju han inte säga "impossible to believe". Något som nämns är att Cascade Lake får stöd för något som kallas VNNI (som också det är beskrivet i den officiella dokumentationen för Intels CPUer).

VNNI är i princip HW-acceleration av "DL inference", så x17 i en CPU som består av två kretsar + får VNNI är rätt mycket vad man bör förvänta sig om man kollar vad VNNI faktiskt gör.

Givet design av Cascade Lake AP (framförallt om den saknar SMT) pekar ju på att det är en produkt nischad mot HPC, något som www.top500.com också gissar. D.v.s. det ser inte ut att vara en generell server-krets utan en mer en direkt ersättare för nyligen nedlagda Xeon Phi.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Rapportera Redigera

Citera flera Citera (4)

2018-11-07 00:04

Medlem ★

Plats: Sthlm ➜ Hfors
Registrerad: Jun 2004

●

Skrivet av Yoshman:

Han kallar Cooper Lake för "två ihop-packade Skylake SP kretsar". Hade hade läst det material som visas i hans egen video borde han noterat att redan Cascade Lake är en delvis ny krets då den stödjer funktioner som Skylake SP saknar (detta finns i Intels officiella dokumentation för deras CPUer). Vidare stödjer Cascade Lake Optane memory (vilket var nyheten som presenterades, precis som nämns lanserades själva minneskretsarna tidigare i år).

Gå till inlägget

Fast Skylake SP har vad jag förstått också stöd för Optane, det var bara aldrig aktiverat. Så på hårdvarunivå har det inte hänt lika mycket som det ser ut. Vem vet, kanske VNNI kanske också fanns men aldrig aktiverades?

Rapportera Redigera

Citera flera Citera

2018-11-07 09:30

Datavetare ★

Plats: Stockholm
Registrerad: Jun 2011

●

Skrivet av ajp_anton:

Fast Skylake SP har vad jag förstått också stöd för Optane, det var bara aldrig aktiverat. Så på hårdvarunivå har det inte hänt lika mycket som det ser ut. Vem vet, kanske VNNI kanske också fanns men aldrig aktiverades?

Gå till inlägget

Skylake SP hade stöd för Optane via PCIe, däremot fick man aldrig med stöd för Optane memory (koppla in Optane DIMMs direkt på minnesbussen). Det jobbet var lite mer än att stoppa dit fler DIMM-slottar då man även ökat mängden RAM som Cascade Lake kan hantera (ökat från 768 GB pre socket i Skylake SP till 3,8 TB per socket i Cascade Lake).

Och varför skulle man inte presentera VNNI i Skylake SP om det faktiskt fanns och fungerande?

Slutligen, Cascade Lake är inte mottaglig för Meltdown samt Spectre variant 2, vilket Skylake SP är.

D.v.s. det borde vara uppenbart att det inte är samma krets som man klockat lite högre.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Rapportera Redigera

Citera flera Citera

2018-11-07 10:43

Medlem ★

Plats: Sundsvall
Registrerad: Okt 2003

●

Skrivet av GuessWho:

Jämför man I7 8700K med 6C/12T mot I7 9700K med 8C/8T så verkar det generellt som at 9700K är snabbare men också strömtörstigare och att skillnaden i effekt är större än skillnaden i prestanda.
...
Så jämför man bara med HT av mot HT på, allt annat samma, antal kärnor, klockfrekvenser etc så drar det mer ström än med HT av.

Gå till inlägget

Den där jämförelsen haltar rejält om man inte verkligen låser dem till (samma) basfrekvens och samma antal kärnor.
9700K kommer att köra med högre hastighet om den inte stryps av effektbegränsning eller temperatur, och den har dessutom två extra kärnor.
En korrekt jämförelse är en något nerklockad 8700K med Turbo avstängt och sedan jämföra effektförbrukningen med HT på respektive av.

Rapportera Redigera

Citera flera Citera

2018-11-07 12:07

Medlem ★

Plats: Sthlm ➜ Hfors
Registrerad: Jun 2004

●

Skrivet av Yoshman:

Skylake SP hade stöd för Optane via PCIe, däremot fick man aldrig med stöd för Optane memory (koppla in Optane DIMMs direkt på minnesbussen). Det jobbet var lite mer än att stoppa dit fler DIMM-slottar då man även ökat mängden RAM som Cascade Lake kan hantera (ökat från 768 GB pre socket i Skylake SP till 3,8 TB per socket i Cascade Lake).

Och varför skulle man inte presentera VNNI i Skylake SP om det faktiskt fanns och fungerande?

Slutligen, Cascade Lake är inte mottaglig för Meltdown samt Spectre variant 2, vilket Skylake SP är.

D.v.s. det borde vara uppenbart att det inte är samma krets som man klockat lite högre.

Gå till inlägget

Att det inte är samma krets vet jag, tänkte bara att skillnaderna på kiselnivå är mindre än vad det ser ut att vara, så det är lite mer befogat att kalla det för två ihopklistrade Skylake SP. För vad jag kommer ihåg så är det just Optane memory som redan finns i Skylake SP, men pga buggar eller annat som inte var klart än så aktiverades det aldrig. Kanske minns fel då.

Rapportera Redigera

Citera flera Citera

2018-11-07 13:12

Datavetare ★

Plats: Stockholm
Registrerad: Jun 2011

●

Skrivet av ajp_anton:

Att det inte är samma krets vet jag, tänkte bara att skillnaderna på kiselnivå är mindre än vad det ser ut att vara, så det är lite mer befogat att kalla det för två ihopklistrade Skylake SP. För vad jag kommer ihåg så är det just Optane memory som redan finns i Skylake SP, men pga buggar eller annat som inte var klart än så aktiverades det aldrig. Kanske minns fel då.

Gå till inlägget

Tja, varför inte bara kalla det för två ihopklistrade Cascade Lake SP? Det är ju exakt vad det handlar om.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Rapportera Redigera

Citera flera Citera (1)

2018-11-07 13:25

Medlem ★

Plats: Sthlm ➜ Hfors
Registrerad: Jun 2004

●

Skrivet av Yoshman:

Tja, varför inte bara kalla det för två ihopklistrade Cascade Lake SP? Det är ju exakt vad det handlar om.

Gå till inlägget

Om man vill betona hur lite som hänt sedan Skylake SP =). Som att Coffee Lake Refresh kallas för "Skylake 4".
Men nu är det här lite onödigt om det faktiskt finns större nyheter i Cascade Lake.

Rapportera Redigera

Citera flera Citera

2018-11-07 18:51

Medlem

Plats: Västkusten
Registrerad: Aug 2010

●

Skrivet av Olle P:

Den där jämförelsen haltar rejält om man inte verkligen låser dem till (samma) basfrekvens och samma antal kärnor.
9700K kommer att köra med högre hastighet om den inte stryps av effektbegränsning eller temperatur, och den har dessutom två extra kärnor.
En korrekt jämförelse är en något nerklockad 8700K med Turbo avstängt och sedan jämföra effektförbrukningen med HT på respektive av.

Gå till inlägget

Du klipper bort den mest relevanta delen av mitt inlägg och säger att jämförelsen haltar?

Tidigare när i5 var 4C/4T och i7 var 4C/8T så har jag aldrig någonsin hört någon påstå att man ska ta i7:an för att den drar mindre ström.

Bryr du dig inte om prestanda så stäng av alla kärnor utom 1, stäng av HT, underklocka och undervolta. Du kommer garanterat få lägre strömförbrukning. Men du kommer också att tappa prestanda.

Om du inte behöver x86 så kanske du kan använda en Raspberry Pi Zero.
Billig och strömsnål.

Om vi går tillbaka till x86... (inkl. x86-64)
Det intressanta med HT är ju påverkan av strömförbrukning OCH prestanda.

-> En korrekt jämförelse är en något nerklockad 8700K med Turbo avstängt och sedan jämföra effektförbrukningen med HT på respektive av.

Du har 100% fel.
Vill jag jämföra 6C/12T vs 8C/8T så kan jag använda 8700K i det ena fallet, men inte i det andra.

Det hade i så fall varit att ta en i9 9900K och testa med och utan HT och med olika antal kärnor aktiverat och även vid olika klockfrekvenser.
För att försöka hitta vad som är optimalt ur prestanda per watt perspektiv på en dator med modern Intel processor.

Bryr man sig enbart om strömförbrukning är det relativt enkelt.
Bara slakta allt som inte är absolut nödvändigt för att överhuvudtaget kunna genomföra uppgiften.
Långsamt men strömsnålt.

Om jag är ute efter att veta hur en i7 9700K står sig mot en i7 8700K så är det inte en haltande jämförelse att jämföra dessa två!

Rapportera Redigera

Citera flera Citera

2018-11-08 15:47

Medlem ★

Plats: Sundsvall
Registrerad: Okt 2003

●

Skrivet av GuessWho:

Du klipper bort den mest relevanta delen av mitt inlägg och säger att jämförelsen haltar?

Gå till inlägget

Okej, jag missförstod din slutsats en aning eftersom du blandade äpplen och päron.

Vi tittar på din slutsats (som jag klippte bort tidigare):
"Men jämför man med att använda HT istället för att öka antal kärnor eller klockfrekvenser för att få ungefär samma prestanda så verkar det som att HT är det strömsnålare alternativet."
Kan mycket väl stämma!
Men vem skulle bry sig om Cascade om den (bara) var 32C/64T? Det är ju skåpmat för ThreadRipper och därmed inget alternativ...
Alltså måste Intel komma närmre 64 fysiska kärnor men ändå begränsa effekten och höja frekvensen.

Senast redigerat 2018-11-08 15:59

Rapportera Redigera

Citera flera Citera