Review: Intel Core i9-7900X (14nm Skylake-X)

Citera flera Citera (2)

2017-06-17 10:30

Tip Top

Medlem

Plats: växjö
Registrerad: Jun 2016

●

skall bli intressant att se vad dom övriga cpu:erna presterar

Visa signatur

If it can't run Crisys its a calculater

The New Build The Torrent 2,0

Citera flera Citera (1)

2017-06-17 10:45

hyperbol

Medlem ★

Registrerad: Aug 2004

●

synd att dom inte testade med ett gtx 108ti istället för gtx1080 ,graffet flaskar ju i många tester.

Citera flera Citera

2017-06-17 10:50

Falcon

Medlem ★

Plats: Karlstad
Registrerad: Aug 2001

●

Skrivet av Tip Top:

Läs och begrunda någon släppte den innan måndag.

OffT: Intel får skylla sig själva, deras PR i Europa är hemsk.
Hexus har helt enkelt skaffat proppen "på egen hand" och står därmed inte under någon NDA.

Flera borde gå den vägen.

Citera flera Citera (2)

2017-06-17 10:51

jorgen69

Medlem

Registrerad: Nov 2004

●

Jag är nyfiken på vad 7820X presterar mot min 3930K.
Funderar på att bygga nytt och behålla mitt MSI GTX 1080 Gaming X

Visa signatur

13900K - NH D15 - Maximus Z790 Hero - 32gb G-Skill 7200Mhz - Intel 900P 480Gb -Kingston Renegade 2Tb -Samsung 980 PRO 2TB - Samsung 980 PRO 1TB - Gigabyte RTX 4090 GAMING OC - AX 1600i - Phanteks P600s -Alienware AW3423DW - Beyerdynamic T5 MK III - Creative Sound Blaster GC7 - ROG Strix SCAR 16 (2023) - G634JZ-NM015W.

Citera flera Citera

2017-06-17 11:16

http://hexus.net/media/uploaded/2017/6/7b62dd6f-212a-4518-b16...

sAAb

Medlem ★

Plats: Stockholm
Registrerad: Jan 2007

●

Jo, den vore lockande om inte konkurrenterna hade något på lut.

Sedan var ju inte bios riktigt optimerat än heller, vilket vi sett på annat håll också under våren.

Dold text

Men, överlag en snäppet mer rimligt prissatt cpu än föregångarna i Broadwell-E, men fortfarande många slantar.

Jag väntar till 10 augusti innan jag uppgraderar något.

Visa signatur

Citera flera Citera (1)

2017-06-17 11:23

sweclockers prestandaindex

ClintBeastwood

Medlem ★

Registrerad: Jul 2011

●

4.7GHz nådde dom med överklockning. Inte illa.

Visa signatur

Efter 10 kommer 11.
Efter 99 kommer 100.

Citera flera Citera

2017-06-17 12:44

marcusOCZ

Medlem ★

Plats: Trondheim, Norge
Registrerad: Feb 2005

●

100 grader med ganska ok kylning. Nej tack. Runt 12000 spänn för att få mer än 28 lanes också.

Visa signatur

14900KF--Apex Encore--RTX 4090--G.Skill 2x24GB DDR5-8000--Dynamic Evo XL
12900K--RTX 2080Ti--Gigabyte Z690 Aorus Master--4X16GB DDR5 6000
Ljud: Lewitt Connect 6--Shure SM7B
Skärmar: Neo G8 4K 240hz--Huawei 3440x1440 165hz

Citera flera Citera (7)

2017-06-17 12:49

Dockland

Medlem ★

Plats: /home
Registrerad: Apr 2010

●

Jag väntar på reviews av 18 core/36 threads, den är den intressanta för mig när jag uppgraderar min 6900K

Visa signatur

Mac Mini M2 Pro
5K

Citera flera Citera

2017-06-17 12:59

anon159643

Inaktiv

Registrerad: Nov 2010

●

Kärnor är som tusenlappar i plånboken, vissa säger att i princip ingen kan använda mer än 4st på en kväll och att enstaka skulle kunna använda 8 core/tusenlappar.

Nå en helt klart intressant cpu, för min del så blir det att skaffa fler kärnor än så. Att fler applikationer behöver optimeras för cpuer med 20 core +ht håller jag med om, men det är inget argument emot att ändå inte köpa en sådan cpu om man nu inte är en sådan person som enbart kan göra en sak i taget.

Det intressanta jag ser med detta är teknikutvecklingen som bokstavligen har stått still på många områden p.g.a sjukligt dyra cpuer.

Citera flera Citera (2)

2017-06-17 13:04

http://hexus.net/tech/reviews/cpu/107017-intel-core-i9-7900x-...

Stoff3th3m4n

Medlem ★

Registrerad: Dec 2013

●

Skrivet av Tip Top:

Läs och begrunda någon släppte den innan måndag. Den var nog inte så dålig som vissa ville tro samt att den är ju halva priset mot förra årets 10 core

I rena prestandasiffror är det absolut inget fel på den, ser bra ut.

Men precis som Hexus själva säger så har varken "bang4buck" eller "bang4watt" förbättrats i jämförelse med andra CPU:er. Så det ska bli intressant att se när dessa CPU:er jämförs mot AMD's motsvarighet.

Edit: Verkar onekligen vara svårkyld också.

Senast redigerat 2017-06-17 14:07

Visa signatur

AMD RYZEN 9 5900X - ASUS ROG X470-F STRIX - 32GB DDR4 @ 3200MHz - ASUS RTX 3070 Ti

Citera flera Citera (4)

2017-06-17 14:00

Fulci

Medlem ★

Registrerad: Jun 2003

●

En till recension från Bit-tech
https://www.bit-tech.net/hardware/2017/06/16/intel-core-i9-79...

Citera flera Citera (2)

2017-06-17 14:07

MinscS2

Medlem ★

Plats: Ystad
Registrerad: Jan 2012

●

Bah, vill ha reviews på i7-7800X och/eller i7-7820X.

i7-7900X är helt ointressant för mig.

Visa signatur

CPU: i9-13900K + Cooler Master ML360L ARGB V2 || GPU: Gainward RTX 4090 Phantom GS.
MoBo: Asus Rog Strix Z790-F Gaming || RAM 32 GB Kingston Fury Beast CL40 DDR5 RGB 5600 MHz.
PSU: Corsair RMe 1000W 80+ Gold || Chassi: Phanteks Eclipse P500A D-RGB.
Lagring: Kingston Fury Renegade M.2 NVME 2TB + Samsung 860 QVO 1TB.
Skärmar: 27" 1440p 144 Hz IPS G-sync + 27" 1440p 155 Hz VA || OS: Win 11 Home.

Citera flera Citera

2017-06-17 23:03

Yoshman

Datavetare ★

Plats: Stockholm
Registrerad: Jun 2011

●

Trodde aldrig jag skulle länka ett Geekbench-resultat... Men faktum är att Geekbench 4 har en del delresultat som faktiskt är intressanta, totalresultatet är däremot fortfarande rätt värdelöst (t.ex. så kan LLVM resultatet skilja ett par heltalsfaktorer för olika personer, det även på samma CPU-modell...)

Det som är intressant med GB4-resultaten är främst hur de olika deltesterna skalar från enkeltrådat till multitrådat. Skylake-X må samma mikroarkitektur som Skylake-S/U/Y (bortsett från AVX512 stöd) men det är helt olika cache-design.

Intel har gjort vad man nog borde gjort tidigare, separerat cache-designen mellan desktop och server. Vad som är optimalt för desktop är lägsta möjliga kommunikationslatens mellan kärnor, d.v.s optimera för fallet där man kör ett program som använder sig av flera trådar för att lösa ett problem.

Det optimala för desktop är en lokal cache med allt fokus på latens, något som betyder relativt liten lokal cache. Vidare bör man ha en relativt stor LLC (Last Level Cache) som helst "täcker" alla kärnor och som inkluderar allt innehåll från de lokala cacharna, detta då det blir trivialt att hantera fall när flera kärnor skriver minne cachat av andra kärnor (detta händer alltid när man tar mutex/spinlocks i program som skyddar data mer än en kärna använder).

Så S-serien har en optimal cache design? För desktop, ja. För servers finns en rad problem med en sådan design, framförallt är det omöjligt att skala en sådan design till riktigt många CPU-kärnor då latensen drar iväg samt efter ett tag slutar helt bandbredd mot LLC att skala (detta är absolut ett problem i E5 2699v4 med 22 kärnor).

Tillbaka till GB4 resultatet. GB4 har en blandning av deltester som skalar perfekt med kärnor och deltester som är mer lik desktop-program (d.v.s. de skalar till viss del med kärnor, i GB4 skalar de rätt mycket bättre än de flesta program men ändå långt ifrån perfekt). Kolla in i7-6950X vs i9-7900X, precis som i Bit-tech och Hexus tester är det inte alls en slamdunk för Skylake-X trots högre frekvens.

Än mer intressant blir det när jämför i7-6950X vs R7-1800X samt i9-7900K vs R7-1800X, det är generellt sett samma test där Ryzen och Skylake-X är svaga resp. starka mot Broadwell-E. Relevans? Bortsett från CCX uppdelningen i Ryzen så har Zen och server Skylake exakt samma cache-policy, båda är främst optimerade för typiska "serverfall" där man kör många oberoende uppgifter där varje uppgift jobbar med en eller några enstaka trådar.

Har skrivit tidigare att t.ex. spel kommer fungera sämre på Skylake-X cache-design (något som naturligtvis till viss kompenseras av högre IPC och frekvens jämfört med BDW-E och fler kärnor jämfört med Skylake-S). Tyvärr väljer både Hexus och Bit-tech av någon idiotisk anledning att testa CPUer med GTX1080 i 2560x1440 (testa för i helvete med 1280x720 eller i alla fall GTX1080Ti i 1920x1080 så flaskhalsen blir CPU), men ser faktiskt ut som en överklockad BDW-E @ 4,4 GHz slår SKL-X @ 4,6 GHz i just spel.

Ser alltså ut som effekten av cachen är större än jag gissade. Eller kanske bara handlar om "optimeringar" precis som för Ryzen och inte det fundamentala faktum att spel kräver relativt frekvens kommunikation mellan kärnor vilket inte alls är optimalt för cache-design i Zen och server Skylake

Får se nästa vecka när det kommer ut fler tester, men ser allt mer ut som 6C/12T Coffee Lake kommer bli spelkungen detta år.

BTW: Kolla in SGEMM resultatet i GB för i9-7900X (Single precision floating General Matrix Multiply), GB4 använder samma bibliotek som t.ex. programspråket R, Octave och en rad andra open source verktyg för vetenskapliga beräkningar. i9-7900X har lika hög flyttalskapacitet med en kärna som R7-1800X har över alla åtta (för sådant som kan vektoriseras, för "vanliga" flyttal är inte SKL-X bättre än SKL-S och här är Ryzen grym)!

Senast redigerat 2017-06-17 23:17

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Citera flera Citera (11)

2017-06-17 23:16

philipborg

Medlem ★

Plats: Västra Götaland
Registrerad: Sep 2012

●

Skrivet av Yoshman:

BTW: Kolla in SGEMM resultatet i GB för i9-7900X (Single precision floating General Matrix Multiply), GB4 använder samma bibliotek som t.ex. programspråket R, Octave och en rad andra open source verktyg för vetenskapliga beräkningar. i9-7900X har lika hög flyttalskapacitet med en kärna än vad R7-1800X har över alla åtta (för sådant som kan vektoriseras, för "vanliga" flyttal är inte SKL-X bättre än SKL-S och här är Ryzen grym)!

Intel C++ Compiler? För ser inte riktigt annars hur AVX512 skulle vara 8x bättre. Borde vara 2x bättre än AVX2 som Ryzen har. Faktumet att det är 8x bättre skriker ju att inte ens SIMD används på Ryzen i det testet. Eller har AVX512 instruktioner för just detta på samma sätt som fused multiply add har special instruktioner?

Visa signatur

Citera eller @philipborg om du vill att jag ska läsa dina svar.

Citera flera Citera

2017-06-17 23:25

Yoshman

Datavetare ★

Plats: Stockholm
Registrerad: Jun 2011

●

Skrivet av philipborg:

Intel C++ Compiler? För ser inte riktigt annars hur AVX512 skulle vara 8x bättre. Borde vara 2x bättre än AVX2 som Ryzen har. Faktumet att det är 8x bättre skriker ju att inte ens SIMD används på Ryzen i det testet. Eller har AVX512 instruktioner för just detta på samma sätt som fused multiply add har special instruktioner?

Nej, är MSVC på Windows, GCC på Linux och LLVM på OSX. Jag kör en del "R", på Ubuntu med R + OpenBLAS ur Ubuntus standardarkiv (som är helt byggt med GCC) får jag mer eller mindre identisk FLOPS som i GB4 (så min tvåkärniga i7-6650U matchar nästan en R5-1600 i SGEMM).

GCC > MSVC samt LLVM > MSVC nu för tiden, i just GB får man också högre resultat på Linux och OSX. Men just fallet OpenBLAS så är det AVX2+FMA alt AVX512+FMA via compiler instricts så just detta deltest presterar i det närmaste identiskt oavsett kompilator.

Edit: Ah, ser vad du menar med att det inte borde vara x8 bättre. Teoretisk sett har Zen samma kapacitet för SSE som AVX, det är ett designval man gjorde för att hålla ner antalet transistorer. Vidare är i9-7900X klockad till 4,5 GHz när max två kärnor är lastade.

Så borde vara 4(AVX512 vs SSE)*4,5/4 (frekvensskillnad) = x4,5

Men sedan är FMA den enda x86 instruktionen som tar 3 argument, det blir två "loads" och en "store" för en enda instruktion. Haswell och senare kan göra två load/store och en store per cykel, Zen kan göra två load/store per cykel. Så i praktiken verkar FMA instruktionen inte kunna nå teoretiskt max för Zen, det kan inte riktigt Haswell/Broadwell heller (de når ~80-85 % av max i praktiken, flaskhalsen här verkar vara för låg cache-bandbredd för att maxa AVX+FMA) men Skylake når över 95 % av teoretisk max i praktiken.

Syns även i detta test (från en AnandTech-tråd). Även detta test använder AVX2+FMA, alla modeller har 4C/4T aktiverade och kör 3,5 GHz.

Sedan angående AVX512. Den största fördelen med AVX512 är egentligen inte dubbel teoretiskt flyttalsprestanda (inte utanför HPC och program för vetenskapliga beräkningar). Det viktigaste man lagt till är finesser som kraftigt ökar flexibiliteten i hur man kan hantera kod som har villkorad körning där olika "lanes" tar olika väg.

Med SSE går det knappt att hantera villkorad körning (går men ineffektivt), så saker som matrismultiplikation och andra rena matematiska beräkningar är egentligen det enda som fungerar riktigt bra. AVX fick VMASKMOV, något som gjort det praktiskt möjligt att använda högnivåspråk för SIMD-programmering ("compiler instricts" suger som programmeringsmetod, avsaknad av möjlighet till att använda högnivåspråk är en väldigt stor orsak att SIMD inte används mer så här långt). AVX512 tar det ett jättekliv till genom att införa speciella register för att kunna maska "lanes" för i princip alla operationer, AVX512 fungerar därmed väldigt nära moderna AMD/Nvidia GPUer. D.v.s. varje AVX512 ALU (finns totalt tre SIMD-pipelines i Skylake) är som 16 CUDA/stream-"kärnor".

Att skriva program så de skalar är svårt. Vissa problem kan överhuvudtaget inte skalas över CPU-kärnor, men vissa av de problem kan skalas med SIMD. Andra problem (som t.ex. matrismultiplikation) går att skala både över kärnor och SIMD (och kan göras samtidigt vilket är exakt vad bibliotek som OpenBLAS gör).

Varken många kärnor eller SIMD är magiska, kommer fortfarande finnas (relativt många) problem som inte går att skala med någon av metoderna (de som är strikt sekventiella). Men dumt att inte utnyttja flera kärnor när det går, men minst lika dumt att inte utnyttja SIMD när det går då man lämnar upp till x4-16 (SSE-AVX512) prestandaboost på bordet för single-precission floats och 32-bit heltal (x2-8 för DP och 64-bit heltal).

Senast redigerat 2017-06-18 00:20

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Citera flera Citera (4)

2017-06-18 09:59

sAAb

Medlem ★

Plats: Stockholm
Registrerad: Jan 2007

●

Skrivet av Yoshman:

Nej, är MSVC på Windows, GCC på Linux och LLVM på OSX. Jag kör en del "R", på Ubuntu med R + OpenBLAS ur Ubuntus standardarkiv (som är helt byggt med GCC) får jag mer eller mindre identisk FLOPS som i GB4 (så min tvåkärniga i7-6650U matchar nästan en R5-1600 i SGEMM).

GCC > MSVC samt LLVM > MSVC nu för tiden, i just GB får man också högre resultat på Linux och OSX. Men just fallet OpenBLAS så är det AVX2+FMA alt AVX512+FMA via compiler instricts så just detta deltest presterar i det närmaste identiskt oavsett kompilator.

Edit: Ah, ser vad du menar med att det inte borde vara x8 bättre. Teoretisk sett har Zen samma kapacitet för SSE som AVX, det är ett designval man gjorde för att hålla ner antalet transistorer. Vidare är i9-7900X klockad till 4,5 GHz när max två kärnor är lastade.

Så borde vara 4(AVX512 vs SSE)*4,5/4 (frekvensskillnad) = x4,5

Men sedan är FMA den enda x86 instruktionen som tar 3 argument, det blir två "loads" och en "store" för en enda instruktion. Haswell och senare kan göra två load/store och en store per cykel, Zen kan göra två load/store per cykel. Så i praktiken verkar FMA instruktionen inte kunna nå teoretiskt max för Zen, det kan inte riktigt Haswell/Broadwell heller (de når ~80-85 % av max i praktiken, flaskhalsen här verkar vara för låg cache-bandbredd för att maxa AVX+FMA) men Skylake når över 95 % av teoretisk max i praktiken.

Syns även i detta test (från en AnandTech-tråd). Även detta test använder AVX2+FMA, alla modeller har 4C/4T aktiverade och kör 3,5 GHz.
http://i.imgur.com/OLiJZDz.png

Sedan angående AVX512. Den största fördelen med AVX512 är egentligen inte dubbel teoretiskt flyttalsprestanda (inte utanför HPC och program för vetenskapliga beräkningar). Det viktigaste man lagt till är finesser som kraftigt ökar flexibiliteten i hur man kan hantera kod som har villkorad körning där olika "lanes" tar olika väg.

Med SSE går det knappt att hantera villkorad körning (går men ineffektivt), så saker som matrismultiplikation och andra rena matematiska beräkningar är egentligen det enda som fungerar riktigt bra. AVX fick VMASKMOV, något som gjort det praktiskt möjligt att använda högnivåspråk för SIMD-programmering ("compiler instricts" suger som programmeringsmetod, avsaknad av möjlighet till att använda högnivåspråk är en väldigt stor orsak att SIMD inte används mer så här långt). AVX512 tar det ett jättekliv till genom att införa speciella register för att kunna maska "lanes" för i princip alla operationer, AVX512 fungerar därmed väldigt nära moderna AMD/Nvidia GPUer. D.v.s. varje AVX512 ALU (finns totalt tre SIMD-pipelines i Skylake) är som 16 CUDA/stream-"kärnor".

Att skriva program så de skalar är svårt. Vissa problem kan överhuvudtaget inte skalas över CPU-kärnor, men vissa av de problem kan skalas med SIMD. Andra problem (som t.ex. matrismultiplikation) går att skala både över kärnor och SIMD (och kan göras samtidigt vilket är exakt vad bibliotek som OpenBLAS gör).

Varken många kärnor eller SIMD är magiska, kommer fortfarande finnas (relativt många) problem som inte går att skala med någon av metoderna (de som är strikt sekventiella). Men dumt att inte utnyttja flera kärnor när det går, men minst lika dumt att inte utnyttja SIMD när det går då man lämnar upp till x4-16 (SSE-AVX512) prestandaboost på bordet för single-precission floats och 32-bit heltal (x2-8 för DP och 64-bit heltal).

AVX512 är användbart och jag hade hoppats att Ryzen skulle stödja det. Det är ju användbart i många fall.

Samtidigt så är det ju en benchmark som är lite speciell då få program stödjer det än. Kanske lite i stil med följande (från https://www.aida64.com/):

Kanske inte helt jämförbart, men vill man visa på stora skillnader så duger den här också.

Visa signatur

Citera flera Citera (1)

2017-06-18 10:22

https://www.aida64.com/sites/default/files/shot3_hash_ryzen_en.png

Yoshman

Datavetare ★

Plats: Stockholm
Registrerad: Jun 2011

●

Skrivet av sAAb:

AVX512 är användbart och jag hade hoppats att Ryzen skulle stödja det. Det är ju användbart i många fall.

Samtidigt så är det ju en benchmark som är lite speciell då få program stödjer det än. Kanske lite i stil med följande (från https://www.aida64.com/):

Kanske inte helt jämförbart, men vill man visa på stora skillnader så duger den här också.

En stor skillnad: AIDA64, CPU-Z, Geekbench m.fl. ger resultat som i många fall har väldigt lite bäring på något verkligt program.

Just SGEMM-deltestet visar något som har en direkt koppling till hur lång tid dina beräkningar av stora matriser kommer ta i existerande program. I Matlab, Octave och Matematica behöver du inte göra något alls för att få denna prestanda, i "R" märkte jag att man själv måste installera OpenBLAS biblioteket (men ska gå att köra "R" med andra bibliotek som t.ex. MKL).

En annan stor skillnad också: hög prestanda för matrisoperationer är en generellt användbar egenskap inom väldigt många områden då väldigt många simuleringar och vetenskapliga beräkningar man beskrivas med matriser. Fallet du länkar för Ryzen, CPU HASH, är inte i närheten lika generellt + Zen är väldigt snabb på detta då den har HW-stöd för hash-operationer (så prestanda du ser där är helt irrelevant om du inte gör SHA)!

Poängen kring AVX512: den stora fördelen här är att man ökar mängden problem som effektivt kan lösas med SIMD. "SI"-delen i SIMD gör det utmanande att hantera fall med villkorad körning och utan relativt effektiv villkorad tappar man många potentiella fall.

Omöjliga områden för SIMD som ändå är parallella är där man utför olika saker samtidigt, detta problem går dock att lösa med flera CPU-kärnor.

Omöjliga områden för flera CPU-kärnor som ändå är parallella är fall där del-problemen ofta måste ha del-resultat från något som kör parallellt (vissa typer av flödessimuleringar samt x265 kodning är två exempel), detta problem går dock att lösa med SIMD (dessa fall går normalt inte att lösa effektivt med en GPU heller!).

Det här med parallellaprogrammering är svårt då det inte finns en generell lösning (något man trots allt trodde/hoppades på så sent som för ~10 år sedan). Framtiden för datorer är lite som framtiden för drivmedel till bilar. Bensin har används då det är energitätt, relativt billigt och finns i massor. Tyvärr verkar det inte finns någon bra generell ersättare. Att höga enkeltrådprestanda var under många många år en lysande lösning, allt blir snabbare utan att man behöver göra något alls. Nu kommer vi få massor med olika lösning + vissa problem går tyvärr inte att hantera bra (de strikt seriella).

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Citera flera Citera (2)

2017-06-18 10:41

sAAb

Medlem ★

Plats: Stockholm
Registrerad: Jan 2007

●

Skrivet av Yoshman:

En stor skillnad: AIDA64, CPU-Z, Geekbench m.fl. ger resultat som i många fall har väldigt lite bäring på något verkligt program.

Just SGEMM-deltestet visar något som har en direkt koppling till hur lång tid dina beräkningar av stora matriser kommer ta i existerande program. I Matlab, Octave och Matematica behöver du inte göra något alls för att få denna prestanda, i "R" märkte jag att man själv måste installera OpenBLAS biblioteket (men ska gå att köra "R" med andra bibliotek som t.ex. MKL).

En annan stor skillnad också: hög prestanda för matrisoperationer är en generellt användbar egenskap inom väldigt många områden då väldigt många simuleringar och vetenskapliga beräkningar man beskrivas med matriser. Fallet du länkar för Ryzen, CPU HASH, är inte i närheten lika generellt + Zen är väldigt snabb på detta då den har HW-stöd för hash-operationer (så prestanda du ser där är helt irrelevant om du inte gör SHA)!

Poängen kring AVX512: den stora fördelen här är att man ökar mängden problem som effektivt kan lösas med SIMD. "SI"-delen i SIMD gör det utmanande att hantera fall med villkorad körning och utan relativt effektiv villkorad tappar man många potentiella fall.

Omöjliga områden för SIMD som ändå är parallella är där man utför olika saker samtidigt, detta problem går dock att lösa med flera CPU-kärnor.

Omöjliga områden för flera CPU-kärnor som ändå är parallella är fall där del-problemen ofta måste ha del-resultat från något som kör parallellt (vissa typer av flödessimuleringar samt x265 kodning är två exempel), detta problem går dock att lösa med SIMD (dessa fall går normalt inte att lösa effektivt med en GPU heller!).

Det här med parallellaprogrammering är svårt då det inte finns en generell lösning (något man trots allt trodde/hoppades på så sent som för ~10 år sedan). Framtiden för datorer är lite som framtiden för drivmedel till bilar. Bensin har används då det är energitätt, relativt billigt och finns i massor. Tyvärr verkar det inte finns någon bra generell ersättare. Att höga enkeltrådprestanda var under många många år en lysande lösning, allt blir snabbare utan att man behöver göra något alls. Nu kommer vi få massor med olika lösning + vissa problem går tyvärr inte att hantera bra (de strikt seriella).

Jo, jag vet att diagrammet jag länkade var extremt introvert. Det sade jag också.

Men, ett program som borde gå att göra mer parallellt är Civilization. Orsaken är att man idag har en round-robin så att varje nation påbörjar sin beräkning först efter att alla andra nationer avslutat sin runda. Fast, precis som två människor tänker samtidigt i schack och go borde ju gå att se till att alla har en eget litet objekt som snurrar och utvärderar delproblem och att man förkastar de lösningar som inte är relevanta efter motståndarnas "drag".

Visa signatur

Citera flera Citera (1)

2017-06-18 10:58

philipborg

Medlem ★

Plats: Västra Götaland
Registrerad: Sep 2012

●

Skrivet av Yoshman:

Nej, är MSVC på Windows, GCC på Linux och LLVM på OSX. Jag kör en del "R", på Ubuntu med R + OpenBLAS ur Ubuntus standardarkiv (som är helt byggt med GCC) får jag mer eller mindre identisk FLOPS som i GB4 (så min tvåkärniga i7-6650U matchar nästan en R5-1600 i SGEMM).

GCC > MSVC samt LLVM > MSVC nu för tiden, i just GB får man också högre resultat på Linux och OSX. Men just fallet OpenBLAS så är det AVX2+FMA alt AVX512+FMA via compiler instricts så just detta deltest presterar i det närmaste identiskt oavsett kompilator.

Edit: Ah, ser vad du menar med att det inte borde vara x8 bättre. Teoretisk sett har Zen samma kapacitet för SSE som AVX, det är ett designval man gjorde för att hålla ner antalet transistorer. Vidare är i9-7900X klockad till 4,5 GHz när max två kärnor är lastade.

Så borde vara 4(AVX512 vs SSE)*4,5/4 (frekvensskillnad) = x4,5

Men sedan är FMA den enda x86 instruktionen som tar 3 argument, det blir två "loads" och en "store" för en enda instruktion. Haswell och senare kan göra två load/store och en store per cykel, Zen kan göra två load/store per cykel. Så i praktiken verkar FMA instruktionen inte kunna nå teoretiskt max för Zen, det kan inte riktigt Haswell/Broadwell heller (de når ~80-85 % av max i praktiken, flaskhalsen här verkar vara för låg cache-bandbredd för att maxa AVX+FMA) men Skylake når över 95 % av teoretisk max i praktiken.

Syns även i detta test (från en AnandTech-tråd). Även detta test använder AVX2+FMA, alla modeller har 4C/4T aktiverade och kör 3,5 GHz.
http://i.imgur.com/OLiJZDz.png

Sedan angående AVX512. Den största fördelen med AVX512 är egentligen inte dubbel teoretiskt flyttalsprestanda (inte utanför HPC och program för vetenskapliga beräkningar). Det viktigaste man lagt till är finesser som kraftigt ökar flexibiliteten i hur man kan hantera kod som har villkorad körning där olika "lanes" tar olika väg.

Med SSE går det knappt att hantera villkorad körning (går men ineffektivt), så saker som matrismultiplikation och andra rena matematiska beräkningar är egentligen det enda som fungerar riktigt bra. AVX fick VMASKMOV, något som gjort det praktiskt möjligt att använda högnivåspråk för SIMD-programmering ("compiler instricts" suger som programmeringsmetod, avsaknad av möjlighet till att använda högnivåspråk är en väldigt stor orsak att SIMD inte används mer så här långt). AVX512 tar det ett jättekliv till genom att införa speciella register för att kunna maska "lanes" för i princip alla operationer, AVX512 fungerar därmed väldigt nära moderna AMD/Nvidia GPUer. D.v.s. varje AVX512 ALU (finns totalt tre SIMD-pipelines i Skylake) är som 16 CUDA/stream-"kärnor".

Att skriva program så de skalar är svårt. Vissa problem kan överhuvudtaget inte skalas över CPU-kärnor, men vissa av de problem kan skalas med SIMD. Andra problem (som t.ex. matrismultiplikation) går att skala både över kärnor och SIMD (och kan göras samtidigt vilket är exakt vad bibliotek som OpenBLAS gör).

Varken många kärnor eller SIMD är magiska, kommer fortfarande finnas (relativt många) problem som inte går att skala med någon av metoderna (de som är strikt sekventiella). Men dumt att inte utnyttja flera kärnor när det går, men minst lika dumt att inte utnyttja SIMD när det går då man lämnar upp till x4-16 (SSE-AVX512) prestandaboost på bordet för single-precission floats och 32-bit heltal (x2-8 för DP och 64-bit heltal).

Då förstår jag varför det inte blev runt 2x som man antar vid AVX2 vs AVX512. Visste inte att Ryzen var såpass svag på SIMD och att även om de har AVX2 instruktioner så är det bara SSE kapacitet. Bra att veta då jag har funderat på att skriva lite SIMD kapabel OpenCL till ett planerat projekt som lär vara väldigt lätt att skala. Hmm, jag undrar om AMD vill hellre se HSA inom HPC då som du säger så tjänar dem lite samma syfte.

Visa signatur

Citera eller @philipborg om du vill att jag ska läsa dina svar.

Citera flera Citera (1)

2017-06-18 11:36

Yoshman

Datavetare ★

Plats: Stockholm
Registrerad: Jun 2011

●

Skrivet av philipborg:

Då förstår jag varför det inte blev runt 2x som man antar vid AVX2 vs AVX512. Visste inte att Ryzen var såpass svag på SIMD och att även om de har AVX2 instruktioner så är det bara SSE kapacitet. Bra att veta då jag har funderat på att skriva lite SIMD kapabel OpenCL till ett planerat projekt som lär vara väldigt lätt att skala. Hmm, jag undrar om AMD vill hellre se HSA inom HPC då som du säger så tjänar dem lite samma syfte.

Du kan inte jämföra mot BDW-E, AVX2+FMA kapaciteten där når inte teoretiskt maxi praktiken. Jämför du i7-7700K och i9-7900X i enkeltrådad SGEMM är det är mycket x2 (något mindre faktiskt, så med AVX512 verkar Skylake slå i andra flaskhalsar än rå beräkningskraft).

Men som jag redan påpekat, jag tror ändå den högre flexibiliteten i AVX512 är viktigare än den högre kapaciteten. I alla fall för skrivbordet, typiska HPC-laster jobbar ju nästan bara med matriser så där är man nog främst ute efter kapaciteten (men då finns ju GPUer och XeonPhi att tillgå).

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Citera flera Citera

2017-06-18 11:49

Aeig

Medlem ★

Registrerad: Jul 2008

●

Besviken på prestandan då en 6950X presterar likvärdigt i en del applikationer och ibland tom är snabbare. Dessutom har saknad den lödd IHS, vilket är ett skämt för en CPU som kostar 10Tkr, endast 44 PCI-E banor, och blir fruktansvärt varm vid överklockning. Det är tragiskt att jag ska behöva delidda en HEDT CPU för att få temperaturer som kan anses rimliga.

Blir också kämpigt när Threadripper släpps med 16 kärnor och lödd IHS för 9-11Tkr, och på sätt och vis konkurrerar denna CPU även med Ryzen 7 och 7820X, ironiskt nog, fast då har Intel segmenterat med PCI-E banor istället vilket är rimligt om den sätts i jämförelse med Ryzen 7.

Hade dom haft lödd IHS på denna serie hade jag med glädje köpt någon av i9, tom den 18 kärniga, men som det är nu så är det en dealbreaker.

Spännande år hursomhelst.

MVH

Visa signatur

Asus ROG Strix B650E-F - AMD Ryzen 7 7800X3D - 32GB DDR5 - Galax RTX 4090 Hall Of Fame OC Lab - Corsair MP700 - WD Black SN850 - WD Black SN850X - Samsung QVO 870 - WD Black HDD - Noctua NH-U12A Chromax - Fractal Design Define 7 - Seasonic Prime Ultra Gold 1000W - Alienware AW3423DWF QD-OLED

Citera flera Citera (4)

2017-06-18 12:02

Dockland

Medlem ★

Plats: /home
Registrerad: Apr 2010

●

Skrivet av Aeig:

Besviken på prestandan då en 6950X presterar likvärdigt i en del applikationer och ibland tom är snabbare. Dessutom har saknad den lödd IHS, vilket är ett skämt för en CPU som kostar 10Tkr, endast 44 PCI-E banor, och blir fruktansvärt varm vid överklockning. Det är tragiskt att jag ska behöva delidda en HEDT CPU för att få temperaturer som kan anses rimliga.

Blir också kämpigt när Threadripper släpps med 16 kärnor och lödd IHS för 9-11Tkr, och på sätt och vis konkurrerar denna CPU även med Ryzen 7 och 7820X, ironiskt nog, fast då har Intel segmenterat med PCI-E banor istället vilket är rimligt om den sätts i jämförelse med Ryzen 7.

Hade dom haft lödd IHS på denna serie hade jag med glädje köpt någon av i9, tom den 18 kärniga, men som det är nu så är det en dealbreaker.

Spännande år hursomhelst.

MVH

Jag har en 6900K (8/16) och klockad till 4.1 som aldrig går över 60 grader, tror jag sett 57 grader som högst, efter några timmars kompilerande. Är den lödd månne, eftersom min alltid är sval? I idle/surf, netflix, youtube m.m. ligger den mellan 32 och 43 grader.

Visa signatur

Mac Mini M2 Pro
5K

Citera flera Citera (1)

2017-06-18 12:16

SeF.Typh00n

Avstängd

Plats: Skåne
Registrerad: Sep 2006

●

Skrivet av Aeig:

Besviken på prestandan då en 6950X presterar likvärdigt i en del applikationer och ibland tom är snabbare.

Mja nja, nu får vi väl ge den samma ursäkt som AMD med deras nya plattform med BIOS-problem. I och med att dom har gått ifrån att använda en ring-bus till en mesh-struktur så lär vi se lite initialla problem. Jag håller helt med om att det finns en hel del riktigt tveksamma beslut med Skylake-X och det blir antagligen en threadripper för mig med. Men nu får vi faktiskt vara lite rättvisa.

Men det hade inte jag behövt säga här, för det står i artikeln två gånger.

Citat:

3DMark doesn't reveal any significant gains - these tests tend to be bound by the GPU - but why is the Core i9 off the pace in VRMark? At the time of writing we can only put this down to a lack of software maturity. In the interests of full disclosure, readers should note that the Core i9-7900X initially scored just 4,015 in the VRMark test and the result climbed to 10,191 courtesy of a new motherboard BIOS. There's clearly still work being done to optimse performance.

Citat:

Deus Ex and Hitman play as expected, with the latter particularly enjoying the 10 fast cores, but Total War is well off the pace. The game appears to suffer from unexplained stuttering, and once again, the latest BIOS saw average FPS climb from 48.2 to 74.9. Core i9-7900X goes on sale in a matter of days, and it remains to be seen whether or not these performance irregularities can be ironed out in such a short space of time.

Visa signatur

R7 3700X | X570 Aorus Master | 32GB | EVGA 1080 Ti FTW3 | Noctua NH-D15S | FD Meshify C Copper
R7 1700 | X370 Gaming-ITX | 16GB | RX Vega 64 LE | Noctua U12S | Node 304
2 x HPE ProLiant Microserver Gen 8 | 1265L V2 | 16GB | 20TB

Citera flera Citera (3)

2017-06-18 15:00

Jonathanknet

Medlem ★

Registrerad: Feb 2010

●

Intel Core i7-7740X overclockability
https://videocardz.com/70338/intel-core-i7-7740x-overclockabi...

Citera flera Citera

2017-06-18 20:33

sAAb

Medlem ★

Plats: Stockholm
Registrerad: Jan 2007

●

Skrivet av Jonathanknet:

Intel Core i7-7740X overclockability
https://videocardz.com/70338/intel-core-i7-7740x-overclockabi...

WT?

Citat:

The guide recommends liquid cooling for overclocked KBLX CPUs and SKLX CPUs no matter if they overclocked or not.

You're damned if you do and you're damned if you don't, eller?

Ok, det låter ju dyrare än beräknat.

Visa signatur

Citera flera Citera

2017-06-19 12:44

jorgen69

Medlem

Registrerad: Nov 2004

●

Skrivet av MinscS2:

Bah, vill ha reviews på i7-7800X och/eller i7-7820X.

i7-7900X är helt ointressant för mig.

http://cpu.userbenchmark.com/Intel-Core--i7-7820X/Rating/3928

Hittade ett benchmark på 7820X

Visa signatur

13900K - NH D15 - Maximus Z790 Hero - 32gb G-Skill 7200Mhz - Intel 900P 480Gb -Kingston Renegade 2Tb -Samsung 980 PRO 2TB - Samsung 980 PRO 1TB - Gigabyte RTX 4090 GAMING OC - AX 1600i - Phanteks P600s -Alienware AW3423DW - Beyerdynamic T5 MK III - Creative Sound Blaster GC7 - ROG Strix SCAR 16 (2023) - G634JZ-NM015W.

Citera flera Citera

2017-06-19 13:00

VideoyGTX

Medlem ★

Registrerad: Mar 2015

●

Vem lägger 10000 kr på en cpu för att spela? Såvidare man inte är en känd twitch streamer eller youtube stjärna som får sponsrade artiklar eller pengar. Och enligt de benchmarken som visades så verkade det inte vara så stor fördel fps mässigt med 10 kärnor/20 trådar.

Citera flera Citera (1)

2017-06-19 13:06

jorgen69

Medlem

Registrerad: Nov 2004

●

Man märker nog ingen skillnad eller ytterst liten ökning av prestandan i spel.skulle väl vara om man vill ha M2 SSD och andra nya finesser som i mitt fall.

Visa signatur

13900K - NH D15 - Maximus Z790 Hero - 32gb G-Skill 7200Mhz - Intel 900P 480Gb -Kingston Renegade 2Tb -Samsung 980 PRO 2TB - Samsung 980 PRO 1TB - Gigabyte RTX 4090 GAMING OC - AX 1600i - Phanteks P600s -Alienware AW3423DW - Beyerdynamic T5 MK III - Creative Sound Blaster GC7 - ROG Strix SCAR 16 (2023) - G634JZ-NM015W.

Citera flera Citera

2017-06-19 13:08