Review: Intel Core i9-7900X (14nm Skylake-X)

Trädvy Permalänk
Medlem
Plats
växjö
Registrerad
Jun 2016

Review: Intel Core i9-7900X (14nm Skylake-X)

Läs och begrunda någon släppte den innan måndag. Den var nog inte så dålig som vissa ville tro samt att den är ju halva priset mot förra årets 10 core

http://hexus.net/tech/reviews/cpu/107017-intel-core-i9-7900x-...

CHASSI: DARK BASE PRO 900 CPU: i7 6900K @ 4.3GHz MB: GIGABYTE X99 ULTRA GAMING RAM: CORSAIR LPX DDR4 @ 3000MHZ 32GB SSD: SAMSUNG 950PRO 256GB ,HYPERX 240GB HD: SEAGATE 4TB ,WD 3TB GREEN GPU: EVGA 1080 SLI PSU: EVGA SUPERNOVA G2 1300W SKÄRM: ASUS PG27AQ 4K VATTENKYLNING: CUSTOMLOOP 2X 360 RADS

DARK BASE 900

Trädvy Permalänk
Medlem
Plats
växjö
Registrerad
Jun 2016

skall bli intressant att se vad dom övriga cpu:erna presterar

CHASSI: DARK BASE PRO 900 CPU: i7 6900K @ 4.3GHz MB: GIGABYTE X99 ULTRA GAMING RAM: CORSAIR LPX DDR4 @ 3000MHZ 32GB SSD: SAMSUNG 950PRO 256GB ,HYPERX 240GB HD: SEAGATE 4TB ,WD 3TB GREEN GPU: EVGA 1080 SLI PSU: EVGA SUPERNOVA G2 1300W SKÄRM: ASUS PG27AQ 4K VATTENKYLNING: CUSTOMLOOP 2X 360 RADS

DARK BASE 900

Trädvy Permalänk
Medlem
Plats
märsta
Registrerad
Aug 2004

synd att dom inte testade med ett gtx 108ti istället för gtx1080 ,graffet flaskar ju i många tester.

Core i7 4790K | Noctua NH-D15 | ASUS Z87-A | Gigabyte GeForce GTX 1080 Ti Aorus | HyperX Savage 16GB (2x8GB) 2400MHz | EVGA SuperNOVA 750 G2 | Samsung 840 PRO 256GB | Fractal Define S | Windows 10 Enterprise | Asus ROG Swift PG279Q

Trädvy Permalänk
Medlem
Plats
Karlstad
Registrerad
Aug 2001
Skrivet av Tip Top:

Läs och begrunda någon släppte den innan måndag.

OffT: Intel får skylla sig själva, deras PR i Europa är hemsk.
Hexus har helt enkelt skaffat proppen "på egen hand" och står därmed inte under någon NDA.

Flera borde gå den vägen.

6600k @4.7, Asus Z170 Pro Gaming, Vengeance DDR4 3000 @3.2, 1060 GamingX 6GB @2.1/9.3, 144Hz.

Trädvy Permalänk
Medlem
Registrerad
Nov 2004

Jag är nyfiken på vad 7820X presterar mot min 3930K.
Funderar på att bygga nytt och behålla mitt MSI GTX 1080 Gaming X

Du kommer aldrig ångra ett träning pass du gjort. Du kommet där i mot ångra de bilringarna som de uteblivna passen skapade

Trädvy Permalänk
Medlem
Plats
Stockholm
Registrerad
Jan 2007

Jo, den vore lockande om inte konkurrenterna hade något på lut.

Sedan var ju inte bios riktigt optimerat än heller, vilket vi sett på annat håll också under våren.

Men, överlag en snäppet mer rimligt prissatt cpu än föregångarna i Broadwell-E, men fortfarande många slantar.

Jag väntar till 10 augusti innan jag uppgraderar något.

|FD Define R5|P35-DQ6|Q6600|Ultra-120eXt|Noctua NF-S12-1200|OCZ ZX 1000W|4x2GB Corsair667MHz |HD 4870|Samsung TA24-550|Win 10/Debian Sid KDE 5|¤|Gigabyte GZ-XX1CA-SNS|Asus P8P67-B3|2500K|OCZ GXS 850W|2x4GB Corsair Vengeance|GeForce GTX670|Philips 27"|Debian Sid KDE 5|

Trädvy Permalänk
Medlem
Registrerad
Jul 2011

4.7GHz nådde dom med överklockning. Inte illa.

sweclockers prestandaindex

Kan ibland låta ofrivilligt otrevlig.

Trädvy Permalänk
Medlem
Plats
Trondheim, Norge
Registrerad
Feb 2005

100 grader med ganska ok kylning. Nej tack. Runt 12000 spänn för att få mer än 28 lanes också.

Trädvy Permalänk
Medlem
Plats
/home
Registrerad
Apr 2010

Jag väntar på reviews av 18 core/36 threads, den är den intressanta för mig när jag uppgraderar min 6900K

i7
GTX
4K

Trädvy Permalänk
Medlem
Plats
Karlstad
Registrerad
Nov 2010

Kärnor är som tusenlappar i plånboken, vissa säger att i princip ingen kan använda mer än 4st på en kväll och att enstaka skulle kunna använda 8 core/tusenlappar.

Nå en helt klart intressant cpu, för min del så blir det att skaffa fler kärnor än så. Att fler applikationer behöver optimeras för cpuer med 20 core +ht håller jag med om, men det är inget argument emot att ändå inte köpa en sådan cpu om man nu inte är en sådan person som enbart kan göra en sak i taget.

Det intressanta jag ser med detta är teknikutvecklingen som bokstavligen har stått still på många områden p.g.a sjukligt dyra cpuer.

i7 7700 & Ryzen 1800X. Båda har 64GB ram, 500 GB 960 Evo m.2. Grafikkort är något jag hittade i en container..

Trädvy Permalänk
Medlem
Registrerad
Dec 2013
Skrivet av Tip Top:

Läs och begrunda någon släppte den innan måndag. Den var nog inte så dålig som vissa ville tro samt att den är ju halva priset mot förra årets 10 core

http://hexus.net/tech/reviews/cpu/107017-intel-core-i9-7900x-...

I rena prestandasiffror är det absolut inget fel på den, ser bra ut.

Men precis som Hexus själva säger så har varken "bang4buck" eller "bang4watt" förbättrats i jämförelse med andra CPU:er. Så det ska bli intressant att se när dessa CPU:er jämförs mot AMD's motsvarighet.

Edit: Verkar onekligen vara svårkyld också.

#1: INTEL CORE i7 5960X @ 4400MHz - ASUS RAMPAGE V EXTREME - 32GB DDR4 @ 3200MHz - SAMSUNG 850 PRO 1TB - GAINWARD GTX 1080 PHOENIX GS 8GB @ 2100MHz/10800MHz
#2: AMD RYZEN 5 1600 @ 3800MHz - MSI B350M MORTAR - 16GB DDR4 @ 2666MHz- SAMSUNG 960 EVO 250GB - SAPPHIRE RX 550 2GB

Trädvy Permalänk
Medlem
Registrerad
Jun 2003
Trädvy Permalänk
Medlem
Plats
Ystad
Registrerad
Jan 2012

Bah, vill ha reviews på i7-7800X och/eller i7-7820X.

i7-7900X är helt ointressant för mig.

CPU: I7-3930k@4,2 GHz + Noctua NH-D14 // GPU: EVGA GTX 980 Ti SC+ ACX 2.0+ // RAM: 16 GB Corsair Vengeance LP 1600 MHz // MoBo: Asus P9X79 Pro // PSU: NZXT HALE90 1000w 80+ Gold // SSD: Samsung 830(128GB) + Crucial M500(240GB) + Crucial MX300(525GB) // HDD: 2 TB Seagate Barracuda 7200 rpm // Chassi: Fractal Design Define XL R2 // OS: Win 10 Pro // Skärm: AOC g2460Pg + BenQ GL2450.

Trädvy Permalänk
Datavetare
Plats
Stockholm
Registrerad
Jun 2011

Trodde aldrig jag skulle länka ett Geekbench-resultat... Men faktum är att Geekbench 4 har en del delresultat som faktiskt är intressanta, totalresultatet är däremot fortfarande rätt värdelöst (t.ex. så kan LLVM resultatet skilja ett par heltalsfaktorer för olika personer, det även på samma CPU-modell...)

Det som är intressant med GB4-resultaten är främst hur de olika deltesterna skalar från enkeltrådat till multitrådat. Skylake-X må samma mikroarkitektur som Skylake-S/U/Y (bortsett från AVX512 stöd) men det är helt olika cache-design.

Intel har gjort vad man nog borde gjort tidigare, separerat cache-designen mellan desktop och server. Vad som är optimalt för desktop är lägsta möjliga kommunikationslatens mellan kärnor, d.v.s optimera för fallet där man kör ett program som använder sig av flera trådar för att lösa ett problem.

Det optimala för desktop är en lokal cache med allt fokus på latens, något som betyder relativt liten lokal cache. Vidare bör man ha en relativt stor LLC (Last Level Cache) som helst "täcker" alla kärnor och som inkluderar allt innehåll från de lokala cacharna, detta då det blir trivialt att hantera fall när flera kärnor skriver minne cachat av andra kärnor (detta händer alltid när man tar mutex/spinlocks i program som skyddar data mer än en kärna använder).

Så S-serien har en optimal cache design? För desktop, ja. För servers finns en rad problem med en sådan design, framförallt är det omöjligt att skala en sådan design till riktigt många CPU-kärnor då latensen drar iväg samt efter ett tag slutar helt bandbredd mot LLC att skala (detta är absolut ett problem i E5 2699v4 med 22 kärnor).

Tillbaka till GB4 resultatet. GB4 har en blandning av deltester som skalar perfekt med kärnor och deltester som är mer lik desktop-program (d.v.s. de skalar till viss del med kärnor, i GB4 skalar de rätt mycket bättre än de flesta program men ändå långt ifrån perfekt). Kolla in i7-6950X vs i9-7900X, precis som i Bit-tech och Hexus tester är det inte alls en slamdunk för Skylake-X trots högre frekvens.

Än mer intressant blir det när jämför i7-6950X vs R7-1800X samt i9-7900K vs R7-1800X, det är generellt sett samma test där Ryzen och Skylake-X är svaga resp. starka mot Broadwell-E. Relevans? Bortsett från CCX uppdelningen i Ryzen så har Zen och server Skylake exakt samma cache-policy, båda är främst optimerade för typiska "serverfall" där man kör många oberoende uppgifter där varje uppgift jobbar med en eller några enstaka trådar.

Har skrivit tidigare att t.ex. spel kommer fungera sämre på Skylake-X cache-design (något som naturligtvis till viss kompenseras av högre IPC och frekvens jämfört med BDW-E och fler kärnor jämfört med Skylake-S). Tyvärr väljer både Hexus och Bit-tech av någon idiotisk anledning att testa CPUer med GTX1080 i 2560x1440 (testa för i helvete med 1280x720 eller i alla fall GTX1080Ti i 1920x1080 så flaskhalsen blir CPU), men ser faktiskt ut som en överklockad BDW-E @ 4,4 GHz slår SKL-X @ 4,6 GHz i just spel.

Ser alltså ut som effekten av cachen är större än jag gissade. Eller kanske bara handlar om "optimeringar" precis som för Ryzen och inte det fundamentala faktum att spel kräver relativt frekvens kommunikation mellan kärnor vilket inte alls är optimalt för cache-design i Zen och server Skylake

Får se nästa vecka när det kommer ut fler tester, men ser allt mer ut som 6C/12T Coffee Lake kommer bli spelkungen detta år.

BTW: Kolla in SGEMM resultatet i GB för i9-7900X (Single precision floating General Matrix Multiply), GB4 använder samma bibliotek som t.ex. programspråket R, Octave och en rad andra open source verktyg för vetenskapliga beräkningar. i9-7900X har lika hög flyttalskapacitet med en kärna som R7-1800X har över alla åtta (för sådant som kan vektoriseras, för "vanliga" flyttal är inte SKL-X bättre än SKL-S och här är Ryzen grym)!

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Trädvy Permalänk
Medlem
Plats
Härryda kommun
Registrerad
Sep 2012
Skrivet av Yoshman:

BTW: Kolla in SGEMM resultatet i GB för i9-7900X (Single precision floating General Matrix Multiply), GB4 använder samma bibliotek som t.ex. programspråket R, Octave och en rad andra open source verktyg för vetenskapliga beräkningar. i9-7900X har lika hög flyttalskapacitet med en kärna än vad R7-1800X har över alla åtta (för sådant som kan vektoriseras, för "vanliga" flyttal är inte SKL-X bättre än SKL-S och här är Ryzen grym)!

Intel C++ Compiler? För ser inte riktigt annars hur AVX512 skulle vara 8x bättre. Borde vara 2x bättre än AVX2 som Ryzen har. Faktumet att det är 8x bättre skriker ju att inte ens SIMD används på Ryzen i det testet. Eller har AVX512 instruktioner för just detta på samma sätt som fused multiply add har special instruktioner?

Kan låta oavsiktligt aggressiv.
Citera eller @philipborg om du vill att jag ska läsa dina svar.

Trädvy Permalänk
Datavetare
Plats
Stockholm
Registrerad
Jun 2011
Skrivet av philipborg:

Intel C++ Compiler? För ser inte riktigt annars hur AVX512 skulle vara 8x bättre. Borde vara 2x bättre än AVX2 som Ryzen har. Faktumet att det är 8x bättre skriker ju att inte ens SIMD används på Ryzen i det testet. Eller har AVX512 instruktioner för just detta på samma sätt som fused multiply add har special instruktioner?

Nej, är MSVC på Windows, GCC på Linux och LLVM på OSX. Jag kör en del "R", på Ubuntu med R + OpenBLAS ur Ubuntus standardarkiv (som är helt byggt med GCC) får jag mer eller mindre identisk FLOPS som i GB4 (så min tvåkärniga i7-6650U matchar nästan en R5-1600 i SGEMM).

GCC > MSVC samt LLVM > MSVC nu för tiden, i just GB får man också högre resultat på Linux och OSX. Men just fallet OpenBLAS så är det AVX2+FMA alt AVX512+FMA via compiler instricts så just detta deltest presterar i det närmaste identiskt oavsett kompilator.

Edit: Ah, ser vad du menar med att det inte borde vara x8 bättre. Teoretisk sett har Zen samma kapacitet för SSE som AVX, det är ett designval man gjorde för att hålla ner antalet transistorer. Vidare är i9-7900X klockad till 4,5 GHz när max två kärnor är lastade.

Så borde vara 4(AVX512 vs SSE)*4,5/4 (frekvensskillnad) = x4,5

Men sedan är FMA den enda x86 instruktionen som tar 3 argument, det blir två "loads" och en "store" för en enda instruktion. Haswell och senare kan göra två load/store och en store per cykel, Zen kan göra två load/store per cykel. Så i praktiken verkar FMA instruktionen inte kunna nå teoretiskt max för Zen, det kan inte riktigt Haswell/Broadwell heller (de når ~80-85 % av max i praktiken, flaskhalsen här verkar vara för låg cache-bandbredd för att maxa AVX+FMA) men Skylake når över 95 % av teoretisk max i praktiken.

Syns även i detta test (från en AnandTech-tråd). Även detta test använder AVX2+FMA, alla modeller har 4C/4T aktiverade och kör 3,5 GHz.

Sedan angående AVX512. Den största fördelen med AVX512 är egentligen inte dubbel teoretiskt flyttalsprestanda (inte utanför HPC och program för vetenskapliga beräkningar). Det viktigaste man lagt till är finesser som kraftigt ökar flexibiliteten i hur man kan hantera kod som har villkorad körning där olika "lanes" tar olika väg.

Med SSE går det knappt att hantera villkorad körning (går men ineffektivt), så saker som matrismultiplikation och andra rena matematiska beräkningar är egentligen det enda som fungerar riktigt bra. AVX fick VMASKMOV, något som gjort det praktiskt möjligt att använda högnivåspråk för SIMD-programmering ("compiler instricts" suger som programmeringsmetod, avsaknad av möjlighet till att använda högnivåspråk är en väldigt stor orsak att SIMD inte används mer så här långt). AVX512 tar det ett jättekliv till genom att införa speciella register för att kunna maska "lanes" för i princip alla operationer, AVX512 fungerar därmed väldigt nära moderna AMD/Nvidia GPUer. D.v.s. varje AVX512 ALU (finns totalt tre SIMD-pipelines i Skylake) är som 16 CUDA/stream-"kärnor".

Att skriva program så de skalar är svårt. Vissa problem kan överhuvudtaget inte skalas över CPU-kärnor, men vissa av de problem kan skalas med SIMD. Andra problem (som t.ex. matrismultiplikation) går att skala både över kärnor och SIMD (och kan göras samtidigt vilket är exakt vad bibliotek som OpenBLAS gör).

Varken många kärnor eller SIMD är magiska, kommer fortfarande finnas (relativt många) problem som inte går att skala med någon av metoderna (de som är strikt sekventiella). Men dumt att inte utnyttja flera kärnor när det går, men minst lika dumt att inte utnyttja SIMD när det går då man lämnar upp till x4-16 (SSE-AVX512) prestandaboost på bordet för single-precission floats och 32-bit heltal (x2-8 för DP och 64-bit heltal).

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Trädvy Permalänk
Medlem
Plats
Stockholm
Registrerad
Jan 2007
Skrivet av Yoshman:

Nej, är MSVC på Windows, GCC på Linux och LLVM på OSX. Jag kör en del "R", på Ubuntu med R + OpenBLAS ur Ubuntus standardarkiv (som är helt byggt med GCC) får jag mer eller mindre identisk FLOPS som i GB4 (så min tvåkärniga i7-6650U matchar nästan en R5-1600 i SGEMM).

GCC > MSVC samt LLVM > MSVC nu för tiden, i just GB får man också högre resultat på Linux och OSX. Men just fallet OpenBLAS så är det AVX2+FMA alt AVX512+FMA via compiler instricts så just detta deltest presterar i det närmaste identiskt oavsett kompilator.

Edit: Ah, ser vad du menar med att det inte borde vara x8 bättre. Teoretisk sett har Zen samma kapacitet för SSE som AVX, det är ett designval man gjorde för att hålla ner antalet transistorer. Vidare är i9-7900X klockad till 4,5 GHz när max två kärnor är lastade.

Så borde vara 4(AVX512 vs SSE)*4,5/4 (frekvensskillnad) = x4,5

Men sedan är FMA den enda x86 instruktionen som tar 3 argument, det blir två "loads" och en "store" för en enda instruktion. Haswell och senare kan göra två load/store och en store per cykel, Zen kan göra två load/store per cykel. Så i praktiken verkar FMA instruktionen inte kunna nå teoretiskt max för Zen, det kan inte riktigt Haswell/Broadwell heller (de når ~80-85 % av max i praktiken, flaskhalsen här verkar vara för låg cache-bandbredd för att maxa AVX+FMA) men Skylake når över 95 % av teoretisk max i praktiken.

Syns även i detta test (från en AnandTech-tråd). Även detta test använder AVX2+FMA, alla modeller har 4C/4T aktiverade och kör 3,5 GHz.
http://i.imgur.com/OLiJZDz.png

Sedan angående AVX512. Den största fördelen med AVX512 är egentligen inte dubbel teoretiskt flyttalsprestanda (inte utanför HPC och program för vetenskapliga beräkningar). Det viktigaste man lagt till är finesser som kraftigt ökar flexibiliteten i hur man kan hantera kod som har villkorad körning där olika "lanes" tar olika väg.

Med SSE går det knappt att hantera villkorad körning (går men ineffektivt), så saker som matrismultiplikation och andra rena matematiska beräkningar är egentligen det enda som fungerar riktigt bra. AVX fick VMASKMOV, något som gjort det praktiskt möjligt att använda högnivåspråk för SIMD-programmering ("compiler instricts" suger som programmeringsmetod, avsaknad av möjlighet till att använda högnivåspråk är en väldigt stor orsak att SIMD inte används mer så här långt). AVX512 tar det ett jättekliv till genom att införa speciella register för att kunna maska "lanes" för i princip alla operationer, AVX512 fungerar därmed väldigt nära moderna AMD/Nvidia GPUer. D.v.s. varje AVX512 ALU (finns totalt tre SIMD-pipelines i Skylake) är som 16 CUDA/stream-"kärnor".

Att skriva program så de skalar är svårt. Vissa problem kan överhuvudtaget inte skalas över CPU-kärnor, men vissa av de problem kan skalas med SIMD. Andra problem (som t.ex. matrismultiplikation) går att skala både över kärnor och SIMD (och kan göras samtidigt vilket är exakt vad bibliotek som OpenBLAS gör).

Varken många kärnor eller SIMD är magiska, kommer fortfarande finnas (relativt många) problem som inte går att skala med någon av metoderna (de som är strikt sekventiella). Men dumt att inte utnyttja flera kärnor när det går, men minst lika dumt att inte utnyttja SIMD när det går då man lämnar upp till x4-16 (SSE-AVX512) prestandaboost på bordet för single-precission floats och 32-bit heltal (x2-8 för DP och 64-bit heltal).

AVX512 är användbart och jag hade hoppats att Ryzen skulle stödja det. Det är ju användbart i många fall.

Samtidigt så är det ju en benchmark som är lite speciell då få program stödjer det än. Kanske lite i stil med följande (från https://www.aida64.com/):

Kanske inte helt jämförbart, men vill man visa på stora skillnader så duger den här också.

|FD Define R5|P35-DQ6|Q6600|Ultra-120eXt|Noctua NF-S12-1200|OCZ ZX 1000W|4x2GB Corsair667MHz |HD 4870|Samsung TA24-550|Win 10/Debian Sid KDE 5|¤|Gigabyte GZ-XX1CA-SNS|Asus P8P67-B3|2500K|OCZ GXS 850W|2x4GB Corsair Vengeance|GeForce GTX670|Philips 27"|Debian Sid KDE 5|

Trädvy Permalänk
Datavetare
Plats
Stockholm
Registrerad
Jun 2011
Skrivet av sAAb:

AVX512 är användbart och jag hade hoppats att Ryzen skulle stödja det. Det är ju användbart i många fall.

Samtidigt så är det ju en benchmark som är lite speciell då få program stödjer det än. Kanske lite i stil med följande (från https://www.aida64.com/):

https://www.aida64.com/sites/default/files/shot3_hash_ryzen_en.png

Kanske inte helt jämförbart, men vill man visa på stora skillnader så duger den här också.

En stor skillnad: AIDA64, CPU-Z, Geekbench m.fl. ger resultat som i många fall har väldigt lite bäring på något verkligt program.

Just SGEMM-deltestet visar något som har en direkt koppling till hur lång tid dina beräkningar av stora matriser kommer ta i existerande program. I Matlab, Octave och Matematica behöver du inte göra något alls för att få denna prestanda, i "R" märkte jag att man själv måste installera OpenBLAS biblioteket (men ska gå att köra "R" med andra bibliotek som t.ex. MKL).

En annan stor skillnad också: hög prestanda för matrisoperationer är en generellt användbar egenskap inom väldigt många områden då väldigt många simuleringar och vetenskapliga beräkningar man beskrivas med matriser. Fallet du länkar för Ryzen, CPU HASH, är inte i närheten lika generellt + Zen är väldigt snabb på detta då den har HW-stöd för hash-operationer (så prestanda du ser där är helt irrelevant om du inte gör SHA)!

Poängen kring AVX512: den stora fördelen här är att man ökar mängden problem som effektivt kan lösas med SIMD. "SI"-delen i SIMD gör det utmanande att hantera fall med villkorad körning och utan relativt effektiv villkorad tappar man många potentiella fall.

Omöjliga områden för SIMD som ändå är parallella är där man utför olika saker samtidigt, detta problem går dock att lösa med flera CPU-kärnor.

Omöjliga områden för flera CPU-kärnor som ändå är parallella är fall där del-problemen ofta måste ha del-resultat från något som kör parallellt (vissa typer av flödessimuleringar samt x265 kodning är två exempel), detta problem går dock att lösa med SIMD (dessa fall går normalt inte att lösa effektivt med en GPU heller!).

Det här med parallellaprogrammering är svårt då det inte finns en generell lösning (något man trots allt trodde/hoppades på så sent som för ~10 år sedan). Framtiden för datorer är lite som framtiden för drivmedel till bilar. Bensin har används då det är energitätt, relativt billigt och finns i massor. Tyvärr verkar det inte finns någon bra generell ersättare. Att höga enkeltrådprestanda var under många många år en lysande lösning, allt blir snabbare utan att man behöver göra något alls. Nu kommer vi få massor med olika lösning + vissa problem går tyvärr inte att hantera bra (de strikt seriella).

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Trädvy Permalänk
Medlem
Plats
Stockholm
Registrerad
Jan 2007
Skrivet av Yoshman:

En stor skillnad: AIDA64, CPU-Z, Geekbench m.fl. ger resultat som i många fall har väldigt lite bäring på något verkligt program.

Just SGEMM-deltestet visar något som har en direkt koppling till hur lång tid dina beräkningar av stora matriser kommer ta i existerande program. I Matlab, Octave och Matematica behöver du inte göra något alls för att få denna prestanda, i "R" märkte jag att man själv måste installera OpenBLAS biblioteket (men ska gå att köra "R" med andra bibliotek som t.ex. MKL).

En annan stor skillnad också: hög prestanda för matrisoperationer är en generellt användbar egenskap inom väldigt många områden då väldigt många simuleringar och vetenskapliga beräkningar man beskrivas med matriser. Fallet du länkar för Ryzen, CPU HASH, är inte i närheten lika generellt + Zen är väldigt snabb på detta då den har HW-stöd för hash-operationer (så prestanda du ser där är helt irrelevant om du inte gör SHA)!

Poängen kring AVX512: den stora fördelen här är att man ökar mängden problem som effektivt kan lösas med SIMD. "SI"-delen i SIMD gör det utmanande att hantera fall med villkorad körning och utan relativt effektiv villkorad tappar man många potentiella fall.

Omöjliga områden för SIMD som ändå är parallella är där man utför olika saker samtidigt, detta problem går dock att lösa med flera CPU-kärnor.

Omöjliga områden för flera CPU-kärnor som ändå är parallella är fall där del-problemen ofta måste ha del-resultat från något som kör parallellt (vissa typer av flödessimuleringar samt x265 kodning är två exempel), detta problem går dock att lösa med SIMD (dessa fall går normalt inte att lösa effektivt med en GPU heller!).

Det här med parallellaprogrammering är svårt då det inte finns en generell lösning (något man trots allt trodde/hoppades på så sent som för ~10 år sedan). Framtiden för datorer är lite som framtiden för drivmedel till bilar. Bensin har används då det är energitätt, relativt billigt och finns i massor. Tyvärr verkar det inte finns någon bra generell ersättare. Att höga enkeltrådprestanda var under många många år en lysande lösning, allt blir snabbare utan att man behöver göra något alls. Nu kommer vi få massor med olika lösning + vissa problem går tyvärr inte att hantera bra (de strikt seriella).

Jo, jag vet att diagrammet jag länkade var extremt introvert. Det sade jag också.

Men, ett program som borde gå att göra mer parallellt är Civilization. Orsaken är att man idag har en round-robin så att varje nation påbörjar sin beräkning först efter att alla andra nationer avslutat sin runda. Fast, precis som två människor tänker samtidigt i schack och go borde ju gå att se till att alla har en eget litet objekt som snurrar och utvärderar delproblem och att man förkastar de lösningar som inte är relevanta efter motståndarnas "drag".

|FD Define R5|P35-DQ6|Q6600|Ultra-120eXt|Noctua NF-S12-1200|OCZ ZX 1000W|4x2GB Corsair667MHz |HD 4870|Samsung TA24-550|Win 10/Debian Sid KDE 5|¤|Gigabyte GZ-XX1CA-SNS|Asus P8P67-B3|2500K|OCZ GXS 850W|2x4GB Corsair Vengeance|GeForce GTX670|Philips 27"|Debian Sid KDE 5|

Trädvy Permalänk
Medlem
Plats
Härryda kommun
Registrerad
Sep 2012
Skrivet av Yoshman:

Nej, är MSVC på Windows, GCC på Linux och LLVM på OSX. Jag kör en del "R", på Ubuntu med R + OpenBLAS ur Ubuntus standardarkiv (som är helt byggt med GCC) får jag mer eller mindre identisk FLOPS som i GB4 (så min tvåkärniga i7-6650U matchar nästan en R5-1600 i SGEMM).

GCC > MSVC samt LLVM > MSVC nu för tiden, i just GB får man också högre resultat på Linux och OSX. Men just fallet OpenBLAS så är det AVX2+FMA alt AVX512+FMA via compiler instricts så just detta deltest presterar i det närmaste identiskt oavsett kompilator.

Edit: Ah, ser vad du menar med att det inte borde vara x8 bättre. Teoretisk sett har Zen samma kapacitet för SSE som AVX, det är ett designval man gjorde för att hålla ner antalet transistorer. Vidare är i9-7900X klockad till 4,5 GHz när max två kärnor är lastade.

Så borde vara 4(AVX512 vs SSE)*4,5/4 (frekvensskillnad) = x4,5

Men sedan är FMA den enda x86 instruktionen som tar 3 argument, det blir två "loads" och en "store" för en enda instruktion. Haswell och senare kan göra två load/store och en store per cykel, Zen kan göra två load/store per cykel. Så i praktiken verkar FMA instruktionen inte kunna nå teoretiskt max för Zen, det kan inte riktigt Haswell/Broadwell heller (de når ~80-85 % av max i praktiken, flaskhalsen här verkar vara för låg cache-bandbredd för att maxa AVX+FMA) men Skylake når över 95 % av teoretisk max i praktiken.

Syns även i detta test (från en AnandTech-tråd). Även detta test använder AVX2+FMA, alla modeller har 4C/4T aktiverade och kör 3,5 GHz.
http://i.imgur.com/OLiJZDz.png

Sedan angående AVX512. Den största fördelen med AVX512 är egentligen inte dubbel teoretiskt flyttalsprestanda (inte utanför HPC och program för vetenskapliga beräkningar). Det viktigaste man lagt till är finesser som kraftigt ökar flexibiliteten i hur man kan hantera kod som har villkorad körning där olika "lanes" tar olika väg.

Med SSE går det knappt att hantera villkorad körning (går men ineffektivt), så saker som matrismultiplikation och andra rena matematiska beräkningar är egentligen det enda som fungerar riktigt bra. AVX fick VMASKMOV, något som gjort det praktiskt möjligt att använda högnivåspråk för SIMD-programmering ("compiler instricts" suger som programmeringsmetod, avsaknad av möjlighet till att använda högnivåspråk är en väldigt stor orsak att SIMD inte används mer så här långt). AVX512 tar det ett jättekliv till genom att införa speciella register för att kunna maska "lanes" för i princip alla operationer, AVX512 fungerar därmed väldigt nära moderna AMD/Nvidia GPUer. D.v.s. varje AVX512 ALU (finns totalt tre SIMD-pipelines i Skylake) är som 16 CUDA/stream-"kärnor".

Att skriva program så de skalar är svårt. Vissa problem kan överhuvudtaget inte skalas över CPU-kärnor, men vissa av de problem kan skalas med SIMD. Andra problem (som t.ex. matrismultiplikation) går att skala både över kärnor och SIMD (och kan göras samtidigt vilket är exakt vad bibliotek som OpenBLAS gör).

Varken många kärnor eller SIMD är magiska, kommer fortfarande finnas (relativt många) problem som inte går att skala med någon av metoderna (de som är strikt sekventiella). Men dumt att inte utnyttja flera kärnor när det går, men minst lika dumt att inte utnyttja SIMD när det går då man lämnar upp till x4-16 (SSE-AVX512) prestandaboost på bordet för single-precission floats och 32-bit heltal (x2-8 för DP och 64-bit heltal).

Då förstår jag varför det inte blev runt 2x som man antar vid AVX2 vs AVX512. Visste inte att Ryzen var såpass svag på SIMD och att även om de har AVX2 instruktioner så är det bara SSE kapacitet. Bra att veta då jag har funderat på att skriva lite SIMD kapabel OpenCL till ett planerat projekt som lär vara väldigt lätt att skala. Hmm, jag undrar om AMD vill hellre se HSA inom HPC då som du säger så tjänar dem lite samma syfte.

Kan låta oavsiktligt aggressiv.
Citera eller @philipborg om du vill att jag ska läsa dina svar.

Trädvy Permalänk
Datavetare
Plats
Stockholm
Registrerad
Jun 2011
Skrivet av philipborg:

Då förstår jag varför det inte blev runt 2x som man antar vid AVX2 vs AVX512. Visste inte att Ryzen var såpass svag på SIMD och att även om de har AVX2 instruktioner så är det bara SSE kapacitet. Bra att veta då jag har funderat på att skriva lite SIMD kapabel OpenCL till ett planerat projekt som lär vara väldigt lätt att skala. Hmm, jag undrar om AMD vill hellre se HSA inom HPC då som du säger så tjänar dem lite samma syfte.

Du kan inte jämföra mot BDW-E, AVX2+FMA kapaciteten där når inte teoretiskt maxi praktiken. Jämför du i7-7700K och i9-7900X i enkeltrådad SGEMM är det är mycket x2 (något mindre faktiskt, så med AVX512 verkar Skylake slå i andra flaskhalsar än rå beräkningskraft).

Men som jag redan påpekat, jag tror ändå den högre flexibiliteten i AVX512 är viktigare än den högre kapaciteten. I alla fall för skrivbordet, typiska HPC-laster jobbar ju nästan bara med matriser så där är man nog främst ute efter kapaciteten (men då finns ju GPUer och XeonPhi att tillgå).

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Trädvy Permalänk
Medlem
Registrerad
Jul 2008

Besviken på prestandan då en 6950X presterar likvärdigt i en del applikationer och ibland tom är snabbare. Dessutom har saknad den lödd IHS, vilket är ett skämt för en CPU som kostar 10Tkr, endast 44 PCI-E banor, och blir fruktansvärt varm vid överklockning. Det är tragiskt att jag ska behöva delidda en HEDT CPU för att få temperaturer som kan anses rimliga.

Blir också kämpigt när Threadripper släpps med 16 kärnor och lödd IHS för 9-11Tkr, och på sätt och vis konkurrerar denna CPU även med Ryzen 7 och 7820X, ironiskt nog, fast då har Intel segmenterat med PCI-E banor istället vilket är rimligt om den sätts i jämförelse med Ryzen 7.

Hade dom haft lödd IHS på denna serie hade jag med glädje köpt någon av i9, tom den 18 kärniga, men som det är nu så är det en dealbreaker.

Spännande år hursomhelst.

MVH

- T.B.C -

Trädvy Permalänk
Medlem
Plats
/home
Registrerad
Apr 2010
Skrivet av Aeig:

Besviken på prestandan då en 6950X presterar likvärdigt i en del applikationer och ibland tom är snabbare. Dessutom har saknad den lödd IHS, vilket är ett skämt för en CPU som kostar 10Tkr, endast 44 PCI-E banor, och blir fruktansvärt varm vid överklockning. Det är tragiskt att jag ska behöva delidda en HEDT CPU för att få temperaturer som kan anses rimliga.

Blir också kämpigt när Threadripper släpps med 16 kärnor och lödd IHS för 9-11Tkr, och på sätt och vis konkurrerar denna CPU även med Ryzen 7 och 7820X, ironiskt nog, fast då har Intel segmenterat med PCI-E banor istället vilket är rimligt om den sätts i jämförelse med Ryzen 7.

Hade dom haft lödd IHS på denna serie hade jag med glädje köpt någon av i9, tom den 18 kärniga, men som det är nu så är det en dealbreaker.

Spännande år hursomhelst.

MVH

Jag har en 6900K (8/16) och klockad till 4.1 som aldrig går över 60 grader, tror jag sett 57 grader som högst, efter några timmars kompilerande. Är den lödd månne, eftersom min alltid är sval? I idle/surf, netflix, youtube m.m. ligger den mellan 32 och 43 grader.

i7
GTX
4K

Trädvy Permalänk
Hedersmedlem
Plats
Skåne
Registrerad
Sep 2006
Skrivet av Aeig:

Besviken på prestandan då en 6950X presterar likvärdigt i en del applikationer och ibland tom är snabbare.

Mja nja, nu får vi väl ge den samma ursäkt som AMD med deras nya plattform med BIOS-problem. I och med att dom har gått ifrån att använda en ring-bus till en mesh-struktur så lär vi se lite initialla problem. Jag håller helt med om att det finns en hel del riktigt tveksamma beslut med Skylake-X och det blir antagligen en threadripper för mig med. Men nu får vi faktiskt vara lite rättvisa.

Men det hade inte jag behövt säga här, för det står i artikeln två gånger.

Citat:

3DMark doesn't reveal any significant gains - these tests tend to be bound by the GPU - but why is the Core i9 off the pace in VRMark? At the time of writing we can only put this down to a lack of software maturity. In the interests of full disclosure, readers should note that the Core i9-7900X initially scored just 4,015 in the VRMark test and the result climbed to 10,191 courtesy of a new motherboard BIOS. There's clearly still work being done to optimse performance.

Citat:

Deus Ex and Hitman play as expected, with the latter particularly enjoying the 10 fast cores, but Total War is well off the pace. The game appears to suffer from unexplained stuttering, and once again, the latest BIOS saw average FPS climb from 48.2 to 74.9. Core i9-7900X goes on sale in a matter of days, and it remains to be seen whether or not these performance irregularities can be ironed out in such a short space of time.

5960X | X99-E WS | 32GB | EVGA 980 Ti Classified | 2 x Intel 750 | Full Loop | Enthoo Primo

Trädvy Permalänk
Medlem
Plats
Jönköping
Registrerad
Feb 2010

Dator: Clevo p370em 680m sli Dell xps m1730 8800gtx (såld) Alienware m17x r2 5870m (såld) Msi gx660r 5870m (såld), Alienware M18x R2 7970m cf (såld)
Konsoll: Ps3 ca 100 spel på hårddisken. Ca 60 spel på skiva. 15 platinum och 1300+ trophies
Ljud:: Reciever: Yamaha RX-V771, Front: Blue Diamond: Rear: Black Ruby Cent: Black Ruby C

Trädvy Permalänk
Medlem
Plats
Stockholm
Registrerad
Jan 2007
Skrivet av Jonathanknet:

WT?

Citat:

The guide recommends liquid cooling for overclocked KBLX CPUs and SKLX CPUs no matter if they overclocked or not.

You're damned if you do and you're damned if you don't, eller?

Ok, det låter ju dyrare än beräknat.

|FD Define R5|P35-DQ6|Q6600|Ultra-120eXt|Noctua NF-S12-1200|OCZ ZX 1000W|4x2GB Corsair667MHz |HD 4870|Samsung TA24-550|Win 10/Debian Sid KDE 5|¤|Gigabyte GZ-XX1CA-SNS|Asus P8P67-B3|2500K|OCZ GXS 850W|2x4GB Corsair Vengeance|GeForce GTX670|Philips 27"|Debian Sid KDE 5|

Trädvy Permalänk
Medlem
Registrerad
Nov 2004
Skrivet av MinscS2:

Bah, vill ha reviews på i7-7800X och/eller i7-7820X.

i7-7900X är helt ointressant för mig.

Hittade ett benchmark på 7820X

http://cpu.userbenchmark.com/Intel-Core--i7-7820X/Rating/3928

Du kommer aldrig ångra ett träning pass du gjort. Du kommet där i mot ångra de bilringarna som de uteblivna passen skapade

Trädvy Permalänk
Medlem
Registrerad
Mar 2015

Vem lägger 10000 kr på en cpu för att spela? Såvidare man inte är en känd twitch streamer eller youtube stjärna som får sponsrade artiklar eller pengar. Och enligt de benchmarken som visades så verkade det inte vara så stor fördel fps mässigt med 10 kärnor/20 trådar.

i7 6700K | Z170 Pro Gaming | 2133Mhz 16GB | 1080Ti | 2x SSD 250+256GB | WD 1,5TB | Fractal 1000W | Cosmos II | Alphacool XPS Eisblock | Alphacool VP655 | Alphacool Eisbecher 150ml | Alphacool 360mm + 240mm + 140mm | Alphacool RAM-block | Alphacool 10/13mm | Heatkiller MB-Set | Aquacomputer Titan X (Pascal)| AOC Agon 27" 144Hz | Logitech G502 | CM Storm Quickfire Rapid-I

Trädvy Permalänk
Medlem
Registrerad
Nov 2004

Man märker nog ingen skillnad eller ytterst liten ökning av prestandan i spel.skulle väl vara om man vill ha M2 SSD och andra nya finesser som i mitt fall.

Du kommer aldrig ångra ett träning pass du gjort. Du kommet där i mot ångra de bilringarna som de uteblivna passen skapade

Trädvy Permalänk
Medlem
Registrerad
Mar 2015

Dåligt med bara 3 speltester enligt mig. De borde ju ha 20 eller liknande så man har lite mer att gå på.

i7 6700K | Z170 Pro Gaming | 2133Mhz 16GB | 1080Ti | 2x SSD 250+256GB | WD 1,5TB | Fractal 1000W | Cosmos II | Alphacool XPS Eisblock | Alphacool VP655 | Alphacool Eisbecher 150ml | Alphacool 360mm + 240mm + 140mm | Alphacool RAM-block | Alphacool 10/13mm | Heatkiller MB-Set | Aquacomputer Titan X (Pascal)| AOC Agon 27" 144Hz | Logitech G502 | CM Storm Quickfire Rapid-I