Trädvy Permalänk
Medlem
Plats
127.0.0.1
Registrerad
Jan 2007

::: AMD Zen Samlingstråd :::

Låt oss länka och diskutera Zen här

Bulldozer gjorde mig djupt besviken. Man photoshoppade vitala läckor som kunde avslöja prestandafaktorer tidigt, och John Fruehe på AMD ljög om Bulldozers prestanda.

Nu ser vi äntligen många konkreta faktorer till att Zen kommer bli en stark mikroarkitektur. För att skissa upp Zen så tog AMD tillbaka Jim Keller som ursprungligen var med och konstruerade första Athlon K7 och K8 ihop med andra veteraner från DEC (Digital Equipment Corporation). AMD har numera en ny CEO som gör uttalanden om att den har 40% högre IPC än Excavator som i sin tur är en förbättrad version av Bulldozer. Lisa Su, AMD's CEO har också gjort uttalanden efteråt som säger att man till och med nått över 40% IPC mot Excavator:

AMD Preisdent & CEO Lisa Su – Q4 2015 AMD Earnings Call Transcript:

Our Zen-based CPU development is on track to achieve greater than 40% IPC uplift from our previous generation and we’re on schedule to sample later this year.

Vi kan alltså räkna med att enkeltrådig prestanda (prestanda per kärna/tråd dvs) äntligen kommer att vara i nivå/snabbare med/mot Intel's senaste motsvarigheter.

Man ser också att AMD genom etableringen av Zen, kommer fortsätta att öka IPC betydligt mer aggressivt än tidigare i form av 'Zen+'-kärnor, vilket är mycket positivt för hela CPU-industrin.

Vi ser nu också SMT (flertrådsteknologi) i Zen, och det är omöjligt att säga hur väl denna implementation fungerar. Intel har förbättrat sin SMT (Hyperthreading) med åren, medans det blir debuten för SMT i AMD's processorer (sanning med modifikation då Bulldozer faktiskt betraktas på alla sätt och vis som en SMT-arkitektur men marknadsförs annorlunda). SMT va redan på tapeten hos DEC i Alpha EV8 prototyper, och det är också därifrån AMD har/haft en del av sina ingenjörer, och inte minst Jim Keller. Jag har stora förväntningar på dess parallellism och hur den kommer att skala.

Ett helt nytt inklusivt cachesystem och en micro-op buffert för att göra färre missar i dess branch prediction är numera en del av designen vilket är en av dom stora anledningarna till att IPC stiger avsevärt. 512Kb L2 cache per core är också något att höja ögonbrynen lite över.

För att ta fördelarna med Zen's cachearkitektur:

  • L1i dubbelt så stor som Skylake

  • L1d är 8-way, dvs samma som Haswell/Skylake

  • L1d är fördubblad från BD i både storlek och associativitet

  • L1i är fördubblad i associativitet från BD

  • L2 cachen har dubbelt så hög associativitet än Skylake och är dubbelt så stor

  • Instruktionscachen är inte längre delad mellan två kärnor

  • Varje "Zen block" ska ha en 8MB L3 cache, vilket betyder att en nativ 8 kärnig Zen-processor kommer ha 16MB L3 cache.

Det är också nu en dedikerad 4-way decoder per kärna med rejält uppiffad FPU och 4 ALU's/2 AGU's. Det betyder 50% mer resurser för heltalsoperationer jämfört med Excavator och beroende på hur man ska tolka dess nya förhållande med dess flyttalsenheter så rör det sig om dubbla resurser. Åtminstone om man ser till att man nu har 4 pipelines 2st FADD och 2st FMUL och mycket lägre latens på flyttalsoperationer. Detta var en av dom större bristerna i tidigare Bulldozer. Med andra ord är man tillbaka i ett 1:1 förhållande på integer/float. Man är helt klart tillbaka på detta område, då flyttalsoperationer har vart en av AMD's starkare sidor tidigare.

Zen ska komma i en stor variation av typer beroende utav plattform. Den 8 kärniga versionen är nativ och består utav två CCX block. En CCX (CPU complex) är benämningen utav 4 kärnor och 8MB L3 cache. Den 8 kärniga versionen kommer alltså med 16MB L3 cache totalt.

Här har vi en tidig die-shot utav en 8 kärnig Zen CPU bestående utav två CCX block med 16MB L3 cache totalt.

AMD AM4 Plattformen ser följande ut:

  • DDR4

  • PCI-express v.3

  • USB 3.1 Gen2 10Gbps

  • NVME

  • SATA Express

[ AMD "Zen" @ ????Mhz // 2x420mm customloop ][ ASUS AM4? ][ 32GB DDR4-xxxx? ][ AMD Vega10? @xxxxMhz ][ Win10 PRO x64 ][ Kommande Freesyncskärm? ][ Corsair 750D // Corsair RM1000x ][ Samsung 960 M.2 SSD 512GB + 7.0TB + 20TB server Xeon x7460 25MB cache / 24GB ECC RAM ]

Trädvy Permalänk
Medlem
Plats
Piteå
Registrerad
Mar 2004

Spännande minst sagt!

Skickades från m.sweclockers.com

Computa: AMD A10-7700K Black Edition| Gigabyte GA-F2A88XN-WIFI| Crucial MX100 SSD 256GB| 2,5" 500GB sata| Corsair 8GB Vengeance Low Profile 2133MHz| Antec ISK 110 VESA| Benq G2222HDL| Creative Gigaworks T40 series II|

Trädvy Permalänk
Medlem
Plats
Malmö
Registrerad
Dec 2004

Jaså, en till tråd? Nåja, den här är väl lite mer substansfull

Lustigt att Jim Keller är gurun nuförtiden och Dirk Meyer är ute i kylan. Annat var det för 10 år sedan

Jag vågar dock inte vara så optimistisk kring IPC:n. Jag utläser det som 40% högre IPC per kärna och inte per tråd tills jag får se motsatsen. Och över 40% är väl i speciella scenarion eller konfigurationer. Men det ser hoppfullt ut

500 watt räcker för en elementär dator oavsett grafikkort utan överklockning. Räkna ut annat på OuterVision Power Supply Calculator. Power. Performance. PRIME.
Elektrostatisk urladdning är ett verkligt problem.

"People who are serious about software should make their own hardware" – Alan Kay

Trädvy Permalänk
Medlem
Plats
127.0.0.1
Registrerad
Jan 2007
Skrivet av GilbertG:

Jaså, en till tråd? Nåja, den här är väl lite mer substansfull

Lustigt att Jim Keller är gurun nuförtiden och Dirk Meyer är ute i kylan. Annat var det för 10 år sedan

Jag vågar dock inte vara så optimistisk kring IPC:n. Jag utläser det som 40% högre IPC per kärna och inte per tråd tills jag får se motsatsen. Och över 40% är väl i speciella scenarion eller konfigurationer. Men det ser hoppfullt ut

Jag ville ha en mer konkret tråd med substans och mer tekniskt korrekt information/spekulation, så jag gjorde denna. Det är lite av min tradition här på forumet också att skapa dessa sedan lång tid tillbaka

IPC har inget med SMT att göra. Sen är hela pipelinestrukturen förändrad med 50% mer resurser för heltalsoperationer och minst fördubblad FPU (där man inte längre delar en FPU på 2 heltalsenheter som man gjort i BD/EV) samt det är en helt ny cachearkitektur med inklusive cache vilket i detta fall innebär drastiska åtgärder på dess fördröjning. En annan i Zen teamet på AMD (Suzanne Plummer) har också bekräftat att man fått fria händer att gå "all in" med Zen.

En sak som är positiv inför lanseringen är att det finns mycket vital förhandsinformation (och officiella uttalanden) som avslöjar mycket om att Zen blir lyckad, vilket det inte gjorde innan release om Bulldozer. Det ihop med lögner fick folk att tro att produkten skulle hålla upp till hyffsade förväntningar, trots att man hade en magkänsla som var halvbra.

[ AMD "Zen" @ ????Mhz // 2x420mm customloop ][ ASUS AM4? ][ 32GB DDR4-xxxx? ][ AMD Vega10? @xxxxMhz ][ Win10 PRO x64 ][ Kommande Freesyncskärm? ][ Corsair 750D // Corsair RM1000x ][ Samsung 960 M.2 SSD 512GB + 7.0TB + 20TB server Xeon x7460 25MB cache / 24GB ECC RAM ]

Trädvy Permalänk
Medlem
Plats
Grycksbo
Registrerad
Feb 2010

Jag bara hoppas...
Fast jag har varit Intel användare länge nu så har jag saknat från det röda laget nånting stort.

[i5 4670k stock]-[MSI Z87 GD65-GAMING]-[Corsair 16GB 1600MHz XMP ]-[EVGA Supernova G2 750W]-[ZOTAC GTX 980Ti AMP Extreme 6GB]-[Windows 10]-[Acer 27" XB270HU]-[]-[QPAD 8K]-[QPAD MK-90][Asus Essence STX II]-[Beyerdynamic DT 770 Pro 250 ohm]-[Röde PodCaster USB + PSM-1 + PSA-1]-[Nintendo Wii U]-[Playstation 4]

Trädvy Permalänk
Medlem
Plats
Framför datorn
Registrerad
Nov 2013

Wtf, sitter du mitt i natten och gör trådar . Ska i alla fall bli intressant och se när den väl släpps

Trädvy Permalänk
Medlem
Plats
Älvdalen
Registrerad
Mar 2008
Skrivet av AMD-FX:

Wtf, sitter du mitt i natten och gör trådar . Ska i alla fall bli intressant och se när den väl släpps

Vad ska man annars göra 2 på morgonen?! Sova gör man på arbetstid

ont: Jag hoppas det går vägen för AMD och att zen blir en bra produkt. Om den är i närheten av Skylake så är det bra nog för mig eftersom jag idag sitter på en i5-2500k.

Trädvy Permalänk
Medlem
Plats
Infernum
Registrerad
Jul 2001

Spelar mindre roll hur Zen presterar kommer förmodligen av rent materiellt habegär skaffa en!

Trädvy Permalänk
Medlem
Plats
Skövde
Registrerad
Mar 2012

Som jag sagt i skvallertråden så är m-ITX mitt baskrav för valet mellan Kaby Lake/Summit Ridge.
Jag hoppas verkligen att AM4 får kvalitativa ITX-kort och att de kommer tidigt.

Finns det någon konkret information eller något uttalande som pekar åt att det kommer eller får man helt enkelt vänta och se som det ser ut nu?

Min åldrande men rakryggade vapendragare: [Fractal Design Define R3] ≈ [Corsair AX 850W] ≈ [EVGA Geforce GTX 1060 6GB SC OC] ≈ [Intel Core i7 2700K@4.8GHz] ≈ [Noctua NH-U14S] ≈ [16GB Corsair Vengeance Pro 2133MHz] ≈ [Asus Sabertooth Z77] ≈ [Samsung Spinpoint F3 1TB] ≈ [Intel 520 180GB] ≈ [Asus Xonar DGX] |
Läxstrimlaren: Lenovo G50-80 i5 5200U Min förlängning av mig själv: OnePlus 3

Trädvy Permalänk
Frilansskribent
Patrik Jonsson
Plats
Dalarna
Registrerad
Okt 2009
Skrivet av Uzanar:

Som jag sagt i skvallertråden så är m-ITX mitt baskrav för valet mellan Kaby Lake/Summit Ridge.
Jag hoppas verkligen att AM4 får kvalitativa ITX-kort och att de kommer tidigt.

Finns det någon konkret information eller något uttalande som pekar åt att det kommer eller får man helt enkelt vänta och se som det ser ut nu?

Jag skulle tro att det kommer fler ITX brädor till AM4, till skillnad från AM3+, dessutom så ska AM4 vara plattformen där AMD släpper alla CPUer, istället för att köra FM/AM1/2/AM3+ som de kör nu, så det borde finnas ett gott utbud ITX brädor.

Bara att hoppas på att tillverkare hoppar på AM4 tåget när det anländer.

PC: Intel 2600K 4400 MHz - Maximus V Gene - Corsair 2x4GB - GTX 680 - Intel 730 240GB - AX760 Platinum
Kringutrustning: Dell U2515H - Mionix Castor - Sennheiser HD558 - Ducky One MX Brown
Telefon: iPhone 6 16GB Whitetail 10.2

- Feedback - Kontakt - Regler -

Trädvy Permalänk
Medlem
Plats
Skövde
Registrerad
Mar 2012
Skrivet av Jonssown:

dessutom så ska AM4 vara plattformen där AMD släpper alla CPUer, istället för att köra FM1/2/AM3+ som de kör nu

Är just det här 100% bekräftat och skrivet i sten?
För det skulle ju i så fall precis som du säger öka sannolikheten enormt för m-ITX kort till Summit Ridge

Min åldrande men rakryggade vapendragare: [Fractal Design Define R3] ≈ [Corsair AX 850W] ≈ [EVGA Geforce GTX 1060 6GB SC OC] ≈ [Intel Core i7 2700K@4.8GHz] ≈ [Noctua NH-U14S] ≈ [16GB Corsair Vengeance Pro 2133MHz] ≈ [Asus Sabertooth Z77] ≈ [Samsung Spinpoint F3 1TB] ≈ [Intel 520 180GB] ≈ [Asus Xonar DGX] |
Läxstrimlaren: Lenovo G50-80 i5 5200U Min förlängning av mig själv: OnePlus 3

Trädvy Permalänk
Frilansskribent
Patrik Jonsson
Plats
Dalarna
Registrerad
Okt 2009
Skrivet av Uzanar:

Är just det här 100% bekräftat och skrivet i sten?
För det skulle ju i så fall precis som du säger öka sannolikheten enormt för m-ITX kort till Summit Ridge

Det verkar onekligen så. Vi får hålla tummarna!

PC: Intel 2600K 4400 MHz - Maximus V Gene - Corsair 2x4GB - GTX 680 - Intel 730 240GB - AX760 Platinum
Kringutrustning: Dell U2515H - Mionix Castor - Sennheiser HD558 - Ducky One MX Brown
Telefon: iPhone 6 16GB Whitetail 10.2

- Feedback - Kontakt - Regler -

Trädvy Permalänk
Medlem
Plats
Stockholm
Registrerad
Nov 2011

@Jonssown: Det tror jag absolut, Asus har själva sagt att dom skulle kunna plocka fram am3 itx kort men dom inte har gjort det pga brist på efterfrågan (Gammal plattform + det måste vara ett ganska välbyggt itx liknande impact korten för intel) ihop med det priset dom skulle bli tvugna att ta för det.

Falling In Reverse - Game Over

"Midway upon the journey of our life I found myself within a forest dark, For the straightforward pathway had been lost."

Trädvy Permalänk
Medlem
Plats
Skövde
Registrerad
Mar 2012
Skrivet av Jonssown:

Det verkar onekligen så. Vi får hålla tummarna!

Nice, det hade jag helt missat eller föträngt!

Citat:

Klart är dock att AM4 kommer användas för Bristol Ridge – Carrizo för stationära datorer – och Summit Ridge, som är kodnamn för första generationens Zen-processorer.

Så framtida revisioner av Zen kan komma att använda en ny sockel men alla processorer som lanseras nu 2016/2017 använder alltså AM4, det är ju lovande

Min åldrande men rakryggade vapendragare: [Fractal Design Define R3] ≈ [Corsair AX 850W] ≈ [EVGA Geforce GTX 1060 6GB SC OC] ≈ [Intel Core i7 2700K@4.8GHz] ≈ [Noctua NH-U14S] ≈ [16GB Corsair Vengeance Pro 2133MHz] ≈ [Asus Sabertooth Z77] ≈ [Samsung Spinpoint F3 1TB] ≈ [Intel 520 180GB] ≈ [Asus Xonar DGX] |
Läxstrimlaren: Lenovo G50-80 i5 5200U Min förlängning av mig själv: OnePlus 3

Trädvy Permalänk
Frilansskribent
Patrik Jonsson
Plats
Dalarna
Registrerad
Okt 2009
Skrivet av Uzanar:

Nice, det hade jag helt missat eller föträngt!

Så framtida revisioner av Zen kan komma att använda en ny sockel men alla processorer som lanseras nu 2016/2017 använder alltså AM4, det är ju lovande

Sett till AMDs sockel-historia så kan vi alltid hoppas på att "framtida" CPUer använder "AM4+" eller liknande, med bakåtkompatibilitet.
Det var ju en av grejerna med Intel, att de alltid ska byta Sockel, medans AMD körde fast vid att folk som inte ville byta ut hela systemet inte skulle behöva det. I alla fall så det kändes som konsument.

Exempelvis, AM2/AM2+/AM3/AM3+, medans Intel under samma generationer körde på 775/1156/1155

PC: Intel 2600K 4400 MHz - Maximus V Gene - Corsair 2x4GB - GTX 680 - Intel 730 240GB - AX760 Platinum
Kringutrustning: Dell U2515H - Mionix Castor - Sennheiser HD558 - Ducky One MX Brown
Telefon: iPhone 6 16GB Whitetail 10.2

- Feedback - Kontakt - Regler -

Trädvy Permalänk
Medlem
Plats
127.0.0.1
Registrerad
Jan 2007

Fyllt på med lite mer info om Zen's hel/flyttalsenheter.

Skickades från m.sweclockers.com

[ AMD "Zen" @ ????Mhz // 2x420mm customloop ][ ASUS AM4? ][ 32GB DDR4-xxxx? ][ AMD Vega10? @xxxxMhz ][ Win10 PRO x64 ][ Kommande Freesyncskärm? ][ Corsair 750D // Corsair RM1000x ][ Samsung 960 M.2 SSD 512GB + 7.0TB + 20TB server Xeon x7460 25MB cache / 24GB ECC RAM ]

Trädvy Permalänk
Medlem
Plats
Malmö
Registrerad
Dec 2004

@Enigma
Awesome! Men det står fortfarande Senast redigerat idag 05:52

På bilden där det står 40% högre IPC så står det en liten etta bredvid. Skulle gärna vilja veta vad den ettan har att säga

500 watt räcker för en elementär dator oavsett grafikkort utan överklockning. Räkna ut annat på OuterVision Power Supply Calculator. Power. Performance. PRIME.
Elektrostatisk urladdning är ett verkligt problem.

"People who are serious about software should make their own hardware" – Alan Kay

Trädvy Permalänk
Medlem
Plats
Gbg
Registrerad
Jul 2004
Skrivet av Jonssown:

Sett till AMDs sockel-historia så kan vi alltid hoppas på att "framtida" CPUer använder "AM4+" eller liknande, med bakåtkompatibilitet.
Det var ju en av grejerna med Intel, att de alltid ska byta Sockel, medans AMD körde fast vid att folk som inte ville byta ut hela systemet inte skulle behöva det. I alla fall så det kändes som konsument.

Exempelvis, AM2/AM2+/AM3/AM3+, medans Intel under samma generationer körde på 775/1156/1155

problemet e dock att man inte kunde blanda cpuer å moderkort hur som helst. Så frågan e vilket som e bäst att tillåta användarna att köra med cpuer som kanske drar mer än vad moderkorten är designat för vilket ofta resulterade i moderkort som sade "pop" eller byta sockel så som intel gjort för att eventuellt slippa dessa besvär.

Sen hoppas jag att Amds moderkort inte blir så buggiga som jag minns att de var, sen jag bytte till Intel på core 2 duo tiden så har jag inte haft i närheten av lika många buggar/problem som med Amd system.

Ahhlon2x4@3.6@~1.42-14.3v / 8gb/gtx 470

Trädvy Permalänk
Datavetare
Plats
Stockholm
Registrerad
Jun 2011
Skrivet av Enigma:

IPC har inget med SMT att göra.

Det faktum att AMD är väldigt noga att alltid nämna "per kärna" i samma veva man nämner 40 % IPC ökningar känns inte längre som en slump. AMD har absolut inget intresse av att påpeka att folk eventuell drar felaktiga slutsatser när de slutsatser de flesta drar är positiva för AMD.

SMT ökar inte kapaciteten för en CPU-kärna. Däremot är det i praktiken hopplöst att ens komma nära teoretisk max för IPC med en 4-wide design med endast en CPU-tråd. Skylake klarar i bästa fall att hålla strax över 2,5 instruktion per cykel i gynnsamma fall. Ändå har Skylake högre enkeltrådprestanda än någon annan CPU, även POWER8 som på pappret har högre kapacitet på var enda punkt.

Tittar man däremot på antal instruktioner som körs per fysisk kärna så gör POWER8 mos av Skylake. Föga oväntat pekar Intels PR-maskineri på enkeltrådprestanda medan IBMs pekar på prestanda per fysisk kärna när dessa två tillverkare kör benchmarkdansen.

I fallet Zen skulle det vara väldigt intressant att veta hur det ligger till. Guru3D har försökt sig på en clock-for-clock jämförelse m.h.a. de påstått läckta resultaten från Ashes of the Singlularity som bl.a. postades här på SweClockers. Där ser det väldigt mycket ut som en eventuell 40 % ökning måste vara per kärna (man är strax över 40 % bättre per kärna jämfört med Piledriver här), d.v.s två trådar, för sett till prestanda per CPU-tråd verkar Haswell ligga rätt långt före

Dold text

Allt detta är dock spekulationer tagna från PR-slides som lämnar rätt mycket av detaljerna i dimman och resultatet från ett test som vi inte ens vet om det är fabricerat eller äkta.

Skrivet av Enigma:

Sen är hela pipelinestrukturen förändrad med 50% mer resurser för heltalsoperationer och minst fördubblad FPU (där man inte längre delar en FPU på 2 heltalsenheter som man gjort i BD/EV) samt det är en helt ny cachearkitektur med inklusive cache vilket i detta fall innebär drastiska åtgärder på dess fördröjning.

Cache-arkitekturen är det som Zen står och faller med. Lyckas man här så har man en vinnare, vad som händer om man misslyckas på denna punkt vill man inte tänka på. En sak som jag tycker är lite oroande är prat om att L1I$ och L1D$ ska vara 64 kB stora. Stor cache kan ju låta bra, men om storleken på L1 dividerat med antal "set" är större än storleken på en "memory page" (4 kB på x86) så kan inte TLB-uppslagningar och L1-uppslagningar utföras parallellt. Intel har specifikt av denna anledning faktiskt fler "set" på sin L1I$/L1D$ (8-set associativ) jämfört med 4-set associativ L2 sedan Skylake.

Nackdelen med många "set" är att det drar mer ström och är mer komplicerat. ARM-tillverkarna, utom möjligen Apple, kör alla med 2-set associativ L1$ och har därmed sämre praktisk latens (det trots att de flesta ARM CPUer har 3 cyklers L1-latens medan Intel har 4 cykler). Bulldozer-serien hade en väldigt liten L1D$ just för att man skulle kunna köra TLB och L1D$ parallellt, endast 16 kB som då klarar sig med 4-set. En 64 kB L1 måste ha minst 16 set, det är något man normalt bara har på rejält tilltagen L3$.

Angående flyttal. Om inte AMD gjort en bug eller försökt mörka vad Zen är kapabel till så pekar den gcc patch för zen som det pratades om för ett tag sedan att det finns total 4 FP-pipelines i Zen varav två är 128-bitars FMAC som är kapabla att köra 256-bitars AVX.

Om det är fallet så har Zen halva flyttalskapaciteten jämfört med Haswell och framåt räknat per fysisk kärna och cykel. I praktiken irrelevant då AMD inte verkar sikta på HPC-marknaden med "vanliga" Zen, där ska man enligt rykte ta fram en APU där tanken rimligen är att de flyttalsintensiva sakerna körs på GPU-delen. I de flesta serverapplikationer använder man överhuvudtaget inte flyttal och om det används är det inte flaskhalsen.

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Trädvy Permalänk
Medlem
Plats
Jönköping
Registrerad
Feb 2010

Det verkar komma 2st cpuer. En med 95W TDP 8 kärnor och 16 trådar och en med 65W TDP 4 kärnor och 8 trådar

http://wccftech.com/amd-zen-8-core-4-core-cpus-leaked/

Dator: Clevo p370em 680m sli Dell xps m1730 8800gtx (såld) Alienware m17x r2 5870m (såld) Msi gx660r 5870m (såld), Alienware M18x R2 7970m cf (såld)
Konsoll: Ps3 ca 100 spel på hårddisken. Ca 60 spel på skiva. 15 platinum och 1300+ trophies
Ljud:: Reciever: Yamaha RX-V771, Front: Blue Diamond: Rear: Black Ruby Cent: Black Ruby C

Trädvy Permalänk
Medlem
Plats
127.0.0.1
Registrerad
Jan 2007
Skrivet av GilbertG:

@Enigma
På bilden där det står 40% högre IPC så står det en liten etta bredvid. Skulle gärna vilja veta vad den ettan har att säga

1=IPC i förhållande till deras nuvarandra arkitektur=Excavator

[ AMD "Zen" @ ????Mhz // 2x420mm customloop ][ ASUS AM4? ][ 32GB DDR4-xxxx? ][ AMD Vega10? @xxxxMhz ][ Win10 PRO x64 ][ Kommande Freesyncskärm? ][ Corsair 750D // Corsair RM1000x ][ Samsung 960 M.2 SSD 512GB + 7.0TB + 20TB server Xeon x7460 25MB cache / 24GB ECC RAM ]

Trädvy Permalänk
Medlem
Plats
127.0.0.1
Registrerad
Jan 2007

Ett block iväg från IDF så festar AMD till det rejält :)

@Yoshman

Allt verkar mycket lovande, inklusive designen på FPU.

[ AMD "Zen" @ ????Mhz // 2x420mm customloop ][ ASUS AM4? ][ 32GB DDR4-xxxx? ][ AMD Vega10? @xxxxMhz ][ Win10 PRO x64 ][ Kommande Freesyncskärm? ][ Corsair 750D // Corsair RM1000x ][ Samsung 960 M.2 SSD 512GB + 7.0TB + 20TB server Xeon x7460 25MB cache / 24GB ECC RAM ]

Trädvy Permalänk
Medlem
Plats
Framför datorn
Registrerad
Nov 2013

Denna video visar lite mer. Närbild av moderkortet m.m.

Trädvy Permalänk
Datavetare
Plats
Stockholm
Registrerad
Jun 2011

Var ju inte speciellt mycket mer kött på benen som detta gav, men några moln skingrades.

  1. Det handlar verkligen om 128-bitars FMAC, som naturligtvis är kapabla till att jobba med 256-bitars register fast då med halva hastigheten (redan Jaguar hade stöd för detta så absolut ingen överraskning). Rent praktiskt betyder detta att Zen har halva flyttalskapaciteten jämfört med Haswell och senare per kärna per cykel. Som jag skrev ovan, tror detta är rätt irrelevant då det är rätt få applikationer utanför HPC där flyttalskapacitet är kritiskt

  2. L1D$ är 32 kB med 8-set, så där kan man köra TLB uppslagning parallellt *

  3. L1I$ är 64 kB med 4-set, så där får man högre latens än Intel

  4. L1I$, L1D$ och L2$ har alla halv bandbredd jämfört med Haswell och senare (samma som Ivy Bridge och tidigare)

  5. På pappret samma ALU-kapacitet som Haswell och framåt för heltal

  6. På pappret mindre kapacitet för load/store (AGUs) jämfört med Haswell. Lite svårt att säga exakt hur då Haswell är väldigt asymmetrisk, finns två "fulla" pipelines som då rätt exakt motsvarar vad Zen har. Men sen har Haswell en pipeline dedikerad för skrivning och en dedikerad för adressberäkningar

Är nog därför ingen slump att de benchmarks som är "läckta" så här långt är Cinebench och Blender. Ingen av dessa använder AVX vilket då betyder att Zen får samma flyttalskapacitet som Sandy Bridge och framåt (även Core2 och framåt har samma maximala SSE-kapacitet men har för mig att där måste en vara addition och en multiplikation medan SNB och Zen kan ha vilken kombination som helst av addition och multiplikation).

Gissar också att Zens lägre cache-bandbredd inte påverkar enkeltrådprestanda i någon relevant utsträckningen, men det kan bli en flaskhals när båda CPU-trådarna används. Haswell och framförallt Skylake får ett större lyft av HT jämfört med tidigare modeller. Även detta skulle kunna förklara Cinebench och Blender, dessa program är främst begränsade av FPU ALU-kapacitet för SSE (128-bitars SIMD) och den är som sagt identiskt med Intel, SMT ger nästan ingenting i dessa program.

En rimlig gissning blir därför att Zen hamnar runt Ivy Bridge räknat i IPC, men är som sagt en ren gissning i detta läge givet den information som finns tillgänglig.

* Kanske lite mer förklara detta. TLB = Translation Lookaside Buffer, en cache för att översätta de "virtuella" adresser som alla moderna operativsystem jobbar med till "fysiska" adresser (cell i RAM-minnet). Är användandet av virtuella som möjliggör minnesskydd mellan program, möjliggör att man har mer minne allokerat än det finns RAM (swap), m.m.

Om varje "set" är 4 kB så får man effekten att bit 6 (varje cache-line är 64 bytes) till bit 11 i varje adress bestämmer vilken index den "cache linje" en viss minnesadress får. Då "page storleken" (minsta granulatet på översättningen av virtuell till fysisk adress) är 4 kB betyder det i sin tur att bit 0 till 11 alltid är samma för den virtuella och fysiska adressen.

Är därför möjligt att veta vilken index i cachen man ska slå upp innan man vet vilken fysisk adress man faktiskt kommer läsa. Är endast validering av huruvida en giltig cache-line faktiskt motsvarar den adress man nu vill läsa/skriva som måste vänta in TLB resultatet.

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Trädvy Permalänk
Datavetare
Plats
Stockholm
Registrerad
Jun 2011

Detta kanske förklarar varför AMD tidigare försökte sig på en egen variant i stället för att köra SMT, tekniken är (tyvärr föga oväntat) patenterad, i detta fall av SUN Microsystems så Oracle idag.

Intel licensierar tydligen detta, vilket kanske förklarar varför man försökte klara sig utan i Core2 och designade runt SMT i Atom. Rimligen får även AMD licensiera tekniken från Oracle. Nu svider det att köpa någon CPU med SMT, Oracle är en av de sista företag jag vill ge pengar. Men i detta fall får man bita ihop, SMT är så pass viktigt på "breda" designer som Zen och "Core-serien" att det inte fungerar utan.

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Trädvy Permalänk
Medlem
Registrerad
Dec 2013
Skrivet av Yoshman:

Detta kanske förklarar varför AMD tidigare försökte sig på en egen variant i stället för att köra SMT, tekniken är (tyvärr föga oväntat) patenterad, i detta fall av SUN Microsystems så Oracle idag.

Intel licensierar tydligen detta, vilket kanske förklarar varför man försökte klara sig utan i Core2 och designade runt SMT i Atom. Rimligen får även AMD licensiera tekniken från Oracle. Nu svider det att köpa någon CPU med SMT, Oracle är en av de sista företag jag vill ge pengar. Men i detta fall får man bita ihop, SMT är så pass viktigt på "breda" designer som Zen och "Core-serien" att det inte fungerar utan.

Utan att på något vis vara insatt i Oracle vore det intressant att veta varför de är de sista du skulle vilja ge pengar?

#1: INTEL CORE i7 5960X - ASUS RAMPAGE V EXTREME - 32GB DDR4 - 1TB SSD - GAINWARD GTX 1080 PHOENIX GS 8GB
#2: INTEL XEON E3-1240v3 - ASROCK Z87 FORMULA OC - 16GB DDR3 - 250GB SSD - 22TB HDD - MSI GTX 750 Ti 2GB
#3: INTEL CORE i7 6700K - ASUS Z170i PRO GAMING - 16GB DDR4 - 750GB SSD
#4: LENOVO THINKPAD X1 YOGA - INTEL CORE i5 6300U - 8GB DDR3L - 180GB SSD

Trädvy Permalänk
Datavetare
Plats
Stockholm
Registrerad
Jun 2011
Skrivet av Stoff3th3m4n:

Utan att på något vis vara insatt i Oracle vore det intressant att veta varför de är de sista du skulle vilja ge pengar?

Tja, t.ex. detta och sättet Oracle behandlar sina kunder ("kunder" känns inte som rätt ord, gisslan känns närmare ). Irrelevant i denna tråd i alla fall och ska aldrig nämna det igen!

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Trädvy Permalänk
Medlem
Registrerad
Dec 2013
Skrivet av Yoshman:

Tja, t.ex. detta och sättet Oracle behandlar sina kunder ("kunder" känns inte som rätt ord, gisslan känns närmare ). Irrelevant i denna tråd i alla fall och ska aldrig nämna det igen!

Du får gärna nämna det för min del, kan alltid vara intressant att få reda på nya saker som man inte hade pejl på.

Tack för svaret.

#1: INTEL CORE i7 5960X - ASUS RAMPAGE V EXTREME - 32GB DDR4 - 1TB SSD - GAINWARD GTX 1080 PHOENIX GS 8GB
#2: INTEL XEON E3-1240v3 - ASROCK Z87 FORMULA OC - 16GB DDR3 - 250GB SSD - 22TB HDD - MSI GTX 750 Ti 2GB
#3: INTEL CORE i7 6700K - ASUS Z170i PRO GAMING - 16GB DDR4 - 750GB SSD
#4: LENOVO THINKPAD X1 YOGA - INTEL CORE i5 6300U - 8GB DDR3L - 180GB SSD

Trädvy Permalänk
Medlem
Plats
127.0.0.1
Registrerad
Jan 2007
Skrivet av Yoshman:

Var ju inte speciellt mycket mer kött på benen som detta gav, men några moln skingrades.

[ol]
[li]Det handlar verkligen om 128-bitars FMAC, som naturligtvis är kapabla till att jobba med 256-bitars register fast då med halva hastigheten (redan Jaguar hade stöd för detta så absolut ingen överraskning). Rent praktiskt betyder detta att Zen har halva flyttalskapaciteten jämfört med Haswell och senare per kärna per cykel. Som jag skrev ovan, tror detta är rätt irrelevant då det är rätt få applikationer utanför HPC där flyttalskapacitet är kritiskt[/li]

Så vitt jag vet har Zen 4 portar från schemaläggaren till varje pipeline som består utav två FMUL och två FADD där man kan köra 2 FMAC operationer eller en 256-bit AVX operation på en cykel, men jag kan ha misstagit mig. Mer relevant är också latensen på typiskt konsumentinriktad SSE-baserad kod eller enklare flyttalsoperationer vilket jag tror AMD jobbat hårt med. AMD har till skillnad från Intel separata schemaläggare för heltal och flyttal, något som jag tror Zen kan dra större nytta utav.

Citat:

[li]L1D$ är 32 kB med 8-set, så där kan man köra TLB uppslagning parallellt *[/li]
[li]L1I$ är 64 kB med 4-set, så där får man högre latens än Intel[/li]
[li]L1I$, L1D$ och L2$ har alla halv bandbredd jämfört med Haswell och senare (samma som Ivy Bridge och tidigare)[/li]
[li]På pappret samma ALU-kapacitet som Haswell och framåt för heltal[/li]
[li]På pappret mindre kapacitet för load/store (AGUs) jämfört med Haswell. Lite svårt att säga exakt hur då Haswell är väldigt asymmetrisk, finns två "fulla" pipelines som då rätt exakt motsvarar vad Zen har. Men sen har Haswell en pipeline dedikerad för skrivning och en dedikerad för adressberäkningar[/li]
[/ol]

Haswell har på pappret enorma förbättringar, men är inte enormt mycket bättre än IB. Intel kör oförändrat vidare på 32Kb L1 cache för både instruktions och datacache, men det har varit variationer på associativiteten. 45nm Lynnfield hade t.ex 4-way på L1i utan någon större inverkan på IPC, och med Skylake så ser vi en halvering på associativiteten på L2 cachen istället. Detta medförde sämre cacheflow, men bättre energieffektivitet och kunde vägas upp emot andra förbättringar i designen då det räcker med 4-way.

Jag har en känsla över att Zen är väldigt balanserad, men AMD själva har ju också bekräftat att den har 5x högre cachebandbredd till varje kärna och att specifikt L1 cachen har låg latens. För att ta fördelarna med Zen's cachearkitektur:

  • L1i dubbelt så stor som Skylake

  • L1d är 8-way, dvs samma som Haswell/Skylake

  • L1d är fördubblad från BD i både storlek och associativitet

  • L1i är fördubblad i associativitet från BD

  • L2 cachen har dubbelt så hög associativitet än Skylake och är dubbelt så stor

  • Instruktionscachen är inte längre delad mellan två kärnor

En fotnot och liten spekulation från min sida: Varje "Zen block" ska ha en 8MB L3 cache, vilket betyder att en nativ 8 kärnig Zen-processor kommer ha 16MB L3 cache:

Citat:

Är nog därför ingen slump att de benchmarks som är "läckta" så här långt är Cinebench och Blender. Ingen av dessa använder AVX vilket då betyder att Zen får samma flyttalskapacitet som Sandy Bridge och framåt (även Core2 och framåt har samma maximala SSE-kapacitet men har för mig att där måste en vara addition och en multiplikation medan SNB och Zen kan ha vilken kombination som helst av addition och multiplikation).

Väldigt få applikationer som inte är någon form av benchmarkingprogram använder AVX. Mest intressant är hur spel kommer bete sig på processorerna som verkligen är cache och FPU krävande.

Citat:

Gissar också att Zens lägre cache-bandbredd inte påverkar enkeltrådprestanda i någon relevant utsträckningen, men det kan bli en flaskhals när båda CPU-trådarna används. Haswell och framförallt Skylake får ett större lyft av HT jämfört med tidigare modeller. Även detta skulle kunna förklara Cinebench och Blender, dessa program är främst begränsade av FPU ALU-kapacitet för SSE (128-bitars SIMD) och den är som sagt identiskt med Intel, SMT ger nästan ingenting i dessa program.

Jag tror att framförallt den stora L2 cachen ihop med den helt omarbetade L1 cachen och en micro-op cache kan göra en enorm förbättring på just IPC. Hur sofistikerad SMT är låter jag vara osagt. Just Blender vet jag har varit ganska Intel-främjande, så det var lite otippat att AMD skulle välja just den applikationen som en IPC-jämförelse.

Citat:

En rimlig gissning blir därför att Zen hamnar runt Ivy Bridge räknat i IPC, men är som sagt en ren gissning i detta läge givet den information som finns tillgänglig.

AMD kommer släppa mer information "inom kort" är det sagt med mer detaljer om arkitekturen på Hot Chips. Jag tror på en större IPC än Haswell. Något säger mig att det finns ett litet ess i räckärmen... Ha lite tålamod i ett par dagar till:

http://www.hotchips.org/program/

[ AMD "Zen" @ ????Mhz // 2x420mm customloop ][ ASUS AM4? ][ 32GB DDR4-xxxx? ][ AMD Vega10? @xxxxMhz ][ Win10 PRO x64 ][ Kommande Freesyncskärm? ][ Corsair 750D // Corsair RM1000x ][ Samsung 960 M.2 SSD 512GB + 7.0TB + 20TB server Xeon x7460 25MB cache / 24GB ECC RAM ]

Trädvy Permalänk
Medlem
Plats
127.0.0.1
Registrerad
Jan 2007

AMD Zen AM4 maskin:

2st 32core/64threads Zen CPU'er på ett moderkort. hela 128 trådar!

[ AMD "Zen" @ ????Mhz // 2x420mm customloop ][ ASUS AM4? ][ 32GB DDR4-xxxx? ][ AMD Vega10? @xxxxMhz ][ Win10 PRO x64 ][ Kommande Freesyncskärm? ][ Corsair 750D // Corsair RM1000x ][ Samsung 960 M.2 SSD 512GB + 7.0TB + 20TB server Xeon x7460 25MB cache / 24GB ECC RAM ]