AMD avtäcker Athlon II X4 860K och FX-8300

Permalänk
Moderator
Festpilot 2020, Antiallo
Skrivet av Pudeln:

De måste släppa Athlonen väldigt billigt. Med Mantle så kan det bli intressant med en sådan processor och ett kraftigare grafikkort. Steamroller blir knappast flaskad äns på 1600Mhz och förmodligen inte heller på 1333Mhz så man behöver inte köpa dyra minnen som med A10-7850K (vars IGP behöver 2133Mhz för ok prestanda).

Jag har inte så bra koll på billiga moderkort till i3 men ofta när man jämför pris mellan kaveri vs i3 så räknar man bara för kostnaden för processor+grafikkort och då vinner i3 med separat grafikkort. Men man räknar ju inte alltid med moderkortet i ekvationen. Fm2+ moderkort är riktigt billiga. Gamingversionerna (ca 1000kr jämnt) och m-itx (ca 600-900kr) de vanlig u-ATX kostar ca 500kr och ibland tom mindre än så.

Just AMDs arkitekturer drar större nytta av bra ram än Intel just då det är bra mycket slöare cache hos AMD tyvärr. Prestandan ökar nästan linjärt med bättre latenser. (Hastigheter och därmed bandbredd är mindre intressant).

Skickades från m.sweclockers.com

Visa signatur

 | PM:a Moderatorerna | Kontaktformuläret | Geeks Discord |
Testpilot, Skribent, Moderator & Geeks Gaming Huvudadmin

Permalänk
Datavetare
Skrivet av DavidtheDoom:

Just AMDs arkitekturer drar större nytta av bra ram än Intel just då det är bra mycket slöare cache hos AMD tyvärr. Prestandan ökar nästan linjärt med bättre latenser. (Hastigheter och därmed bandbredd är mindre intressant).

Skickades från m.sweclockers.com

Fast det gäller bara APU där GPU-delen är mycket mer begränsad av bandbredd än Intels dito. Latensen på RAM är additivt med latensen på CPU-cache och AMD har tyvärr väldigt hög latens på sin cache jämfört med Intel.

Så relativt sett vinner Intel CPUer mer på låg latens, men i praktiken spelar latens på RAM väldigt liten roll då det bara är minnesaccesser som missa CPU-cache där det överhuvudtaget har en praktisk skillnad. "Normala" program har väldigt hög CPU-cache hit-rate.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Permalänk
Medlem

Jo precis. Och hur som helst så verkar Steamroller inte skala lika bra efter 1600Mhz på minnena. Bästa man kan göra är att överklocka CPUn för att få ner cachelatensen. Förhoppningsvis klarar Athlon:en minst samma freq som Kaverin där folk brukar nå 4,4Ghz utan större problem och 4,7Ghz med stor ansträngning.

Men visst får man 2133mhz för samma pris som 1600Mhz så får man ju alltid lite mer prestanda men det inte värt att betala premium för det.

För Kaveri däremot så behöver man 2133Mhz minnen. Sweet spot ligger där med CL9 (realistiskt vid 2×4Gb) eller CL10 (realistiskt vid 2*8GB).

Permalänk
Moderator
Festpilot 2020, Antiallo
Skrivet av Yoshman:

Fast det gäller bara APU där GPU-delen är mycket mer begränsad av bandbredd än Intels dito. Latensen på RAM är additivt med latensen på CPU-cache och AMD har tyvärr väldigt hög latens på sin cache jämfört med Intel.

Så relativt sett vinner Intel CPUer mer på låg latens, men i praktiken spelar latens på RAM väldigt liten roll då det bara är minnesaccesser som missa CPU-cache där det överhuvudtaget har en praktisk skillnad. "Normala" program har väldigt hög CPU-cache hit-rate.

Jag vill minnas att det var dig som jag hade hört detta från på detta forumet för att Piledriver har större nytta av snabbt minne än intel. Inte bara på FX-serien utan även på Athlon som dessutom inte ens har en L3-cache. Diskussionen i den tråden handlade om hur cache storleken och avsaknad på L3 gjorde Athlon på FM2 sämre än FX4xx0 i spel.

Dvs det jag försökte säga är att skillnaden mellan 1333MHz CL9 mot t ex 2133MHz CL10 är mer märkbart på AMDs plattformar (även FX) än vad den är på Intels plattformar.

Jag syftar inte på GPGPU eller iGPU prestanda utan prestanda i t ex Cinebench eller vilket program det nu var testet var gjort i. (CPU).
Får Intel t ex 3% bättre resultat med snabbare ram så får kanske AMD 4-5% bättre prestanda. (OBS, sitter inte med siffrorna framför mig, detta är ett exempel tagen ur röven).

Visa signatur

 | PM:a Moderatorerna | Kontaktformuläret | Geeks Discord |
Testpilot, Skribent, Moderator & Geeks Gaming Huvudadmin

Permalänk
Medlem

Athlon II? Kör dom med det än?
Hade det varit en Phenom hade det väll varit lite bättre?

Inte för att jag vet vilken reell skillnad det är, men min Gamla Athlon X4 fick däng av motsvarande Phenom iaf.

Permalänk
Datavetare
Skrivet av DavidtheDoom:

Jag vill minnas att det var dig som jag hade hört detta från på detta forumet för att Piledriver har större nytta av snabbt minne än intel. Inte bara på FX-serien utan även på Athlon som dessutom inte ens har en L3-cache. Diskussionen i den tråden handlade om hur cache storleken och avsaknad på L3 gjorde Athlon på FM2 sämre än FX4xx0 i spel.

Dvs det jag försökte säga är att skillnaden mellan 1333MHz CL9 mot t ex 2133MHz CL10 är mer märkbart på AMDs plattformar (även FX) än vad den är på Intels plattformar.

Jag syftar inte på GPGPU eller iGPU prestanda utan prestanda i t ex Cinebench eller vilket program det nu var testet var gjort i. (CPU).
Får Intel t ex 3% bättre resultat med snabbare ram så får kanske AMD 4-5% bättre prestanda. (OBS, sitter inte med siffrorna framför mig, detta är ett exempel tagen ur röven).

Det jag skrivit är att just p.g.a att varje nivå cache adderar latens och just L3-cachen i Piledriver har väldigt hög latens så det finns faktiskt fall där APUer (Trinity) är snabbare än FX-modellerna. I de flesta fall så är Piledriver L3 ändå en fördel eller i alla fall inte en nackdel då det trots allt är lägre latens till L3 än till RAM.

Intel har 4/11-12/19-20 till L1/L2/L3
AMD har 4/20/~75 i Piledriver, det var 3/15/~55 i Phenom II så här undrar man lite vad AMD håller på med.
Ovanpå detta så har även AMD högre latens mot TLB.

För att förstå hur mycket detta gör för prestanda kan man titta på Silvermont vs Jaguar. Tittar man bara på designen av CPU-kärnan så borde Silvermont vara helt chanslös sett till IPC, Silvermont har även en mindre CPU-cache. Men Silvermont har så pass mycket bättre L2-cache design att den i stort sätt presterar likvärdigt för heltal, att den ligger efter i flyttal beror på att det är ett ännu större delta i hur avancerade den delen + flyttalsintensiv kod tenderar att vara lite mindre latenskänslig tack vare att accessmönstret mot minne är mer förutsägbart.

Än mer tydligt blir det om man även tar med ARM Cortex A15 (som jag jobbar en hel del med för tillfället). Den är på pappret på alla sätt mer avancerade än både Silvermont och även än Jaguar (är 3-issue i stället för 2-issue, så 50% "bredare"). I simpla saker som får plats i L1 är den också riktigt snabb, men kör man saker där flera trådar "bråkar" om den delade L2-cache eller, än värre, om man gör saker som inte riktigt får plats i L2-cache så går Silvermont från att definitivt ha sämre IPC till att ha en IPC som är 5-6 gånger högre än A15! Så AMD Jaguar har en långt bättre cache design än ARM A15, men Intel är just nu minst ett steg före alla andra på L2+ cache-design.

Om det finns fall där AMD tjänar mer på låg latens än Intel så måste de beror på att Intels CPU får högre andel cache-hits. Storleksmässigt har FX-modellerna mer cache än Intel, men storlek är inte alls, saker som prefetch-kvalité, antal "set" i cachen samt policy för vilken cache-line man slänger ut när cache är full kan också skilja. Gissa här att Intel nog har bättre prefetchers vilket då skulle göra att latensen mot RAM blir mindre viktig.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Permalänk
Medlem
Skrivet av DavidtheDoom:

Diskussionen i den tråden handlade om hur cache storleken och avsaknad på L3 gjorde Athlon på FM2 sämre än FX4xx0 i spel.

Jag tänkte inte så mycket på avsaknaden av L3. Det kommer kanske förändra hela läget om vilka minnesfrekvenser som är optimala. Det jag säger gäller vanlig Steamroller med full cache (läs: A10-7850K osv).

Permalänk
Medlem
Skrivet av Aleshi:

Tror för det första inte du riktigt förstår TDP. För det andra så kan du inte räkna watt per mm² rakt av över helt olika typer av områden i kretsen. Och för det tredje så har du turbolägen i vanliga fall, nu kan den inom samma effektbegränsning bränna på med mer turbo och behöver inte justera GPU och CPU frekvens fram och tillbaka efter belastning. Men som sagt, tror inte du förstår TDP. Det kan fortfarande vara stor skillnad i effekt mellan de båda chippen.

Vet visst vad TDP är, tycker det dock är jäkligt skumt att det inte ger någon inverkan på kretsens TDP när man stänger av hela GPU delen av chippet. Grejen är att original chippet (7850k) har en TDP rating på 95W men drar egentligen inte mer än ca 77 watt oklockad, det är mest det som gör mig så fundersam att de borde klara av att kunna sälja denna som en processor med 65W TDP när man stänger av IGPn, men det kanske har mer med att den är 'k' märkt, så att användare sätter dit en ordentlig kylning ifall de vill överklocka.
Inte första gången företag gör det i så fall..

Permalänk
Medlem
Skrivet av loefet:

Vet visst vad TDP är, tycker det dock är jäkligt skumt att det inte ger någon inverkan på kretsens TDP när man stänger av hela GPU delen av chippet. Grejen är att original chippet (7850k) har en TDP rating på 95W men drar egentligen inte mer än ca 77 watt oklockad, det är mest det som gör mig så fundersam att de borde klara av att kunna sälja denna som en processor med 65W TDP när man stänger av IGPn, men det kanske har mer med att den är 'k' märkt, så att användare sätter dit en ordentlig kylning ifall de vill överklocka.
Inte första gången företag gör det i så fall..

AMD har gjort så att Kaveris CPU klockar ner sig i spel med Turbo Core (från 3,7 till 3.0Ghz tex) På detta sätt håller den kvar samma TDP oavsett. IGPn är rätt så resurseffektiv alltså.

Min A10-7850K klockar dock inte ner sig när jag spelar. Jag vet inte om detta är något nytt i och med Catatlyst 14.4 eller vad det är (kanske temperaturstyrt?) Jag kör HWinfo64 som onscreen display via MSI afterburner som rapporterar klock osv i realtid i spelet med rivatuner funktionen.
Detta var ju bra men jag hade hoppats att kunna öka upplevelsen rejält genom att stänga av Turbo Core. Men det behövdes uppenbarligen inte efter jag installerat RivaTuner (via MSI afterburner) som rapporterade att CPUn kunde röra sig helt fritt i frekvenserna som det var även med Turbo Core på.
Jag ska så småning stänga av TC och köra ca 4,4Ghz som den vanliga maxklocken med CnQ på, det är planen iaf. TC ger oftast bara turbofarten till två kärnor och växlar upp och ner då och då så det är inget bra i spel direkt där man vill ha stabil prestanda. TC funkar bra i vardagsarbete. Men det känns som det bara är en grej som finns pga av att stockkylare inte klarar av den klocken annat än under kortare stunder. Har man eftermarknadskylare så är det rätt så meningslös feature.

Permalänk
Avstängd

Boring.

Kan de inte komma med nåt som ger intel en fight om toppstriden istället? Lama AMD :/

Permalänk
Medlem

Om man är en gerilla så ställer man inte upp i en stridsvagnsfajt. Man slåss där man klarar av att göra det.

Permalänk
Moderator
Festpilot 2020, Antiallo
Skrivet av Yoshman:

Det jag skrivit är att just p.g.a att varje nivå cache adderar latens och just L3-cachen i Piledriver har väldigt hög latens så det finns faktiskt fall där APUer (Trinity) är snabbare än FX-modellerna. I de flesta fall så är Piledriver L3 ändå en fördel eller i alla fall inte en nackdel då det trots allt är lägre latens till L3 än till RAM.

Intel har 4/11-12/19-20 till L1/L2/L3
AMD har 4/20/~75 i Piledriver, det var 3/15/~55 i Phenom II så här undrar man lite vad AMD håller på med.
Ovanpå detta så har även AMD högre latens mot TLB.

För att förstå hur mycket detta gör för prestanda kan man titta på Silvermont vs Jaguar. Tittar man bara på designen av CPU-kärnan så borde Silvermont vara helt chanslös sett till IPC, Silvermont har även en mindre CPU-cache. Men Silvermont har så pass mycket bättre L2-cache design att den i stort sätt presterar likvärdigt för heltal, att den ligger efter i flyttal beror på att det är ett ännu större delta i hur avancerade den delen + flyttalsintensiv kod tenderar att vara lite mindre latenskänslig tack vare att accessmönstret mot minne är mer förutsägbart.

Än mer tydligt blir det om man även tar med ARM Cortex A15 (som jag jobbar en hel del med för tillfället). Den är på pappret på alla sätt mer avancerade än både Silvermont och även än Jaguar (är 3-issue i stället för 2-issue, så 50% "bredare"). I simpla saker som får plats i L1 är den också riktigt snabb, men kör man saker där flera trådar "bråkar" om den delade L2-cache eller, än värre, om man gör saker som inte riktigt får plats i L2-cache så går Silvermont från att definitivt ha sämre IPC till att ha en IPC som är 5-6 gånger högre än A15! Så AMD Jaguar har en långt bättre cache design än ARM A15, men Intel är just nu minst ett steg före alla andra på L2+ cache-design.

Om det finns fall där AMD tjänar mer på låg latens än Intel så måste de beror på att Intels CPU får högre andel cache-hits. Storleksmässigt har FX-modellerna mer cache än Intel, men storlek är inte alls, saker som prefetch-kvalité, antal "set" i cachen samt policy för vilken cache-line man slänger ut när cache är full kan också skilja. Gissa här att Intel nog har bättre prefetchers vilket då skulle göra att latensen mot RAM blir mindre viktig.

Yes, latenserna vet jag att du hade en fin graf över och det är nog den jag tänkte på.

Vad 2-issue och 3-issue innebär har jag dessvärre ingen tidigare erfarenhet kring. Du kanske kan utveckla detta för en för nuvarande lekman? Att intel är bättre på Cache design har man ju sett tidigare. Vad Cache-line innebär är nog även det över mitt huvud, har det med lagringsmatrisen att göra precis som rader och kolumner i Ram?

Tack för att du tar din tid och förklarar det så genomgående. (Sitter och väntar på när du ska publicera ditt första verk i förståelse för konsumenter över CPU arkitekturer ).

Skrivet av Pudeln:

Jag tänkte inte så mycket på avsaknaden av L3. Det kommer kanske förändra hela läget om vilka minnesfrekvenser som är optimala. Det jag säger gäller vanlig Steamroller med full cache (läs: A10-7850K osv).

Vanliga Steamroller (Alla är APU:er i dagsläget) saknar även de L3-Cache. (Ja, A10-7850k har ingen L3).

Huruvida L1+L2 cache == Full Cache går ju att diskutera, antar att du menar att L1, L2 samt L3 är full cache och L1+L2 endast är delvis Cache? Bara för att undanröja samtliga möjliga missförstånd.

Skrivet av loefet:

Vet visst vad TDP är, tycker det dock är jäkligt skumt att det inte ger någon inverkan på kretsens TDP när man stänger av hela GPU delen av chippet. Grejen är att original chippet (7850k) har en TDP rating på 95W men drar egentligen inte mer än ca 77 watt oklockad, det är mest det som gör mig så fundersam att de borde klara av att kunna sälja denna som en processor med 65W TDP när man stänger av IGPn, men det kanske har mer med att den är 'k' märkt, så att användare sätter dit en ordentlig kylning ifall de vill överklocka.
Inte första gången företag gör det i så fall..

TDP är ungefär maxvärdet som det absolut sämsta chippet drar i värsta fall. (läs: Omöjligt att egentligen nå utan överklockning och är mer eller mindre helt ointressant).

Anledningen till att Athlon har så hög TDP är att det är de dåliga chippen på mycket hög spänning jämfört med resterande 4-kärniga APU:er.
Min A10-5700 har Vcore på strax under 1.1V. Min Athlon II x4 760k hade en Vcore på strax under 1.4V. Jämförbara frekvenser men mycket stor variation på Vcore. (Medveten om att det är två olika revisioner på samma grundläggande arkitektur men skillnaden borde snarare vara motsatt). Då Richland<Trinity i energiförbrukning.

Visa signatur

 | PM:a Moderatorerna | Kontaktformuläret | Geeks Discord |
Testpilot, Skribent, Moderator & Geeks Gaming Huvudadmin

Permalänk
Skrivet av nackskägg:

Boring.

Kan de inte komma med nåt som ger intel en fight om toppstriden istället? Lama AMD :/

Ja, varför kan de inte bara släppa en produkt som konkurrerar med Intel? Hur svårt kan det vara?

AMD sitter på en fin R&D budget på hela 277 miljoner dollar, inte långt ifrån Intels R&D budget på bara 2,859 miljarder dollar.

Visa signatur

Spelburk: R7 5700X | 5700 XT | 32GB RAM | MSI B350M PRO-VDH

Permalänk
Avstängd
Skrivet av Kärlekstrollet:

Ja, varför kan de inte bara släppa en produkt som konkurrerar med Intel? Hur svårt kan det vara?

AMD sitter på en fin R&D budget på hela 277 miljoner dollar, inte långt ifrån Intels R&D budget på bara 2,859 miljarder dollar.

Det gör inte AMDs processorer mindre ointressanta.

Permalänk
Medlem
Skrivet av Kärlekstrollet:

Ja, varför kan de inte bara släppa en produkt som konkurrerar med Intel? Hur svårt kan det vara?

AMD sitter på en fin R&D budget på hela 277 miljoner dollar, inte långt ifrån Intels R&D budget på bara 2,859 miljarder dollar.

Skulle inte bli förvånad om även Intel har haft röda siffror under krisen. Märks kanske inte lika stort när man har en större budget att tillgå. Bara för att man är störst innebär det inte att m,an är bäst på allt, samt det finns alltid nyanser inom stora företag som aldrig kommer fram i dagens ljus utan hanteras internt.

Permalänk
Skrivet av buddaz:

Skulle inte bli förvånad om även Intel har haft röda siffror under krisen. Märks kanske inte lika stort när man har en större budget att tillgå. Bara för att man är störst innebär det inte att m,an är bäst på allt, samt det finns alltid nyanser inom stora företag som aldrig kommer fram i dagens ljus utan hanteras internt.

Budgeten betyder inte hur bra produkterna blir, utan hur mycket pengar ett företag kan blåsa bort på idéer och koncept. AMD verkar inte kunna satsa på flera kort åt gången med tanke på Bulldozer blev verklighet, vilket kan betyda att andra idéer var sämre eller helt enkelt inte fanns.

Visa signatur

Spelburk: R7 5700X | 5700 XT | 32GB RAM | MSI B350M PRO-VDH

Permalänk
Medlem
Skrivet av DavidtheDoom:

Vanliga Steamroller (Alla är APU:er i dagsläget) saknar även de L3-Cache.

Jag menade så klart att L2 var "strypt" på Athlonen och inte L3. Bra att du tog bort det missförståndet.

Permalänk
Moderator
Festpilot 2020, Antiallo
Skrivet av Pudeln:

Jag menade så klart att L2 var "strypt" på Athlonen och inte L3. Bra att du tog bort det missförståndet.

Men det stämmer ju inte heller, kika på specifikationerna, kabinis toppmodeller har 2x2MB L2 cache, Samtliga Athlons till FM2 har 2x2MB L2-cache så mängden cache är den samma, det är samma arkitektur så bandbredden och accesstiden till cachen är den samma.

Så strypt?

Visa signatur

 | PM:a Moderatorerna | Kontaktformuläret | Geeks Discord |
Testpilot, Skribent, Moderator & Geeks Gaming Huvudadmin

Permalänk
Entusiast
Skrivet av DavidtheDoom:

Men det stämmer ju inte heller, kika på specifikationerna, kabinis toppmodeller har 2x2MB L2 cache, Samtliga Athlons till FM2 har 2x2MB L2-cache så mängden cache är den samma, det är samma arkitektur så bandbredden och accesstiden till cachen är den samma.

Så strypt?

Läs nyheten...
"AMD Athlon II X4 860K har fyra kärnor enligt arkitekturen Steamroller och samma kisel som A-serien Kaveri. Skillnaden är att grafikdelen är avstängd samt att mängden L2-cacheminne halverats till 2 MB."

Själv tror jag definitivt detta kommer vara ett hårt slag mot prestandan.

Permalänk
Medlem

Jag läste nyheten på samma sätt som Calathea ovan men uttryckte mig betydligt sämre.

För att förtydliga så försöker jag inte klanka ner på Athlonen. Jag tror Athlonen blir en populär produkt om priset blir rätt och den kan nog konkurrera väldigt bra mot i3. Det som gör Athlonen så bra tycker jag är att man med den kan köpa billiga minnen och billig bräda och lägga mycket pengar på grafikkortet. Allt jag säger är förutsatt att man är gamer och planerar att spela Mantlespel eller kommande spel med liknande API där i3:ens fördelar försvinner.

Permalänk
Datavetare
Skrivet av DavidtheDoom:

Vad 2-issue och 3-issue innebär har jag dessvärre ingen tidigare erfarenhet kring. Du kanske kan utveckla detta för en för nuvarande lekman? Att intel är bättre på Cache design har man ju sett tidigare. Vad Cache-line innebär är nog även det över mitt huvud, har det med lagringsmatrisen att göra precis som rader och kolumner i Ram?

"X-issue" betyder bara att designen på CPU-kärnan tillåter att upp till X arkitektur-instruktioner (d.v.s x86 instruktioner för Intel/AMD, internt kan en x86-instruktion delas upp i en eller flera enklare instruktioner) kan påbörjas. Både "nya" och "gamla" Atom samt Jaguar och Bobcat är alla 2-issue.

Så skillnaden mellan Silvermont och Jaguar är inte "bredden", några saker som skiljer är att Jaguar har mycket större interna köer och kan således hålla fler instruktioner "in-flight" (och A15 kan hålla fler än Jaguar). Jaguar kan utför upp till en läsning och en skrivning per cykel, Silvermont kan gör en läsning eller en skrivning per cykel, etc.

En cache beskrivs av egenskaper som storlek (som nog alla förstår), load-to-use latens (vilket är vad jag listade ovan, tiden i cykler från att CPU gör en minnesläsning till dess att data finns tillgängligt) och antal "set".

"set" kan man se som en byrå där antal "set" är antal lådor på samma höjd. Varje låda skulle då vara en "cache line" då det är utrymmet där cachat data sparas (typiskt 64 bytes i moderna CPUer).

En cache med 2 "set" (two set associative) och plats för totalt 8 cache lines skulle då visualiseras så här:

+---+---+ #3 | | | +---+---+ #2 | | | +---+---+ #1 | | | +---+---+ #0 | | | +---+---+

Varje RAM-adress kan bara sparas på en specifik rad i denna byrå, så en cache med 1-set skulle direkt få en kollision när två adresser som går till samma rad används medan en 4-set cache kan hantera upp till 3 kollisioner utan att behöva kasta ut något. I praktiken ger varje steg 1->2->4 set samma effekt som att dubbla storleken. Mer än fyra sett ger ganska liten effekt så typiskt har man 2-8 set i dagens CPUer.

Fördelen med många "set" är då rätt uppenbar, så vad är nackdelen? Är främst två, när man ska slå upp något måste man ju potentiellt titta i alla lådorna i en rad som motsvara adressen, så många "set" ger typiskt högre latens. Man kommer också behöva sparar lite mer information om vilken adress man faktisk cachat då raden bara avslöjar några få bitar i adressen (de bitar man använder för att avgöra vilken rad man ska titta i), denna information kallas "cache line tag".

Här är en annan punkt där Intel typiskt är bättre redan i L1. Ofta har Intel högre "set" värde i L1 men samma latens, många av konkurrenterna har 2-set L1.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Permalänk
Moderator
Festpilot 2020, Antiallo
Skrivet av Calathea:

Läs nyheten...
"AMD Athlon II X4 860K har fyra kärnor enligt arkitekturen Steamroller och samma kisel som A-serien Kaveri. Skillnaden är att grafikdelen är avstängd samt att mängden L2-cacheminne halverats till 2 MB."

Själv tror jag definitivt detta kommer vara ett hårt slag mot prestandan.

Vilken miss jag gjorde.
Kan verkligen inte spekulera kring prestanda påverkan av detta men det kommer nog utan problem vara mätbart, frågan är om skillnaden blir så oerhört märkbar bara

Skrivet av virtual void:

"X-issue" betyder bara att designen på CPU-kärnan tillåter att upp till X arkitektur-instruktioner (d.v.s x86 instruktioner för Intel/AMD, internt kan en x86-instruktion delas upp i en eller flera enklare instruktioner) kan påbörjas. Både "nya" och "gamla" Atom samt Jaguar och Bobcat är alla 2-issue.

Så skillnaden mellan Silvermont och Jaguar är inte "bredden", några saker som skiljer är att Jaguar har mycket större interna köer och kan således hålla fler instruktioner "in-flight" (och A15 kan hålla fler än Jaguar). Jaguar kan utför upp till en läsning och en skrivning per cykel, Silvermont kan gör en läsning eller en skrivning per cykel, etc.

En cache beskrivs av egenskaper som storlek (som nog alla förstår), load-to-use latens (vilket är vad jag listade ovan, tiden i cykler från att CPU gör en minnesläsning till dess att data finns tillgängligt) och antal "set".

"set" kan man se som en byrå där antal "set" är antal lådor på samma höjd. Varje låda skulle då vara en "cache line" då det är utrymmet där cachat data sparas (typiskt 64 bytes i moderna CPUer).

En cache med 2 "set" (two set associative) och plats för totalt 8 cache lines skulle då visualiseras så här:

+---+---+ #3 | | | +---+---+ #2 | | | +---+---+ #1 | | | +---+---+ #0 | | | +---+---+

Varje RAM-adress kan bara sparas på en specifik rad i denna byrå, så en cache med 1-set skulle direkt få en kollision när två adresser som går till samma rad används medan en 4-set cache kan hantera upp till 3 kollisioner utan att behöva kasta ut något. I praktiken ger varje steg 1->2->4 set samma effekt som att dubbla storleken. Mer än fyra sett ger ganska liten effekt så typiskt har man 2-8 set i dagens CPUer.

Fördelen med många "set" är då rätt uppenbar, så vad är nackdelen? Är främst två, när man ska slå upp något måste man ju potentiellt titta i alla lådorna i en rad som motsvara adressen, så många "set" ger typiskt högre latens. Man kommer också behöva sparar lite mer information om vilken adress man faktisk cachat då raden bara avslöjar några få bitar i adressen (de bitar man använder för att avgöra vilken rad man ska titta i), denna information kallas "cache line tag".

Här är en annan punkt där Intel typiskt är bättre redan i L1. Ofta har Intel högre "set" värde i L1 men samma latens, många av konkurrenterna har 2-set L1.

Så som jag förstod x-issue betyder det att en x86 instruktion går att dela upp i flera olika simplare instruktioner, låt säga instruktion A, går att dela upp i ADD(addera), MOV(Flytta i minne) och CMP(Jämförelse). Att en 3-Issue skulle således kunna starta samtliga av instruktioner (inte nödvändigtvis samma ursprungsdata men en upprepning av instruktion A skulle således gå snabbare i en 3-issue än med en 2-issue under upprepade iterationer?

Eller är det bara rakt av att kärnan klarar av att påbörja flera simpla instruktioner simultant med olika data(mål i minnet), typ en addition och en subtraktion med en 2.issue?
Kanske ställer exakt samma fråga med olika formuleringar?

Så som du förklarar Cache set & lines så låter det precis som en minnesmatris, där man adresserar(hämtar RAM-addresser) en rad i taget, och varje "byrålåda" i denna rad är adresserings-kolumnen?

Tack för ditt tålamod.

Visa signatur

 | PM:a Moderatorerna | Kontaktformuläret | Geeks Discord |
Testpilot, Skribent, Moderator & Geeks Gaming Huvudadmin

Permalänk
Datavetare
Skrivet av DavidtheDoom:

Så som jag förstod x-issue betyder det att en x86 instruktion går att dela upp i flera olika simplare instruktioner, låt säga instruktion A, går att dela upp i ADD(addera), MOV(Flytta i minne) och CMP(Jämförelse). Att en 3-Issue skulle således kunna starta samtliga av instruktioner (inte nödvändigtvis samma ursprungsdata men en upprepning av instruktion A skulle således gå snabbare i en 3-issue än med en 2-issue under upprepade iterationer?

Eller är det bara rakt av att kärnan klarar av att påbörja flera simpla instruktioner simultant med olika data(mål i minnet), typ en addition och en subtraktion med en 2.issue?
Kanske ställer exakt samma fråga med olika formuleringar?

"issue width" är hur många x86/ARM/MIPS/whatever som kan påbörjas, är 4 på Bulldozer och Nehalem (och senare), är 2 på Silvermont/Jaguar, är 3 på Pentium III/Athlon/Krait/A15, är 6(!) på Apples A7. Vissa CPU-designer slår sedan isär dessa arkitektur-instruktioner i mindre enheter, Silvermont/Jaguar gör inte det men Bulldozer/Nehalem (och senare) gör detta. Fram till Ivy Bridge kunde 6 sådana interna instruktioner köras, i Haswell blev det 8 (men issue-width är fortfarande 4 på Haswell, 5 i speciella fall).

Men CPUer som Cortex A15 och Jaguar kan ändå börja jobba på mer än sin "issue width" antal instruktioner intern. Avkodaren kan max få iväg "issue width" instruktioner, men dessa kan sedan bli köade intern och från dessa interna köer kan upp till 8 instruktioner påbörjas i A15 (lika mycket som Haswell, men ändå inte riktigt äpplen mot äpplen då A15 har en statiskt partitionering medan Haswell dynamisk partitionerar mellan dessa 8). Går inte heller direkt att jämföra Jaguar och Silvermont här, Jaguar har 4 interna köer som delvis är dynamiska medan Silvermont har 6 interna köer som är statiska.

Skrivet av DavidtheDoom:

Så som du förklarar Cache set & lines så låter det precis som en minnesmatris, där man adresserar(hämtar RAM-addresser) en rad i taget, och varje "byrålåda" i denna rad är adresserings-kolumnen?

Man skulle kunna se det som rader och kolumner i en matris, raderna blir då vilken rad av lådor man ska titta i och kolumnen blir vilken byte inom den valda cache-linjen man vill ha. Sedan har man flera sådana matriser, vilket är antal "set".

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Permalänk
Medlem
Skrivet av Zotamedu:

internetcaféer i Kina? Det var en väldigt specifik marknad.

Det finns en hel del tydligen...

Men det som förvirrar mig är:
"Även här är kärnorna upplåsta för att underlätta vid överklockning."

Brukar internetcaféer sitta och överklocka alla 50 datorer de köper in, en och en eller??

Permalänk
Quizmaster Malmö 22

Nån annan som känner "jaha...." när man läser om AMD processorer?

Inte meningen o va taskig men jag känner så när jag ser AMDs nyheter.

Visa signatur

[Gigabyte EP35-DS4][Intel Core 2 Duo E8400 3.0 Ghz][2x2GB Corsair XMS 2][Gainward GTX 570][Sandisk Extreme II 480GB][Corsair HX 620W][Fractal Design Define XL R4][Acer GD245HQBID]

Permalänk
Medlem
Skrivet av Campaigner:

Nån annan som känner "jaha...." när man läser om AMD processorer?

Inte meningen o va taskig men jag känner så när jag ser AMDs nyheter.

Tyvärr håller jag med dig ang CPUerna. Inte GPUerna dock.

Saknar tiden då AMD 64x2 var kung, men Intel köpte sin marknad då...