AMD visar produktplaner fram till 2020 och avslöjar APU med uppemot 300 W TDP

Permalänk
Medlem
Skrivet av Haibane:

Nämn en processor eller APU, inte GPU eller instickskort, som drar 300W i dagsläget. Annan produkt andra förutsättningar.

"Ånej! Vi råkade bygga in en ARM-CPU i vår uppkommande Fiji-krets, helvete! Nu får den ju inte dra mer än 2W! :O"

Lägg ner tramset. Om du kallar det APU eller GPGPU med hjälpkärnor, CPU eller vad du vill ändrar inte på vad det är. Kan inte bara byta namn på något och helt plötsligt gäller helt andra fysikaliska lagar. En GPU kan utan problem dra 300W, om du gör den till en APU genom att lägga in en CPU begränsar den inte magiskt ner till 95W eller någon annan vanlig CPU-TDP. Den kan fortfarande dra 300W.

Skrivet av Haibane:

Det är just det, att prestanda fortfarande står i centrum snarare än energiförbrukning. Vi minskar energiförbrukningen för att kunna öka prestandan och hålla status quo med grafikkort och APUer som skalas upp för att dra 300W. Det jag hade hoppasts på är att vi istället börjar med att titta på energiförbrukningen och sedan prestandan. Att sätta prestandan först är engligt mig ett förlegat tankesätt även i HPC applikationer.

Adapteva är ett väldigt intressant företag som helt vänt upp och ned på detta. De har satt energieffektivitet i centrum men når fortfarande väldigt god prestanda. De påstår till deras produkter har "världens bästa prestanda/w". Källa:http://www.adapteva.com/introduction/

Prestanda/W står i centrum. Ibland kan man vid fundamentalt olika miljöer få andra infallsvinklar på problem som gör att man även kan effektivisera på annat håll. På så sätt har utvecklingen av GPU-kretsar för mobiler gynnat utvecklingen av grafikkort till stationära datorer. Men att begränsa en HPC-APU till 200W eller ens 100W istället för 300W ger inte alls några andra infallsvinklar. Man försöker fortfarande få så mycket prestanda som möjligt genom att på så många sätt som man bara kan komma på öka prestanda/watt.

Skrivet av Haibane:

Det förutsätter att kylningslösningen för ett produkt med 300W tdp är så pass mycket lägre att det lönar sig. Lagen om diminishing returns säger oftast att det inte är det. Att ha flera energisnåla enehter har visat sig gång på gång vara mer effektivt än att ha en energislukande enhet. Varför gick vi t.ex från enkärninga processorer till flerkärninga?

Lagen om diminishing returns gäller exemplariskt bra när det kommer till antalet CPU-kärnor. Men det kanske du missat? HPC-scenariot dessa processorer ska användas till använder GPU-kärnor mycket. Där vill man ha så många Tflops som möjligt per rack. Du kommer få fler Tflops med stora kretsar i hög frekvens än vad du kommer få med många små i samma rack.
Ska du ha 4000 eller 1000 shaders i en APU så kommer de göra anspråk på ungefär lika mycket yta på moderkort, med ungefär lika mycket kylning. Vilket sänker effektiviteten totalt sett. Kommer du ha 250MHz istället för 1000MHz på APUn så kommer det fortfarande ta upp ungefär lika mycket plats på moderkort, även om du kan få ner kylningen. I slutändan kommer du helt enkelt få behöva fler rack, nätdelar, moderkort, minnesmoduler och mer höghastighetskommunikation för att få det att fungera lika snabbt om du ska börja begränsa dina APU:er i onödan. Tror du tänker mer på dessa serveridéer med atom-processorer eller ARM-processorer där man faktiskt kan få in betydligt mer beräkningskapacitet genom att stoppa in fler enheter på moderkortet. Men det är ENBART för att man inte byggt ihop dem till större chip ännu. Intel har Knights Corner som exempel. Varför tror du att de har 72 kärnor på en 300W krets istället för 18 quadcores över ett helt moderkort?
Du tänker snävt. Att ha flera små snålare enheter som gör jobbet är effektivt, ja. Men det är ännu effektivare att bygga ihop dessa många små enheter.
4096 GPU-shaders kan göra mer än en högfrekvens-shader. Men 4096 shaders ihopbyggda i en GPU är överlägset 4096 individuella shaders i varsin krets på ett moderkort. Det är även överlägset 4 chip med vardera en fjärdedel av prestandan också ur såväl energieffektivitetsynpunkt som utrymmeseffektivitessynpunkt.

GPU:er är av naturen högst parallelliserbara, därför går det utmärkt att bygga dem stora. Även du måste ju inse att det finns en anledning till att man för parallelliserbara CPU-applikationer bygger ihop CPU-er till multicores istället för att köra med dem var för sig eller hur?

Kortsagt, energieffektivitet per enhet är viktigt, men fördelarna av att bygga ihop enheter till multienheter är också viktiga, och dessa tillvägagångssätt konkurrerar inte med varandra. Många snåla enheter är överlägsna en stor, men en APU på 300W är en extremt effektiviserad version av tusentals små enheter.

Permalänk
Quizmaster Malmö 22

Kul o veta vad de ska göra, fast så mycket info på en gång....jag vet att jag kommer glömma hälften snabbt :/

Visa signatur

[Gigabyte EP35-DS4][Intel Core 2 Duo E8400 3.0 Ghz][2x2GB Corsair XMS 2][Gainward GTX 570][Sandisk Extreme II 480GB][Corsair HX 620W][Fractal Design Define XL R4][Acer GD245HQBID]

Permalänk
Medlem
Skrivet av Aleshi:

"Ånej! Vi råkade bygga in en ARM-CPU i vår uppkommande Fiji-krets, helvete! Nu får den ju inte dra mer än 2W! :O"

Lägg ner tramset. Om du kallar det APU eller GPGPU med hjälpkärnor, CPU eller vad du vill ändrar inte på vad det är. Kan inte bara byta namn på något och helt plötsligt gäller helt andra fysikaliska lagar. En GPU kan utan problem dra 300W, om du gör den till en APU genom att lägga in en CPU begränsar den inte magiskt ner till 95W eller någon annan vanlig CPU-TDP. Den kan fortfarande dra 300W.

Jag syftade snarare på att APUer som vi känner det idag inte kommer som instickskort. De kommer som en diskret kapsel som fästs på moderkortet med en LGA lösning. Helt andra förutsättningar när det kommer till värmeledningsförmåga. Jag hoppades också jag var ganska klar med att jag inte uteslöt att AMD kanske gör en liknande lösning för denna APU.

Skrivet av Aleshi:

Prestanda/W står i centrum. Ibland kan man vid fundamentalt olika miljöer få andra infallsvinklar på problem som gör att man även kan effektivisera på annat håll. På så sätt har utvecklingen av GPU-kretsar för mobiler gynnat utvecklingen av grafikkort till stationära datorer. Men att begränsa en HPC-APU till 200W eller ens 100W istället för 300W ger inte alls några andra infallsvinklar. Man försöker fortfarande få så mycket prestanda som möjligt genom att på så många sätt som man bara kan komma på öka prestanda/watt.

Jag hoppades att min referens till adapteva hade kunnat bevisa att om man sätter ett design goal före ett annat så får man oftast helt olika arkitekturer. Men jag förstår vad du säger, en begränsning kanske bara är en begränsning i detta fall.

Skrivet av Aleshi:

Lagen om diminishing returns gäller exemplariskt bra när det kommer till antalet CPU-kärnor. Men det kanske du missat? HPC-scenariot dessa processorer ska användas till använder GPU-kärnor mycket. Där vill man ha så många Tflops som möjligt per rack. Du kommer få fler Tflops med stora kretsar i hög frekvens än vad du kommer få med många små i samma rack.
Ska du ha 4000 eller 1000 shaders i en APU så kommer de göra anspråk på ungefär lika mycket yta på moderkort, med ungefär lika mycket kylning. Vilket sänker effektiviteten totalt sett. Kommer du ha 250MHz istället för 1000MHz på APUn så kommer det fortfarande ta upp ungefär lika mycket plats på moderkort, även om du kan få ner kylningen. I slutändan kommer du helt enkelt få behöva fler rack, nätdelar, moderkort, minnesmoduler och mer höghastighetskommunikation för att få det att fungera lika snabbt om du ska börja begränsa dina APU:er i onödan. Tror du tänker mer på dessa serveridéer med atom-processorer eller ARM-processorer där man faktiskt kan få in betydligt mer beräkningskapacitet genom att stoppa in fler enheter på moderkortet. Men det är ENBART för att man inte byggt ihop dem till större chip ännu. Intel har Knights Corner som exempel. Varför tror du att de har 72 kärnor på en 300W krets istället för 18 quadcores över ett helt moderkort?
Du tänker snävt. Att ha flera små snålare enheter som gör jobbet är effektivt, ja. Men det är ännu effektivare att bygga ihop dessa många små enheter.
4096 GPU-shaders kan göra mer än en högfrekvens-shader. Men 4096 shaders ihopbyggda i en GPU är överlägset 4096 individuella shaders i varsin krets på ett moderkort. Det är även överlägset 4 chip med vardera en fjärdedel av prestandan också ur såväl energieffektivitetsynpunkt som utrymmeseffektivitessynpunkt.

Diminishing returns gäller också ökad integration. Ju mer logik du trycker in per ytenhet desto större blir värmedensiteten. Högre värmeutveckling leder till att man får tumma på t.ex klockfrekvenser för att hålla värmeutvecklingen i styr. TitanX presterar t.ex inte linjärt med antalet cores jämfört med ett 980.

Skrivet av Aleshi:

Kortsagt, energieffektivitet per enhet är viktigt, men fördelarna av att bygga ihop enheter till multienheter är också viktiga, och dessa tillvägagångssätt konkurrerar inte med varandra. Många snåla enheter är överlägsna en stor, men en APU på 300W är en extremt effektiviserad version av tusentals små enheter.

Bra slutsats. Jag kom in i debatten lite snett och tänker snarare på persondatorer än stora HPC system. Ställer mig fortfarande kritisk till om det är fysiskt möjligt att kyla ett "processorlikt chip" på 300W, blir intressant att se när och om de lanseras.

Visa signatur

5800X3D, ASUS TUF 4080 , 32 GB G.SKILL Tridentz 3600cl16, Gigabyte x570 wifi pro, Samsung 960 EVO 512GB, Corsair SF750, Xtia Xproto-L

Permalänk
Medlem
Skrivet av Haibane:

Nämn en processor eller APU, inte GPU eller instickskort, som drar 300W i dagsläget. Annan produkt andra förutsättningar.

Det är just det, att prestanda fortfarande står i centrum snarare än energiförbrukning. Vi minskar energiförbrukningen för att kunna öka prestandan och hålla status quo med grafikkort och APUer som skalas upp för att dra 300W. Det jag hade hoppasts på är att vi istället börjar med att titta på energiförbrukningen och sedan prestandan. Att sätta prestandan först är engligt mig ett förlegat tankesätt även i HPC applikationer.

Adapteva är ett väldigt intressant företag som helt vänt upp och ned på detta. De har satt energieffektivitet i centrum men når fortfarande väldigt god prestanda. De påstår till deras produkter har "världens bästa prestanda/w". Källa:http://www.adapteva.com/introduction/

Vad gäller kostnad är det antagligen så att två enheter är dyrare än en, det påverkar givetvis prestanda/krona negativt. Att detta ses som viktigast i HPC sammanhang är rationellt ur ett ekonomisk perspektiv men fel rent miljömässigt.

Power7 IH
MCM med 4x 8 core chip plus minneskontroller. Drar 800W eller 200W per CPU chip.
http://www.theregister.co.uk/Print/2009/11/27/ibm_power7_hpc_...

Om Power 8 kommer som MCM vem vet men det talas om 130-200W per chip där med.
http://wccftech.com/ibm-power8-processor-architecture-detaile...

Men det är inget nytt med extremt törstiga chip och dessutom flera av dessa i en och samma förpackning.
När Cray fortfarande designade egna processorer hade dom tex i SV-2:an 4st Vector processorer på 100W var med 4st cache chip på 60W var per förpackning likt vad intel och AMD gör i bland tex med Q6600 från intel eller AMD med opteron på G34 socklen.

men som sagt det har i många år gjorts 200W+ chip. I superdatorer vattenkyls dom ofta för det är mycket smidigare i storskaliga anläggningar. Men det förhindrar inte luftkylning då det valet ofta finns med om kunden önskar. Densiteten i racket blir ofta mindre dock.

Kyla ett chip på 300W är inget problem, det görs ju regelbundet i personmdatorer i dag, GPU:er tex. Igen som helst skillnad.
Servrar kör i dag med flera 250W Tesla, Xeon Pi och liknande med enbart slot 2 fläns och chassifläktar i racket lådan.

Igen som helst skillnad på att kyla en 300W CPU och en 300W GPU om dom har samma area. en APU på 300W som det är tal om kommer till stor del utgöras av GPU delen. Att intergrera processorn tillåter dessa att dela minne fysiskt med högsta möjliga banbred och lägsta möjliga latens och det tillåter resurser att delas mellan processor och GPU för att allt mer sudda ut gränsen för vad som är CPU och vad som är GPU.

Bara trams att det inte skulle gå att kyla en 300W CPU eller GPU. Det görs hela tiden.

Permalänk
Medlem
Skrivet av Vatten:

När Athlon XP var populära stekte folk ägg på sina processorer. Nu kanske det går att koka en soppa?

Hur tusan ska man annars få Kaffe ur datorn?
Kan också användas för att hålla det varmt

Permalänk
Medlem
Skrivet av pa1983:

Power7 IH
MCM med 4x 8 core chip plus minneskontroller. Drar 800W eller 200W per CPU chip.
http://www.theregister.co.uk/Print/2009/11/27/ibm_power7_hpc_...

Om Power 8 kommer som MCM vem vet men det talas om 130-200W per chip där med.
http://wccftech.com/ibm-power8-processor-architecture-detaile...

Men det är inget nytt med extremt törstiga chip och dessutom flera av dessa i en och samma förpackning.
När Cray fortfarande designade egna processorer hade dom tex i SV-2:an 4st Vector processorer på 100W var med 4st cache chip på 60W var per förpackning likt vad intel och AMD gör i bland tex med Q6600 från intel eller AMD med opteron på G34 socklen.

men som sagt det har i många år gjorts 200W+ chip. I superdatorer vattenkyls dom ofta för det är mycket smidigare i storskaliga anläggningar. Men det förhindrar inte luftkylning då det valet ofta finns med om kunden önskar. Densiteten i racket blir ofta mindre dock.

Kyla ett chip på 300W är inget problem, det görs ju regelbundet i personmdatorer i dag, GPU:er tex. Igen som helst skillnad.
Servrar kör i dag med flera 250W Tesla, Xeon Pi och liknande med enbart slot 2 fläns och chassifläktar i racket lådan.

Igen som helst skillnad på att kyla en 300W CPU och en 300W GPU om dom har samma area. en APU på 300W som det är tal om kommer till stor del utgöras av GPU delen. Att intergrera processorn tillåter dessa att dela minne fysiskt med högsta möjliga banbred och lägsta möjliga latens och det tillåter resurser att delas mellan processor och GPU för att allt mer sudda ut gränsen för vad som är CPU och vad som är GPU.

Bara trams att det inte skulle gå att kyla en 300W CPU eller GPU. Det görs hela tiden.

Jag har redan blivit överbivisad att hög energiförbrukning i HPC sammanhang är försvarbart och lärt mig något nytt på kuppen, men jag inte har sagt "att det inte går att kyla <300W". Jag bad om en processor i en enkel inkapsling, inte en MCM modul, som man enkelt hade kunnat avlägsna 300W värme från i en vanlig konsument dator alternativt i ett serverrack. Detta med vanlig luftkylning, inte vattenkylning. Nu går det bevisligen att göra det om man har en MCM processor med IHS stor som en guldtacka...

Även för större chip är det ett fysiskt problem att föra bort stora mängder värme. Titta t.ex på guru3ds review av titanX http://www.guru3d.com/articles_pages/nvidia_geforce_gtx_titan_x_review,10.html. Stort chip, väl tilltagen kytlningslösning men likväl temperaturer nära 100C. Jag vidhåller fortfarande att en GPU, pga att den huseras på ett instickskort och är fäst med en BGA lösning (eventuellt med underfill) borde ha mindre termisk resistans än en "vanlig" CPU lösning.

Visa signatur

5800X3D, ASUS TUF 4080 , 32 GB G.SKILL Tridentz 3600cl16, Gigabyte x570 wifi pro, Samsung 960 EVO 512GB, Corsair SF750, Xtia Xproto-L

Permalänk
Medlem
Skrivet av Haibane:

Jag syftade snarare på att APUer som vi känner det idag inte kommer som instickskort. De kommer som en diskret kapsel som fästs på moderkortet med en LGA lösning. Helt andra förutsättningar när det kommer till värmeledningsförmåga. Jag hoppades också jag var ganska klar med att jag inte uteslöt att AMD kanske gör en liknande lösning för denna APU.

Jag hoppades att min referens till adapteva hade kunnat bevisa att om man sätter ett design goal före ett annat så får man oftast helt olika arkitekturer. Men jag förstår vad du säger, en begränsning kanske bara är en begränsning i detta fall.

Diminishing returns gäller också ökad integration. Ju mer logik du trycker in per ytenhet desto större blir värmedensiteten. Högre värmeutveckling leder till att man får tumma på t.ex klockfrekvenser för att hålla värmeutvecklingen i styr. TitanX presterar t.ex inte linjärt med antalet cores jämfört med ett 980.

Bra slutsats. Jag kom in i debatten lite snett och tänker snarare på persondatorer än stora HPC system. Ställer mig fortfarande kritisk till om det är fysiskt möjligt att kyla ett "processorlikt chip" på 300W, blir intressant att se när och om de lanseras.

Tror vi får se lite hur det utvecklas, jag är positiv för framtiden på den här punkten.
Men ja olika designmål ger ju olika val. Tror bara skillnaden måste vara större för för att det verkligen ska ge olika mål i det här fallet.
En sak jag tänkte på, måste vara lättare att sänka snittförbrukningen när mer saker integreras. Mycket lättare att få samspel i lågenergilägen tänker jag. Lättare att helt stänga av delar av chip helt än att stänga av massa olika chip, men det är väl inte helt relevant i detta fallet.

Det jag tycker är lite spännande också är ju om dessa produkter kan smitta av sig till Steammachines. En 150W klump utan mycket mer än en SSD, USB-kontakter och video/ljud utgång borde vara enkelt att få tillräckligt liten, kompakt och tyst för vardagsrummet.

Permalänk
Medlem
Skrivet av pa1983:

Tyvärr inte sant. Bara läsa datablad för intels processorer. Många blandar tyvärr i hop Tcase från AMD och Intel med kislets tempratur eller då tjmax.
Tcase är centrum på övre sidan av IHS och då värme bara flyttar sig till ett kallare område och med termiska resistansen i IHS'en så är alltid Tcase lägre än tjmax ofta med flera tiotals grader.
Den tempraturen står i direkt relation till processorns energiförbrukning så varierar mellan modellerna dessutom.

En intel CPU, vilken core i3, i5 eller i7 sedan första generationen har haft max temperatur satt till ca 100C tjmax vilket är kislet. Vissa ligger på 95 andra upp mot 105 men 100 har varit vanligast.

Bara läsa intels datablad. 80C ska en intel CPU klara 24/7 under full belastning utan problem om man ska tro intel själva och det stämmer nog för runt 80C har i många år varit en accepterad temperatur för moderna processorer där dom fortfarande inte påverkas allt för negativt av temperaturen i det långa loppet.

Så det är inte någon större skillnad på en CPU eller GPU ur temperatursynpunkt och intel tror så starkt på sina processorer att dom tom låter haswell och haswell refersh stock kylare vara så undermålig att processorn under AVX2.0 laster når 100C och throttlar delvis med 2-3% prestanda förlust. Intel designad processorn på så vis och det finns tester på detta.
Så nej CPU eller GPU i dagsläget tål båda ungefär samma temperaturer.
Vad jag läst ska intel i framtiden styra frekvensen efter instruktionerna som kör för att bättre hålla TDP och temperatur oavset last.

Stora problemet för vanligt folk är att sensorerna inte är kalibrerade och inte är tänkta att användas som ett exakt mått på temperaturen hos chipet av slutanvändaren. AMD är rätt kända för kassa sensorer i sina processorer.

En stock kylare ska klara processorn och det är vad AMD/Intel garanterar allt utöver det är egentligen ointressant för tillverkaren.
Så det man som kund kan göra är att kolla vad tempraturtolleranserna är för sin CPU och då helst kislet inte Tcase utan tjmax och det är ofta runt 100C. Inte alltid man kan få reda på vad just kislets max temperatur är utan Tcase är rätt vanligt, går att mäta med en sond nämligen så enklare att testa i labbmiljö.

Men jämför med GPU-er som ligger på 95W som arbetstemperatur. Jag vet inte någon processor som har det som måltemperatur. Verkar överlag vara så att en temperatur som är okej på ett grafikkort kan ge problem på processorer. Funderat på om det har med arbetsfrekvens att göra, eller om GPU-er har mer uniform värmealstring över stora ytor med shaders medan processorer har hotspots kring de mycket små ytorna där vi har beräkningsenheterna.

Permalänk
Medlem
Skrivet av Aleshi:

En sak jag tänkte på, måste vara lättare att sänka snittförbrukningen när mer saker integreras. Mycket lättare att få samspel i lågenergilägen tänker jag. Lättare att helt stänga av delar av chip helt än att stänga av massa olika chip, men det är väl inte helt relevant i detta fallet.

Integration har många fördelar helt klart. Jag är allmänt facinerad av alla strömsparlägen som tillverkarna lyckas få till. Det är betydligt svårare än man tänker sig och det är en balansgång mellan area overhead (strömsparlägena kräver extra logik) och performance overhead (att starta upp avstängda delar alternativt sätta fart på bromsad logik kostar processorcykler).

Skrivet av Aleshi:

Det jag tycker är lite spännande också är ju om dessa produkter kan smitta av sig till Steammachines. En 150W klump utan mycket mer än en SSD, USB-kontakter och video/ljud utgång borde vara enkelt att få tillräckligt liten, kompakt och tyst för vardagsrummet.

Med DX12 verkar ju den relativt klena processordelen i dagens (framtidens ?) APUer bli mindre av en flaskhals med, bådar gott för soff-gaming

Visa signatur

5800X3D, ASUS TUF 4080 , 32 GB G.SKILL Tridentz 3600cl16, Gigabyte x570 wifi pro, Samsung 960 EVO 512GB, Corsair SF750, Xtia Xproto-L

Permalänk
Medlem

Ryktet hittills

16 Zen-kärnor i grupper om 4 med HT.
HBM + 4 kanaler DDR4
Greenland GPU, Fiji-deriverad grafikdel.
14nm
Coherent Fabric, en ny kommunikation mellan CPU, GPU och minne.

http://www.nordichardware.se/CPU/Styrkrets/amds-zen-x86-apu-f...

300W TDP går att ursäkta isf. Men jag känner ju att Zen-kärnorna kan bli hur förbannat snabba de vill, bandbredden kommer nog aldrig flaska ändå.

Permalänk
Entusiast
Skrivet av pa1983:

Power7 IH
MCM med 4x 8 core chip plus minneskontroller. Drar 800W eller 200W per CPU chip.
http://www.theregister.co.uk/Print/2009/11/27/ibm_power7_hpc_...

Om Power 8 kommer som MCM vem vet men det talas om 130-200W per chip där med.
http://wccftech.com/ibm-power8-processor-architecture-detaile...

Men det är inget nytt med extremt törstiga chip och dessutom flera av dessa i en och samma förpackning.
När Cray fortfarande designade egna processorer hade dom tex i SV-2:an 4st Vector processorer på 100W var med 4st cache chip på 60W var per förpackning likt vad intel och AMD gör i bland tex med Q6600 från intel eller AMD med opteron på G34 socklen.

men som sagt det har i många år gjorts 200W+ chip. I superdatorer vattenkyls dom ofta för det är mycket smidigare i storskaliga anläggningar. Men det förhindrar inte luftkylning då det valet ofta finns med om kunden önskar. Densiteten i racket blir ofta mindre dock.

Kyla ett chip på 300W är inget problem, det görs ju regelbundet i personmdatorer i dag, GPU:er tex. Igen som helst skillnad.
Servrar kör i dag med flera 250W Tesla, Xeon Pi och liknande med enbart slot 2 fläns och chassifläktar i racket lådan.

Igen som helst skillnad på att kyla en 300W CPU och en 300W GPU om dom har samma area. en APU på 300W som det är tal om kommer till stor del utgöras av GPU delen. Att intergrera processorn tillåter dessa att dela minne fysiskt med högsta möjliga banbred och lägsta möjliga latens och det tillåter resurser att delas mellan processor och GPU för att allt mer sudda ut gränsen för vad som är CPU och vad som är GPU.

Bara trams att det inte skulle gå att kyla en 300W CPU eller GPU. Det görs hela tiden.

Fast en GPU drar i regel inte 300 W utan hela kortet drar 300 W. VRAM och VRM står för en icke försumbar del av den värmeutvecklingen.

Sen borde det inte vara så svårt att kyla en processor på 300 W då arean under IHS lär vara rätt stor jämfört med dagens CPUer. Begränsningen i kylning av CPUer ligger i värmetransporten från IHS till heatpipes som det ser ut nu och problemet är att det är en väldigt liten kärna mot en stor metallbit. Finns många tornkylare som är specade på över 200 W. Så länge AMD designar chippen väl så att du får en jämn spridning av värme över hela chippets area och inte några specifika hot spots så borde 300 W inte vara några större problem.

Sen skulle det inte förvåna mig om de inte släpper de värsta 300 W-enheterna till vanliga konsumenter utan reserverar dem för HPC-marknaden. Där har de betydligt bättre kontroll på kylningen. Hemmadatorer står ju generellt på dåliga ställen, i varma rum och de blir dessutom fulla av damm efter ett år. Det är lite andra förutsättningar men en 200 W APU kan vara riktigt intressant. Går ju att få in ett GTX 970 och en i7 eller i5 på den värmebudgeten.

Visa signatur

Q9450, HD4850, 8 GB DDR2 800 MHz, 3x750 GB, Antec 300, Dell 2408WFP, U2410, Qnap TS-419p+ 4x2 TB Samsung F4, Asus UL30A-QX056V, Logitech Z-680, Sennheiser HD380pro, M-Audio FastTrack Pro, Ibanez sa160qm, Ibanez TB 15R, Zoom 505II, Ibanez GSR 200, Ibanez SW 35, Cort AC-15, Squier SD-3 BBL, Yamaha PSR 270, Røde NT1-A, Nikon D200, Nikkor 18-70/3,5-4,5, 70-300VR, 50/1,8, 28/2,8, Tamron 17-50/2,8, 90/2,8, Sigma 30/1,4, SB-800, SB-25, SB-24

Permalänk
Medlem
Skrivet av Vatten:

När Athlon XP var populära stekte folk ägg på sina processorer. Nu kanske det går att koka en soppa?

Och innan dess så smälte jag tenn på en i80286 8MHz (eller 10MHz kommer inte ihåg) i en IBM M60

Men uppriktigt så var det ju ett dåligt stöd av energisparfunktionen i Windows för Atlon XP som gjorde det möjligt, tog ett par år innan stödet kom.
M$ har ju historiskt varit dåliga på att implementera support till AMD CPU'er och till viss del även GPU'er, medan stöd till Intel skett före lansering.

Visa signatur

Engineer who prefer thinking out of the box and isn't fishing likes, fishing likes is like fishing proudness for those without ;-)
If U don't like it, bite the dust :D
--
I can Explain it to you, but I can't Understand it for you!

Permalänk
Medlem
Skrivet av Luminous:

300W
...
...
Holy SHIT!

Som sagt, det är inget konstigt för denna typ av grejer.

Permalänk
Medlem
Skrivet av Aleshi:

Ryktet hittills

16 Zen-kärnor i grupper om 4 med HT.
HBM + 4 kanaler DDR4
Greenland GPU, Fiji-deriverad grafikdel.
14nm
Coherent Fabric, en ny kommunikation mellan CPU, GPU och minne.

http://www.nordichardware.se/CPU/Styrkrets/amds-zen-x86-apu-f...

300W TDP går att ursäkta isf. Men jag känner ju att Zen-kärnorna kan bli hur förbannat snabba de vill, bandbredden kommer nog aldrig flaska ändå.

Rätt intressant, tar text direkt från länken:
"Den Zen-baserade APU-familjen ska komma med nya CPU-moduler som med vardera fyra CPU-kärnor ska ge APU-kretsar med upp till totalt 16 CPU-kärnor. Varje Zen-modul ska innehålla fyra CPU-kärnor med dedikerat L2 cacheminne medan de fyra kärnorna i varje modul delar på en L3 cache och kommunicerar med en dedikerad GPU-krets på samma kisel med en teknik kallad Coherent Fabric. Denna lösning ska eliminera latenser från PCI Express gränssnittet samtidigt som supersnabbt HBM-grafikminne placeras intill grafikkretsen."

Det blir ju 4x CPU med varsin L1 och L2 cache, en L3 cache för dessa fyra samt GPU och HBM för varje modul, som då är grunden.
Tidigare har det nämnts 95W, är ju inte helt orimligt att det är för en modul om man ser att 4x moduler kan dra upp till 300W.

300W är säkert avsett for HPC och frågan är då om dessa 300W är från MCM = två substrat med 2x moduler vardera, om så så är det ju troligt med upp till 150W på konsumentsidan.

Men mest intressant är nog ändå att varje modul har en egen GPU vilket ju bör innebära en form/variant av CrossfireX!

Visa signatur

Engineer who prefer thinking out of the box and isn't fishing likes, fishing likes is like fishing proudness for those without ;-)
If U don't like it, bite the dust :D
--
I can Explain it to you, but I can't Understand it for you!

Permalänk
Skrivet av Bengt-Arne:

Rätt intressant, tar text direkt från länken:
"Den Zen-baserade APU-familjen ska komma med nya CPU-moduler som med vardera fyra CPU-kärnor ska ge APU-kretsar med upp till totalt 16 CPU-kärnor. Varje Zen-modul ska innehålla fyra CPU-kärnor med dedikerat L2 cacheminne medan de fyra kärnorna i varje modul delar på en L3 cache och kommunicerar med en dedikerad GPU-krets på samma kisel med en teknik kallad Coherent Fabric. Denna lösning ska eliminera latenser från PCI Express gränssnittet samtidigt som supersnabbt HBM-grafikminne placeras intill grafikkretsen."

Det blir ju 4x CPU med varsin L1 och L2 cache, en L3 cache för dessa fyra samt GPU och HBM för varje modul, som då är grunden.
Tidigare har det nämnts 95W, är ju inte helt orimligt att det är för en modul om man ser att 4x moduler kan dra upp till 300W.

300W är säkert avsett for HPC och frågan är då om dessa 300W är från MCM = två substrat med 2x moduler vardera, om så så är det ju troligt med upp till 150W på konsumentsidan.

Men mest intressant är nog ändå att varje modul har en egen GPU vilket ju bör innebära en form/variant av CrossfireX!

För server kanske dom arbetar individuellt.
Ska fyra kärnor dela på L3 cache ? Låter som misslyckad bulldozer lansering, gör som intel och ha en för varje kärna (Hoppas jag har fel dock, dom kan ju fixat L3 cache bristen som var i bulldozer).

Jaja Får hoppas dom inte gör en bulldozer numer två. Räcker med dom förstört APU:erna med modultänket.

Visa signatur

Min spel rigg:FD Define R4|VX 550W|i5 2500K|Corsair LP 4GBX2|Mammabräda P67 Extreme4|GTX 670 windforce|23tum u2312hm
Min gamla/HTPC:AMD 6000+|Ram 2GbX2|Radeon HD5770| XFX 450/nu XFX 550
Mitt bygge: ByggloggFri frakt INET:Fraktfritt sweclockers vid köp över 500kr

#Gilla inlägg som är bra & Använd citera/@"namn" vid snabbt svar

Permalänk
Medlem

APU uppemot 300W låter inte orimligt och det på 10 nm får man hoppas. Många glömmer att kommande grafik i VR miljö i låt säga 8k kräver massor med kretsar. Grafik har ingen fri lunch, vad du däremot kan göra är bättre reglering och avstängning av kretsar för att minska genomsnittsförbrukningen. Ett totalt SoC/APU med allt utom minneslagring är nog vad framtiden kommer att ge oss på de kraftigare datorerna. Totalt SoC/APU inklusive minneslagring dyker säkert upp i låg energi produkter. Dedikerade grafikkort är en döende ras för den vanliga konsumenten.

Permalänk
Medlem

Det är sorgligt om de väljer att ta bort CMT helt från processorn. Det är en fenomenal uppfinning enligt mig som minskar onödig overhead just bara för att kärnan inte skall behöva beräkna heltal med en flyttalsenhet - CMT gör precis tvärtom. Anledningen till att Bulldozer varit misslyckat är antagligen på grund av att AMD hållt sig på en för hög nm som i sin tur hållt strömförbrukningen väldigt hög. Skulle de sänka nanometern och strömförbrukningen skulle jag hellre köra en fyrmodulig AMD med CMT än en fyrkärnig Intel med HT.

Visa signatur

Kör Linux - Yes! We are the 2 percent! And growing... Föreslå inte ens något Windows-exklusivt om jag inte specifikt frågar efter något till Win.
2600K - 18GB RAM - 1TB HDD - 64GB SSD - GTX 650 Ti Boost
Minnesvärda trådar: 1, 2

Permalänk
Medlem
Skrivet av Broken-arrow:

För server kanske dom arbetar individuellt.
Ska fyra kärnor dela på L3 cache ? Låter som misslyckad bulldozer lansering, gör som intel och ha en för varje kärna (Hoppas jag har fel dock, dom kan ju fixat L3 cache bristen som var i bulldozer).

Jaja Får hoppas dom inte gör en bulldozer numer två. Räcker med dom förstört APU:erna med modultänket.

Intressant!
Vilken Intel CPU har L3 cache helt dedikerad tíll var kärna?

Visa signatur

Engineer who prefer thinking out of the box and isn't fishing likes, fishing likes is like fishing proudness for those without ;-)
If U don't like it, bite the dust :D
--
I can Explain it to you, but I can't Understand it for you!

Permalänk
Medlem
Skrivet av dahippo:

APU uppemot 300W låter inte orimligt och det på 10 nm får man hoppas. Många glömmer att kommande grafik i VR miljö i låt säga 8k kräver massor med kretsar. Grafik har ingen fri lunch, vad du däremot kan göra är bättre reglering och avstängning av kretsar för att minska genomsnittsförbrukningen. Ett totalt SoC/APU med allt utom minneslagring är nog vad framtiden kommer att ge oss på de kraftigare datorerna. Totalt SoC/APU inklusive minneslagring dyker säkert upp i låg energi produkter. Dedikerade grafikkort är en döende ras för den vanliga konsumenten.

Alla rykten säger 14nm... Men det är klart, man kan alltid hoppas

Det har ju länge varit en trend, att allt flyttar in i en krets.

Visa signatur

Engineer who prefer thinking out of the box and isn't fishing likes, fishing likes is like fishing proudness for those without ;-)
If U don't like it, bite the dust :D
--
I can Explain it to you, but I can't Understand it for you!

Permalänk
Medlem
Skrivet av Erwya:

Det är sorgligt om de väljer att ta bort CMT helt från processorn. Det är en fenomenal uppfinning enligt mig som minskar onödig overhead just bara för att kärnan inte skall behöva beräkna heltal med en flyttalsenhet - CMT gör precis tvärtom. Anledningen till att Bulldozer varit misslyckat är antagligen på grund av att AMD hållt sig på en för hög nm som i sin tur hållt strömförbrukningen väldigt hög. Skulle de sänka nanometern och strömförbrukningen skulle jag hellre köra en fyrmodulig AMD med CMT än en fyrkärnig Intel med HT.

CMT var vettigt i teorin men hur AMD implementerade det gjorde det rätt värdelöst.
Det kom på bekostnad av prestanda per kärna och dessutom var resurserna per kärna för få så som att dela decoder.
Så nej CMT var kasst och tom AMD erkände att det inte var rätt väg.
Kanske hade fungerat för dom om dom breddat varje kärna att matcha intel eller i alla fall pehneom 2 vilket många nog trodde. Men Bulldozer var mindre parallell inuti och påminde därför om netbrust arkitekturen som vi alla vet hur kass den var. Intel la ner den med.

Och vad du säger Makes No Sense.
CMT eller SMT påverkar inte vilka typer av exekveringsenheter processorn använder för att utföra instruktioner.
Det är ju en del av instruktionen eller då ISA't så det ska inte ändras pga CMT eller SMT.
Val av instruktion i programmets kod avgör ju vilken exekveringsenhet som används.

Det ända Bulldozer kunde göra var att låna flytalsenheten från den andra kärnan i en modul för att utföra AVX instruktioner då båda flytalsenhetnerna behövdes för detta. Men som sagt förändrar inget. Sedan hade bulldozer 2st ALU's som exempel per kärna. Intel hade 4st per kärna.
Bulldozer är betydligt klenare ur alla perspektiv när det gäller heltal eller flyttal per tråd.
Dessutom tar 4st moduler avsevärt fler transistorer än tex 4 eller 6 kärnig intel CPU och trots det kan bulldozer knappt konkurrerar med en i5 med 4 kärnor utan SMT.
SMT som även AMD lär gå över till har fördelen att alla trådar på en kärna delar alla exekveringsenheter så det är avsevärt mer effektivt ur resurssynpunkt och kräver bara 3-5% fler transistorer till kanske 10% mer energiförbrukning för att ge vinst om 20-60%.
CMT visade sig ju kräva avsevärt fler transistorer, 1.3 miljarder för 4 moduler för att knappt matcha en fyrkärnig Intel CPU med HT på 7-800M transistorer är inte effektivt.
Sedan var inte CMT effektivare än HT i flertrådade laster sett till prestanda enbart om vi inte tar in prestanda per watt. Men tyvärr presterade processorerna dåligt i fåtrådade laster vilket i slutändan ger SMT bättre prestanda per watt, bäst singel trådade prestanda och minst lika bra prestanda i flertrådade program så poängen med CMT för AMD existerade i princip inte.

Stora problemet med CMT är att en tråd i en modul ALDRIG har full tillgång till alla resurser. Det är en av idéerna med CMT men också varför det faller pladask. Varför ha hälften av alla ALU's sittandes och inte göra något om den andra tråden skulle kunnat nyttja dom resurserna? Nu i efterhand framstår det mest som ett dumt val av AMD.
SMT bygger helt på att en tråd ska kunna nyttja alla lediga resurser vilket Intel, IBM, SUN och många fler kör på.
CMT fungerar i princip bara som jag ser det där man har så mycket resurser per kärna att det inte är realistiskt att tro att en tråd kan nyttja alla ALU's tex oavset scenario. Men det faktum att intel redan har 2x mer resurser per kärna än AMD säger ju som sagt motsatsen.
Det hade varit bättre för AMD om dom valt SMT över CMT när dom designade bulldozer. Den kanske inte hade flertrådat bättre men presterat bättre i fåtrådade uppgifter.

CMT har inte haft några designvinster ännu för AMD. Det finns meriter för CMT och andra försöker sig på det men som sagt SMT är klart vanligare och visat sig mycket effektivt och flexibel.
CMT kan vara vettigt om man inte behöver tex mycket flyttalsprestanda, var lite AMD's argument men samtidigt strippade dom bort heltalsprestanda, ALU's och lät en modul ha en Fetch och Decoder vilket i praktiken begränsade IPC:n till 4 per modul vilket intel lätt kan matcha med 4-5 per kärna i sina processorer.
Så konceptet föll helt enkelt för dom strippade ner vitala delar av processorn också jämfört med konkurrenterna.

Iden var bra, utförandet var katastrof för AMD.
Tom jag trodde på CMT men det hela baserades på att kärnorna var minst lika parallella internt som intels dito. Faktum är att Phenom har mer resurser per kärna än bulldozer.

Skrivet av Bengt-Arne:

Intressant!
Vilken Intel CPU har L3 cache helt dedikerad tíll var kärna?

Ja jag undrar det samma.

Sist jag kollade hade min i7 3930K 12MB delat L3 cache lika så har min i3 4360 delat 4Mb L3 cache.
Skulle inte vilja ha det på nåt annat vis heller. Om något i dag är det extremt viktigt att processorer kan synkronisera sina cachw fort med allt fler kärnor och fletrådade program för att minimera prestanda förluster.

Bulldozers problem var aldrig mängden cache heller. Var andra problem med cache designen som ställde till det för AMD.
Delat L3 cache var är och framtiden. Finns igen vits med separat cache per kärna så tror han tänker fel där bara.

Permalänk
Medlem
Skrivet av Bengt-Arne:

Rätt intressant, tar text direkt från länken:
"Den Zen-baserade APU-familjen ska komma med nya CPU-moduler som med vardera fyra CPU-kärnor ska ge APU-kretsar med upp till totalt 16 CPU-kärnor. Varje Zen-modul ska innehålla fyra CPU-kärnor med dedikerat L2 cacheminne medan de fyra kärnorna i varje modul delar på en L3 cache och kommunicerar med en dedikerad GPU-krets på samma kisel med en teknik kallad Coherent Fabric. Denna lösning ska eliminera latenser från PCI Express gränssnittet samtidigt som supersnabbt HBM-grafikminne placeras intill grafikkretsen."

Det blir ju 4x CPU med varsin L1 och L2 cache, en L3 cache för dessa fyra samt GPU och HBM för varje modul, som då är grunden.
Tidigare har det nämnts 95W, är ju inte helt orimligt att det är för en modul om man ser att 4x moduler kan dra upp till 300W.

300W är säkert avsett for HPC och frågan är då om dessa 300W är från MCM = två substrat med 2x moduler vardera, om så så är det ju troligt med upp till 150W på konsumentsidan.

Men mest intressant är nog ändå att varje modul har en egen GPU vilket ju bör innebära en form/variant av CrossfireX!

Nej, GPU är inte per modul, det är NHs formulering som luras. Står inget om det i deras källa. Ingen mening med att ha flera separata GPU:er på samma kisel. Och nej, det är inte 4 moduler som ska dra 300W. Det är antagligen främst en riktigt fet GPU som drar det mesta av de 300 watten. Zen ska vara 4-8 kärnor för konsument under 95W. 300W-grejen är mer som en fet GPU med lite kärnor ute på ena kanten. Finns ingen information om att HPC-APUn ens kommer med Zen kärnor, kanske är K12-kärnor i den.

Tror att det blir lite förvirrande om vi kallar dessa subenheter för moduler. Men jag tror det är en produkt av AMDs M-Space, modulär processordesign där man lättare ska kunna utveckla olika produkter med samma byggstenar. Då har de valt att göra en quadcore-byggsten med egen L3 som man helt enkelt duplicerar i varianter med 8-kärnor. Med Coherent Fabric så kan man lättare sätta ihop olika byggstenar för att bygga APU-enheter och ha samma plattform för K12 och Zen, ja man kan väl bygga processorer eller APU-er med både K12 och Zen på samma krets i princip.

Tror vi inledningsvis bara får se en enda Zen-byggsten i olika utföranden, ibland i par i samma kisel och ibland 4 kopior på ett kisel för t.ex. server. Ibland med en GPU, ibland med en annan och kanske ibland utan. Inte som Intel som har massa olika konstruktioner som måste göras för sig då de delar L3 mellan olika många kärnor i varje konstruktion.

Permalänk
Medlem
Skrivet av Broken-arrow:

För server kanske dom arbetar individuellt.
Ska fyra kärnor dela på L3 cache ? Låter som misslyckad bulldozer lansering, gör som intel och ha en för varje kärna (Hoppas jag har fel dock, dom kan ju fixat L3 cache bristen som var i bulldozer).

Jaja Får hoppas dom inte gör en bulldozer numer två. Räcker med dom förstört APU:erna med modultänket.

Var väl inga problem med att ha L3 delat över flera kärnor? Det var ju för det första Intel som började dela cache mellan kärnor med C2D med sin delade L2. Det hade en begränsning så AMD gjorde sin lösning med L3 i Phenom. Vilket Intel sedan stoppade in i sina första Core i*-processorer. Hela A64/Phenomstrukturen med höghastighets seriella busslänkar, L3 och IMC har ju Intel kopierat och är en stor del i varför i7 är så överlägset över C2Q. Det är inget misslyckat med det alls.
Hela denna struktur tillsammans med 64-bitars är det som varit AMDs bästa innovationer sedan K7.

Titta, delad L3.

Permalänk
Medlem
Skrivet av Aleshi:

Nej, GPU är inte per modul, det är NHs formulering som luras. Står inget om det i deras källa. Ingen mening med att ha flera separata GPU:er på samma kisel. Och nej, det är inte 4 moduler som ska dra 300W. Det är antagligen främst en riktigt fet GPU som drar det mesta av de 300 watten. Zen ska vara 4-8 kärnor för konsument under 95W. 300W-grejen är mer som en fet GPU med lite kärnor ute på ena kanten. Finns ingen information om att HPC-APUn ens kommer med Zen kärnor, kanske är K12-kärnor i den.

Tror att det blir lite förvirrande om vi kallar dessa subenheter för moduler. Men jag tror det är en produkt av AMDs M-Space, modulär processordesign där man lättare ska kunna utveckla olika produkter med samma byggstenar. Då har de valt att göra en quadcore-byggsten med egen L3 som man helt enkelt duplicerar i varianter med 8-kärnor. Med Coherent Fabric så kan man lättare sätta ihop olika byggstenar för att bygga APU-enheter och ha samma plattform för K12 och Zen, ja man kan väl bygga processorer eller APU-er med både K12 och Zen på samma krets i princip.

Tror vi inledningsvis bara får se en enda Zen-byggsten i olika utföranden, ibland i par i samma kisel och ibland 4 kopior på ett kisel för t.ex. server. Ibland med en GPU, ibland med en annan och kanske ibland utan. Inte som Intel som har massa olika konstruktioner som måste göras för sig då de delar L3 mellan olika många kärnor i varje konstruktion.

Har du nog rätt i...
En sak är iallafall säker, blir svårt att vänta på lanseringen
Vill verkligen se hur det blir i slutändan och hoppas verkligen att dom lyckas, annars blir dom nog en del av Samsung antingen dom vill eller ej.

Visa signatur

Engineer who prefer thinking out of the box and isn't fishing likes, fishing likes is like fishing proudness for those without ;-)
If U don't like it, bite the dust :D
--
I can Explain it to you, but I can't Understand it for you!

Permalänk
Entusiast
Skrivet av Bengt-Arne:

Intressant!
Vilken Intel CPU har L3 cache helt dedikerad tíll var kärna?

Skrivet av pa1983:

Ja jag undrar det samma.

Sist jag kollade hade min i7 3930K 12MB delat L3 cache lika så har min i3 4360 delat 4Mb L3 cache.
Skulle inte vilja ha det på nåt annat vis heller. Om något i dag är det extremt viktigt att processorer kan synkronisera sina cachw fort med allt fler kärnor och fletrådade program för att minimera prestanda förluster.

Bulldozers problem var aldrig mängden cache heller. Var andra problem med cache designen som ställde till det för AMD.
Delat L3 cache var är och framtiden. Finns igen vits med separat cache per kärna så tror han tänker fel där bara.

Som jag tolkade det var inte det faktum att L3 delas på kärnorna utan att L3 delas mellan fyra kärnor i en processor med 16 kärnor. Intels stora CPUer har delat L3 för alla kärnor upp till 12-kärnor där de kör två kluster med L3 med tre ring-interconnects medan ryktet säger att AMD kör en design med kluster. Alltså skulle det sitta fyra kluster med fyra olika L3 cache i en CPU med 16 kärnor. Frågan är då hur de är kopplade. Har de strösslat med ringbussar eller blir det någon MCM-lösning som de körde med Piledriver i sina stora Opteron?

Visa signatur

Q9450, HD4850, 8 GB DDR2 800 MHz, 3x750 GB, Antec 300, Dell 2408WFP, U2410, Qnap TS-419p+ 4x2 TB Samsung F4, Asus UL30A-QX056V, Logitech Z-680, Sennheiser HD380pro, M-Audio FastTrack Pro, Ibanez sa160qm, Ibanez TB 15R, Zoom 505II, Ibanez GSR 200, Ibanez SW 35, Cort AC-15, Squier SD-3 BBL, Yamaha PSR 270, Røde NT1-A, Nikon D200, Nikkor 18-70/3,5-4,5, 70-300VR, 50/1,8, 28/2,8, Tamron 17-50/2,8, 90/2,8, Sigma 30/1,4, SB-800, SB-25, SB-24

Permalänk
Skrivet av Bengt-Arne:

Intressant!
Vilken Intel CPU har L3 cache helt dedikerad tíll var kärna?

Skrivet av pa1983:

CMT var vettigt i teorin men hur AMD implementerade det gjorde det rätt värdelöst.
Det kom på bekostnad av prestanda per kärna och dessutom var resurserna per kärna för få så som att dela decoder.
Så nej CMT var kasst och tom AMD erkände att det inte var rätt väg.
Kanske hade fungerat för dom om dom breddat varje kärna att matcha intel eller i alla fall pehneom 2 vilket många nog trodde. Men Bulldozer var mindre parallell inuti och påminde därför om netbrust arkitekturen som vi alla vet hur kass den var. Intel la ner den med.

Och vad du säger Makes No Sense.
CMT eller SMT påverkar inte vilka typer av exekveringsenheter processorn använder för att utföra instruktioner.
Det är ju en del av instruktionen eller då ISA't så det ska inte ändras pga CMT eller SMT.
Val av instruktion i programmets kod avgör ju vilken exekveringsenhet som används.

Det ända Bulldozer kunde göra var att låna flytalsenheten från den andra kärnan i en modul för att utföra AVX instruktioner då båda flytalsenhetnerna behövdes för detta. Men som sagt förändrar inget. Sedan hade bulldozer 2st ALU's som exempel per kärna. Intel hade 4st per kärna.
Bulldozer är betydligt klenare ur alla perspektiv när det gäller heltal eller flyttal per tråd.
Dessutom tar 4st moduler avsevärt fler transistorer än tex 4 eller 6 kärnig intel CPU och trots det kan bulldozer knappt konkurrerar med en i5 med 4 kärnor utan SMT.
SMT som även AMD lär gå över till har fördelen att alla trådar på en kärna delar alla exekveringsenheter så det är avsevärt mer effektivt ur resurssynpunkt och kräver bara 3-5% fler transistorer till kanske 10% mer energiförbrukning för att ge vinst om 20-60%.
CMT visade sig ju kräva avsevärt fler transistorer, 1.3 miljarder för 4 moduler för att knappt matcha en fyrkärnig Intel CPU med HT på 7-800M transistorer är inte effektivt.
Sedan var inte CMT effektivare än HT i flertrådade laster sett till prestanda enbart om vi inte tar in prestanda per watt. Men tyvärr presterade processorerna dåligt i fåtrådade laster vilket i slutändan ger SMT bättre prestanda per watt, bäst singel trådade prestanda och minst lika bra prestanda i flertrådade program så poängen med CMT för AMD existerade i princip inte.

Stora problemet med CMT är att en tråd i en modul ALDRIG har full tillgång till alla resurser. Det är en av idéerna med CMT men också varför det faller pladask. Varför ha hälften av alla ALU's sittandes och inte göra något om den andra tråden skulle kunnat nyttja dom resurserna? Nu i efterhand framstår det mest som ett dumt val av AMD.
SMT bygger helt på att en tråd ska kunna nyttja alla lediga resurser vilket Intel, IBM, SUN och många fler kör på.
CMT fungerar i princip bara som jag ser det där man har så mycket resurser per kärna att det inte är realistiskt att tro att en tråd kan nyttja alla ALU's tex oavset scenario. Men det faktum att intel redan har 2x mer resurser per kärna än AMD säger ju som sagt motsatsen.
Det hade varit bättre för AMD om dom valt SMT över CMT när dom designade bulldozer. Den kanske inte hade flertrådat bättre men presterat bättre i fåtrådade uppgifter.

CMT har inte haft några designvinster ännu för AMD. Det finns meriter för CMT och andra försöker sig på det men som sagt SMT är klart vanligare och visat sig mycket effektivt och flexibel.
CMT kan vara vettigt om man inte behöver tex mycket flyttalsprestanda, var lite AMD's argument men samtidigt strippade dom bort heltalsprestanda, ALU's och lät en modul ha en Fetch och Decoder vilket i praktiken begränsade IPC:n till 4 per modul vilket intel lätt kan matcha med 4-5 per kärna i sina processorer.
Så konceptet föll helt enkelt för dom strippade ner vitala delar av processorn också jämfört med konkurrenterna.

Iden var bra, utförandet var katastrof för AMD.
Tom jag trodde på CMT men det hela baserades på att kärnorna var minst lika parallella internt som intels dito. Faktum är att Phenom har mer resurser per kärna än bulldozer.

Ja jag undrar det samma.

Sist jag kollade hade min i7 3930K 12MB delat L3 cache lika så har min i3 4360 delat 4Mb L3 cache.
Skulle inte vilja ha det på nåt annat vis heller. Om något i dag är det extremt viktigt att processorer kan synkronisera sina cachw fort med allt fler kärnor och fletrådade program för att minimera prestanda förluster.

Bulldozers problem var aldrig mängden cache heller. Var andra problem med cache designen som ställde till det för AMD.
Delat L3 cache var är och framtiden. Finns igen vits med separat cache per kärna så tror han tänker fel där bara.

Skrivet av Aleshi:

Var väl inga problem med att ha L3 delat över flera kärnor? Det var ju för det första Intel som började dela cache mellan kärnor med C2D med sin delade L2. Det hade en begränsning så AMD gjorde sin lösning med L3 i Phenom. Vilket Intel sedan stoppade in i sina första Core i*-processorer. Hela A64/Phenomstrukturen med höghastighets seriella busslänkar, L3 och IMC har ju Intel kopierat och är en stor del i varför i7 är så överlägset över C2Q. Det är inget misslyckat med det alls.
Hela denna struktur tillsammans med 64-bitars är det som varit AMDs bästa innovationer sedan K7.

Titta, delad L3.
http://techzill.com/wp-content/uploads/2013/06/Intel-Haswell-...

Kan ju vara så jag blandat ihop det. Var ett tag sen jag läste om bulldozer. Jaja.

Visa signatur

Min spel rigg:FD Define R4|VX 550W|i5 2500K|Corsair LP 4GBX2|Mammabräda P67 Extreme4|GTX 670 windforce|23tum u2312hm
Min gamla/HTPC:AMD 6000+|Ram 2GbX2|Radeon HD5770| XFX 450/nu XFX 550
Mitt bygge: ByggloggFri frakt INET:Fraktfritt sweclockers vid köp över 500kr

#Gilla inlägg som är bra & Använd citera/@"namn" vid snabbt svar

Permalänk
Medlem
Skrivet av Broken-arrow:

Kan ju vara så jag blandat ihop det. Var ett tag sen jag läste om bulldozer. Jaja.

Eller någon av intels Core i*-processorer för den delen. ;P

Permalänk
Medlem
Skrivet av Zotamedu:

Som jag tolkade det var inte det faktum att L3 delas på kärnorna utan att L3 delas mellan fyra kärnor i en processor med 16 kärnor. Intels stora CPUer har delat L3 för alla kärnor upp till 12-kärnor där de kör två kluster med L3 med tre ring-interconnects medan ryktet säger att AMD kör en design med kluster. Alltså skulle det sitta fyra kluster med fyra olika L3 cache i en CPU med 16 kärnor. Frågan är då hur de är kopplade. Har de strösslat med ringbussar eller blir det någon MCM-lösning som de körde med Piledriver i sina stora Opteron?

Tror lösningen med ihopkoppling av L3 cache blir "Coherent Fabric" och då inte bara för cache, "Coherent Fabric" har jag upfattat som en form av flervägs höghastighets växelpunkt. Är ju något som dom flesta idag verkar implementera i CPU/APU i allt från x86/x64, ARM, PPC m.m.
Tror nog att en väl utförd design av "Coherent Fabric" har lika stor betydelse som en L3 design då båda påverkar hur bra nyttjandegraden blir för varje kärna/kluster.
En ringbuss är enkel och bra då ett fåtal enheter ska kommunicera, men ju fler enheter ju högre latens. Visst i vissa applikationer så har det ingen stor betydelse.
"Coherent Fabric" är mer som ett flerlagers rutmönster med knutpunkter som kan slås till eller från.

Om jag har fel så rätta mig

Visa signatur

Engineer who prefer thinking out of the box and isn't fishing likes, fishing likes is like fishing proudness for those without ;-)
If U don't like it, bite the dust :D
--
I can Explain it to you, but I can't Understand it for you!

Permalänk
Medlem

En undran, har inte Intel släppt en licens till AMD angående L2 eller vad det L3 cache tekniken. Har för mig att AMD kunde inte komma förbi patentet hur de än försökte då, vilket resulterade i att bulldozer fick sämre resultat än väntat.

Permalänk
Medlem
Skrivet av dahippo:

En undran, har inte Intel släppt en licens till AMD angående L2 eller vad det L3 cache tekniken. Har för mig att AMD kunde inte komma förbi patentet hur de än försökte då, vilket resulterade i att bulldozer fick sämre resultat än väntat.

Ha, nej. AMD har länge använt både L2 och L3. Båda har dock helt egna patent och lösningar kring minneshantering och dylikt. Men inget så avgörande.

Permalänk
Medlem

Du har nog rätt. Har bara för mig, tror det var på RWT jag läste det. Att den cache tekniken de behövde för CMT låstes av Intels patent. Tack ändå