Intel går igenom nyheterna i Haswell

Permalänk
Medlem
Skrivet av Aleshi:

Vadå? Det ser ut som en hel del IPC-förbättringar. Vad begär du?

glömde visst sarkasmtaggen.

det är så det låtit bland kommentarerna i ett par år nu menar jag. inväntar ivf att spåmän och trollpackor fortsätter denna anrika traditionen även här..

Dold text
Visa signatur

Operativsystemet som löser nästan alla problem: Mint

Permalänk
Medlem
Skrivet av Heineken89:

Jag som hoppades på en ny sandybridge, får väl se om Haswell kommer vara vettig i spel/rendering annars får man väl ta o köpa sig en Ivy.

Vad får dig att tro att Haswell inte blir en "ny Sandy Bridge"? Och funderar du på allvar på att köpa en Ivy Bridge när Haswell släppts?

Permalänk
Avstängd
Skrivet av Heineken89:

Jag som hoppades på en ny sandybridge, får väl se om Haswell kommer vara vettig i spel/rendering annars får man väl ta o köpa sig en Ivy.

Vad säger att Haswell inte blir en ny SB?

Visa signatur

||NZXT H440 Black/Red||Intel i5 2500k @ 4,2GHz ||Noctua NH-D14 ||GA-Z77X-UD3H ||8 gb Corsair Vengeance 1600mhz DDR3 ||MSI GeForce GTX 970 ||OCZ Agility 3 120GB SSD ||Samsung Spinpoint F3 1TB ||Corsair HX750W||
Software is like sex, it's better when it's free. - Linus Torvalds

Permalänk
Medlem
Skrivet av AndreaX:

glömde visst sarkasmtaggen.

det är så det låtit bland kommentarerna i ett par år nu menar jag. inväntar ivf att spåmän och trollpackor fortsätter denna anrika traditionen även här..

Dold text

Aha. Då förstår jag. Ursäkta att jag inte insåg sarkasmen, folk säger så mycket dumt på nätet att utan något som övertydligt indikerar sarkasm så förutsätter man att folk ordagrant tycker det de skriver.

Permalänk
Datavetare
Skrivet av Aleshi:

En extra ALU och dubbla flyttalsprestandan hör till prestandahöjande godsaker, samtidigt verkar de kunna mata enheterna rätt bra. Jag tror att den kan ha en hel del bättre IPC än IB.

Exakt, bandbredd mot L1 och L2 cache var tydligen också fördubblad vilket borde höja IPC, kanske framförallt när man använder HT.

Sedan fick den interna GPUn får sin egen cache med 500GB/s bandbredd och för dagens integrerade GPUer är bandbredd ett STORT problem och mot RAM kanske man i bästa fall ligger på en bandbredd på 20-30GB/s.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Permalänk
Medlem
Skrivet av Aleshi:

Vad får dig att tro att Haswell inte blir en "ny Sandy Bridge"? Och funderar du på allvar på att köpa en Ivy Bridge när Haswell släppts?

Skrivet av Tumnus:

Vad säger att Haswell inte blir en ny SB?

Inget är skrivet i sten, jag kommer helt klart vänta till Haswell släpps och Sweclockers gjort ett test.
Tycker Haswell låter som en surfplatt/ultrabook tillverkad processor, fokuset har legat på just de 2 sakerna, får väl se när det släpps, skulle ju komma 2-4 kärniga prollar från 10w så får hoppas det kommer fina high end "i7or" som tar dagens Ivy ^^

Visa signatur

Gaming: MSI X570 MPG Gaming Plus -- AMD Ryzen 9 5900X -- Sapphire Radeon RX 6800 XT NITRO+ -- G.Skill 32GB 3600MHz CL14 -- Samsung 960 EVO 1TB -- 2x ASUS MG278Q -- Arch-based EndeavourOS
VR: ASRock B550M-ITX/ac -- AMD Ryzen 5 5600G -- ASUS RTX 3070 -- Corsair 16GB 3600MHz CL18 -- Kingston A2000 250GB -- Windows 10

Permalänk
Medlem

Fan va surt, så har jag precis köpt en ivy.....
Kanske ändå inte va värt att vänta 6 mån?

Visa signatur

SPELBURK: FD MESHIFY C | R5 5600x + NH-U15 BLACK | ASUS STRIX ROG B550-F | ASUS TUF 3080 OC | SEASONIC 750W GOLD | CORSAiR 3600MHZ 32GB | NVMe1# Samsung 1TB / NVMe2# Kingston 1TB + 1 TB SATA SSD | ACER PREDATOR X34A ULTRA-WiDE | LOGiTECH PRO GAMING+FUNC SURFACE 1030L | DEViCES: MACBOOK PRO 13" RETiNA MiD-2014 | SAMSUNG S10e | iPAD MiNi 2.... toaunderhållning.

Permalänk
Medlem
Skrivet av Heineken89:

Inget är skrivet i sten, jag kommer helt klart vänta till Haswell släpps och Sweclockers gjort ett test.
Tycker Haswell låter som en surfplatt/ultrabook tillverkad processor, fokuset har legat på just de 2 sakerna, får väl se när det släpps, skulle ju komma 2-4 kärniga prollar från 10w så får hoppas det kommer fina high end "i7or" som tar dagens Ivy ^^

Nja, det pratas om energieffektivitet. Så länge det inte innebär något drastiskt så kan det också innebära högre prestanda vid normala effektuttag. Högre IPC är en vanlig "bieffekt" av att man försöker höja prestandan per watt. Och i Haswell så har de som sagt fördubblat flyttalskapaciteten, lagt till en extra ALU och en till AGU. Och dessutom förbättrat cacheprestanda, TLB, branch prediction och register. Vilket pekar på att den bättre kommer utnyttja dessa exekveringsresurser. I mina ögon ser det ut som en best, måhända strömeffektiv, men fortfarande en best.

Permalänk
Medlem
Skrivet av Aleshi:

Vadå? Det ser ut som en hel del IPC-förbättringar. Vad begär du?

Hur mycket är "en hel del"? Har den dubbla beräkningskraften som en motsvarande CPU hade 18 månader innan denna release, vilket är den gamla utvecklingstakten? Jag får intrycket att de rent prestandamässiga förbättringarna är lite väl marginella.

Visa signatur

Gentoo Desktop: Ryzen 3600X | 32 GB
Commodore 64C + 1541u2
Server: Celeron J1900 | PicoPSU-80

Permalänk
Medlem

Detta ser inte bra ut...
...för AMD:s del alltså.
Dom skulle behöva lansera Steamroller och Kaveri fortare än kvickt!
Jag hoppas AMD kan rycka upp sig, trots allt är man (fortfarande) överlägsen vad gäller grafikimplementering. Jag hoppas också att deras HSA-satsning bär frukt. Mycket verkar handla om att få utvecklarna att anamma konceptet.

Vi får väl se.

Visa signatur

🖥️ AMD Ryzen 3700x, MSI B350 Mortar Arctic, Corsair lpx 3200, Sapphire 6900XT Nitro, Mbpro 15, MacMini.

Permalänk
Medlem

Hoppas 10W-modellen är tillräckligt strömsnål för att ge helt fläktlösa Ultrabooks.

Permalänk
Medlem
Skrivet av Aleshi:

Nja, det pratas om energieffektivitet. Så länge det inte innebär något drastiskt så kan det också innebära högre prestanda vid normala effektuttag. Högre IPC är en vanlig "bieffekt" av att man försöker höja prestandan per watt. Och i Haswell så har de som sagt fördubblat flyttalskapaciteten, lagt till en extra ALU och en till AGU. Och dessutom förbättrat cacheprestanda, TLB, branch prediction och register. Vilket pekar på att den bättre kommer utnyttja dessa exekveringsresurser. I mina ögon ser det ut som en best, måhända strömeffektiv, men fortfarande en best.

Håller med, den ser ut som en best. Men för oss som inte vill ha integrerad grafik då? Ta tex Ivy Bridge. Den är 160 mm², har fyra kärnor och en integrerad GPU. Citerar Anandtech här:

Citat:

A hypothetical GPU-less Ivy Bridge would measure in at roughly 113mm^2 chip on its 22nm process, making it smaller than any high-end Intel CPU since the days of the Pentium 3.

Teoretiskt sett 113mm² alltså. Dubblera antalet kärnor så är vi uppe i 226mm² för att räkna enkelt, men antagligen borde det inte vara några som helst problem att bygga en sådan CPU, Nehalem är ju 263mm². Så åtta kärnor utan GPU och som drar mindre än 125W borde inte vara några problem som helst att bygga. DET vore en best.

Visa signatur

FT02B • HX620W • P5E Deluxe @ PL11 • Yorkfield Q9450 C1 lappad @ 440x7,5 = 3,3GHz @ 1,380V w/ NH-D14 • 2x2 + 2x1 GB DDR2 @ 880MHz 5-5-5-18 • Palit 55nm GTX260 Sonic • Xonar DX • 36GB Raptor • 3TB Caviar Green • U2713HM • W7 x64 • Ikari Laser • Sidewinder X6

Permalänk
Skrivet av osca_r_00:

Stackars, stackars Amd. Hur många generationer efter är dom?

Skickades från m.sweclockers.com

Skrivet av Aleshi:

Skulle säga att Bulldozer är och kämpar vid första generationens Nehalem, fast det är inte en rättvis jämförelse, då AMD använder betydligt fler transistorer, watt och kärnor samt nyare tillverkningsprocess för att ligga där.

Jag tycker ni är orättvisa.

En AMD 8120 presterar 50 - 70 % bättre än motsvarande ivy i3 i samma prisklass.

Permalänk
Medlem

Ser fram emot detta! Tänkte skaffa Ivy Bridge, men blev besviken på prestandan. Haswell FTW!

Visa signatur

Ryzen 1700 | ASRock X370 Gaming K4 | 16 GB G.Skill Flare X | Corsair AX 750W | Noctua NH-D15 | Samsung EVO 960 | Fractal Design Define C

Permalänk
Medlem
Skrivet av celerity:

Ser fram emot detta! Tänkte skaffa Ivy Bridge, men blev besviken på prestandan. Haswell FTW!

Ja precis, varför nöja sig med Ivy's 1-3% prestanda, när du med Haswell kan få upp till 20-30% mera
plus en gpu bättre open cl och dx 11.1.

Permalänk
Medlem

sveaklockare #43

Citat:

Jag tycker ni är orättvisa.
En AMD 8120 presterar 50 - 70 % bättre än motsvarande ivy i3 i samma prisklass.

Nja, det beror ju på hur man ser det.
Ur konsumentsynpunkt kan man ju såklart hävda det du gör, då AMD:s processorer faktiskt är prisvärda.
Om man däremot ser det ur en rent teknisk infallsvinkel ligger AMD:s processorer efter Intels diton. Intel har ca: 10 gr mer resurser och har ungefär 2 års försprång i tillverkningsteknik.

Det är detta som oroar mig inför framtiden. För att AMD ska ha möjligheten att kunna konkurrera måste man vara listiga och göra saker annorlunda än Intel för att överhuvudtaget ha en chans. Därav satsningen mot HSA.

Ingen skulle bli gladare än jag om dom lyckas. Annars kommer vi förlora en konkurrent och det är aldrig bra för oss konsumenter.

Visa signatur

🖥️ AMD Ryzen 3700x, MSI B350 Mortar Arctic, Corsair lpx 3200, Sapphire 6900XT Nitro, Mbpro 15, MacMini.

Permalänk
Datavetare
Skrivet av KNI-861:

Håller med, den ser ut som en best. Men för oss som inte vill ha integrerad grafik då? Ta tex Ivy Bridge. Den är 160 mm², har fyra kärnor och en integrerad GPU. Citerar Anandtech här:

Teoretiskt sett 113mm² alltså. Dubblera antalet kärnor så är vi uppe i 226mm² för att räkna enkelt, men antagligen borde det inte vara några som helst problem att bygga en sådan CPU, Nehalem är ju 263mm². Så åtta kärnor utan GPU och som drar mindre än 125W borde inte vara några problem som helst att bygga. DET vore en best.

Och det är en produkt som kommer, inte bara med 8 kärnor utan även med 10 och eventuellt 12 kärnor i form av Xeon. Så varför tjatar folk hela tiden om att de vill se en Sandy/Ivy/Haswell utan GPU med minst 6 kärnor när en sådan produkt redan finns i form av t.ex. Xeon EX med 10 CPU-kärnor???

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Permalänk
Medlem
Skrivet av sveaklockare:

Jag tycker ni är orättvisa.

En AMD 8120 presterar 50 - 70 % bättre än motsvarande ivy i3 i samma prisklass.

En Ivy i3 har en die size på 94 mm^2, medan Bulldozer 8C ligger på 315 mm^2. Visst, som konsument får du ganska mycket prestanda per krona. Däremot har Intel ett tekniskt försprång som är mycket kraftigt. Det kostar betydligt mer för AMD att tillverka sin 8120 jämfört med vad det kostar för Intel att spotta ur sig i3:or.

Permalänk
Avstängd
Skrivet av KNI-861:

Håller med, den ser ut som en best. Men för oss som inte vill ha integrerad grafik då? Ta tex Ivy Bridge. Den är 160 mm², har fyra kärnor och en integrerad GPU. Citerar Anandtech här:

Teoretiskt sett 113mm² alltså. Dubblera antalet kärnor så är vi uppe i 226mm² för att räkna enkelt, men antagligen borde det inte vara några som helst problem att bygga en sådan CPU, Nehalem är ju 263mm². Så åtta kärnor utan GPU och som drar mindre än 125W borde inte vara några problem som helst att bygga. DET vore en best.

Men hur stor del av konsumenterna har behov av en processor med åtta kärnor? De är få och för de som behöver mer än 6 kärnor så finns SB-E. Jag har dessutom svårt att tro att Intel skulle börja producera processorer som faktiskt skulle konkurrera med SB-E framförallt när de fortfarande släpper CPU:er till socketen. Kombinationen av liten efterfrågan och Intels policy att ha en mainstream och en entusiast socket, som man fört sedan socket 1366 lanserades, så tvivlar jag att Intel har någon orsak att lansera en 6 kärnig processor för nästkommande socket (som i detta fall är 1150).

Visa signatur

||NZXT H440 Black/Red||Intel i5 2500k @ 4,2GHz ||Noctua NH-D14 ||GA-Z77X-UD3H ||8 gb Corsair Vengeance 1600mhz DDR3 ||MSI GeForce GTX 970 ||OCZ Agility 3 120GB SSD ||Samsung Spinpoint F3 1TB ||Corsair HX750W||
Software is like sex, it's better when it's free. - Linus Torvalds

Permalänk
Datavetare

Personligen tycker jag alla nyheter i Haswell, utom möjligen dubblad flyttalsprestanda, är skitsaker i jämförelse med TSX. Alla som som jobbat med att optimera programvara för att köra och effektivt utnyttja många CPU-kärnor måste inse vilken brutalt användbar finess TSX är.

Den enda jag är lite nervös för är att det kommer smaka lite 1.0 om Haswells implementation av transactional memory (som är det man använder med TSX) och att det inte blir så effektivt i praktiken som det i teorin kan vara. Men förhoppningsvis blir man positivt överraskad. Lär bli både ny laptop och ny desktop med denna CPU

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Permalänk
Medlem

Virtual Void #50
Kan du utveckla det där med "TSX"?
Vad är det?

Visa signatur

🖥️ AMD Ryzen 3700x, MSI B350 Mortar Arctic, Corsair lpx 3200, Sapphire 6900XT Nitro, Mbpro 15, MacMini.

Permalänk
Medlem

Min magkänsla säger att Haswell inte gör något gigantiskt kliv i IPC/kärna. Jag tror nästan all satsning görs på grafik och strömförbrukning.

Det känns som att Intel hade kunnat ge något helt annat om de ville imponera på de med stationära speldatorer

Visa signatur

System: CPU: AMD Ryzen 9 3900X, MB: Gigabyte X570 Aorus Elite, Minne: Corsair 32GB DDR4 3200MHz, GPU: Asus GeForce RTX 2080 Super ROG Strix Gaming OC

Permalänk
Datavetare
Skrivet av jacozz:

Virtual Void #50
Kan du utveckla det där med "TSX"?
Vad är det?

Tar ett enkelt och lite naivt exempel. Anta att du har en dubbel-länkad lista med element som flera trådar kan läsa, lägga till och ta bort element ur. Du har nu ett problem i form av att se till att listan inte ändras medan du läser den och framförallt att två trådar inte försöker lägga till / ta bort element på samma plats i den existerande listan. Ett uppenbart problem med en dubbellänkad lista är att 4 pekare ska uppdateras vid en lägga till / ta bort operation och från det att den första pekaren modifierats till dess att den 4:e pekaren modifieras så är listan i ett icke-konsistent tillstånd.

Ett sätt som (kanske allt för många) löser detta problem med är att lägga ett lås kring listan. Bara en tråd kan "äga" låset och andra trådar som också vill ta samma lås kommer snällt få vänta till den som äger det just nu är klar och släpper låset. Dessa lås är implementerad med s.k. synkroniserade instruktioner. Det som utmärker synkroniserade instruktioner är att de garanterar att alla läsningar/skrivningar innan låset är klara och är synliga för ALLA CPU-kärnor innan första instruktionen efter låset körs.

En av anledningen till att moderna CPU:er är snabba är p.g.a. att de är "out-of-order", d.v.s. de kan köra i instruktioner i en annan ordning än vad som faktiskt står i maskinkoden, CPU ser bara till att resultatet totalt sett blir som om man kört allt i rätt ordning.
En annan anledning till att moderna CPU:er är snabbare är därför att de inte behöver vänta tills skrivningar till RAM är klara, faktum är att de inte ens väntar tills skrivningen kommit till L1 cachen då det finns något som kallas "write-buffer" som ligger framför L1 cachen.

Kör man en synkroniserade instruktion så måste CPUn köra instruktionerna direkt före och direkt efter den synkroniserade i ordning och man måste vänta tills alla skrivning innan låset nått en delat cache (L3 i moderna Intel/AMD) eller i värsta fall RAM. D.v.s sådana instruktioner är DYRA.

TSX gör det möjligt för CPUn att undvika dessa dyra instruktioner genom att säga: visst du fick låset. Men egentligen togs inget lås alls utan CPUn börjar i stället hålla reda på alla ställen den CPU som "äger" låst skriver till. När man sedan släpper låset så checkas det av om någon annan CPU läst/skrivit på någon av de adresser som den CPU som "ägde" låset modifierat. I ett vettigt program så kommer man nästan aldrig ha en kollision och då resulterar "släppa låset" i att alla förändringar blir synliga samtidigt (därför är denna finess även känd som "versioned cache"). I.e. kostnaden att ta ett "lås" blir långt mycket lägre om det går bra.

Går det dåligt kommer "upplåsningen" misslyckas och programräknaren sätts om till punkten där man tog låset första gången. Denna andra gång gör man på det "gamla" sättet och kör en synkroniserade instruktion, men tanken är att detta är väldigt ovanligt i praktiken.

Denna finess (som går under namnet "Hardware Lock Elision") går alltså att dra nytta av i existerande program utan att de ändras allt för mycket.

TSX innehåller även en annan finess ("Restricted Transactional Memory") som jag inte läst in mig på ännu. Den har i teorin ännu bättre effekt på skalbarhet, men kräver å andra sidan att programmet i fråga skrivs med finessen i tanke från start.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Permalänk
Avstängd
Skrivet av Aleshi:

Vadå? Det ser ut som en hel del IPC-förbättringar. Vad begär du?

IvyBridge var ju 5% snabbare än SandyBridge. Alla tekniksajter säger att det är lönlöst att uppgradera från SandyBridge.

HasWell har kämpats mest med att få ned strömmen och få upp grafikprestandan. I vanlig ordning så är det inte många här som är intresserad av den kassa grafiken, de flesta kommer att köpa Nvidia eller nåt sånt. Så HasWell kommer kanske vara 5% snabbare än IvyBridge (gissning), vilket suger.

Har man SB så behöver man inte uppgradera till HW, eftersom man har externt grafikkort, och man bara får typ 5% snabbare cpu. Visst drar HW mindre ström, men det är inget folk här uppgraderar för.

Intel har legat av sig, pga konkurrens saknas från AMD. Kom igen, 5% snabbare cpu? Är det nåt att skryta om??

Oracle SPARC kommer att fördubbla prestanda på sina SPARC servrar vartannat år. Här pratar vi inte futtiga 5% ökning vartannat år. IBM POWER ökar typ 20% prestanda vartannat år. Det är också bättre. ALLA är bättre än Intel. Hur många av er kommer att uppgradera för att få 5% högre prestanda? Ingen?

Permalänk
Avstängd
Skrivet av sveaklockare:

Jag tycker ni är orättvisa.

En AMD 8120 presterar 50 - 70 % bättre än motsvarande ivy i3 i samma prisklass.

Det dumma är att AMDs 16 core cpuer är ju egentligen bara 8 cores. AMD använder en avancerad form av hyperthreading där AMD räknar varje core dubbelt.

Så egentligen, när AMD säger 8-core så menar de egentligen 4-core. Så en AMD 8-core cpu borde benchas mot Intels 4-core cpuer. Det låter ju vedervärdigt när AMDs 8-core cpuer (dvs 4 core) får stryk av Intels 4-core cpuer.

Intels 4-core cpuer visar ju 8 trådar i Windows, precis samma som AMDs 4-core cpuer gör. Vore jag AMD, skulle jag halvera core antalet i reklamen.

Permalänk
Medlem
Skrivet av saddam:

HasWell har kämpats mest med att få ned strömmen och få upp grafikprestandan. I vanlig ordning så är det inte många här som är intresserad av den kassa grafiken, de flesta kommer att köpa Nvidia eller nåt sånt. Så HasWell kommer kanske vara 5% snabbare än IvyBridge (gissning), vilket suger.

Nej, nej... det blir inte fem procent. Vart har du fått det ifrån? Intel har ju implementerat AVX2 (som innehåller FMA, dvs du gör både multiplikation och addition samtidigt), samt Hardware Transactional Memory (som möjliggör att trådade applikationer skalar bättre).

Ivy Bridge var en shrink och bör därför ha ungefär samma IPC som sin föregångare SB. Haswell är en ny arkitektur, och därmed en förbättring av samma slag som SB var på sin tid.

Permalänk

Äntligen ett inlägg som jag inte förstår! i.e. ikväll kommer jag lära mig saker.

Skrivet av Yoshman:

Tar ett enkelt och lite naivt exempel. Anta att du har en dubbel-länkad lista med element som flera trådar kan läsa, lägga till och ta bort element ur. Du har nu ett problem i form av att se till att listan inte ändras medan du läser den och framförallt att två trådar inte försöker lägga till / ta bort element på samma plats i den existerande listan. Ett uppenbart problem med en dubbellänkad lista är att 4 pekare ska uppdateras vid en lägga till / ta bort operation och från det att den första pekaren modifierats till dess att den 4:e pekaren modifieras så är listan i ett icke-konsistent tillstånd.

Ett sätt som (kanske allt för många) löser detta problem med är att lägga ett lås kring listan. Bara en tråd kan "äga" låset och andra trådar som också vill ta samma lås kommer snällt få vänta till den som äger det just nu är klar och släpper låset. Dessa lås är implementerad med s.k. synkroniserade instruktioner. Det som utmärker synkroniserade instruktioner är att de garanterar att alla läsningar/skrivningar innan låset är klara och är synliga för ALLA CPU-kärnor innan första instruktionen efter låset körs.

En av anledningen till att moderna CPU:er är snabba är p.g.a. att de är "out-of-order", d.v.s. de kan köra i instruktioner i en annan ordning än vad som faktiskt står i maskinkoden, CPU ser bara till att resultatet totalt sett blir som om man kört allt i rätt ordning.
En annan anledning till att moderna CPU:er är snabbare är därför att de inte behöver vänta tills skrivningar till RAM är klara, faktum är att de inte ens väntar tills skrivningen kommit till L1 cachen då det finns något som kallas "write-buffer" som ligger framför L1 cachen.

Kör man en synkroniserade instruktion så måste CPUn köra instruktionerna direkt före och direkt efter den synkroniserade i ordning och man måste vänta tills alla skrivning innan låset nått en delat cache (L3 i moderna Intel/AMD) eller i värsta fall RAM. D.v.s sådana instruktioner är DYRA.

TSX gör det möjligt för CPUn att undvika dessa dyra instruktioner genom att säga: visst du fick låset. Men egentligen togs inget lås alls utan CPUn börjar i stället hålla reda på alla ställen den CPU som "äger" låst skriver till. När man sedan släpper låset så checkas det av om någon annan CPU läst/skrivit på någon av de adresser som den CPU som "ägde" låset modifierat. I ett vettigt program så kommer man nästan aldrig ha en kollision och då resulterar "släppa låset" i att alla förändringar blir synliga samtidigt (därför är denna finess även känd som "versioned cache"). I.e. kostnaden att ta ett "lås" blir långt mycket lägre om det går bra.

Går det dåligt kommer "upplåsningen" misslyckas och programräknaren sätts om till punkten där man tog låset första gången. Denna andra gång gör man på det "gamla" sättet och kör en synkroniserade instruktion, men tanken är att detta är väldigt ovanligt i praktiken.

Denna finess (som går under namnet "Hardware Lock Elision") går alltså att dra nytta av i existerande program utan att de ändras allt för mycket.

TSX innehåller även en annan finess ("Restricted Transactional Memory") som jag inte läst in mig på ännu. Den har i teorin ännu bättre effekt på skalbarhet, men kräver å andra sidan att programmet i fråga skrivs med finessen i tanke från start.

Permalänk
Medlem

Virtual void #53
Tack för bra förklaring.
Även om jag är rudis på programmering/hårdvarukodning tror jag att jag förstår på ett ungefär.
Man utgår helt enkelt från att instruktionen är korrekt så länge inget ändras på vägen oavsett vad, istället för att vänta på verifiering via cache/ram?
Vad är så fall skillnaden på "branch prediction" och detta?
Nåja det kanske är överkurs?

Visa signatur

🖥️ AMD Ryzen 3700x, MSI B350 Mortar Arctic, Corsair lpx 3200, Sapphire 6900XT Nitro, Mbpro 15, MacMini.

Permalänk
Datavetare
Skrivet av jacozz:

Virtual void #53
Tack för bra förklaring.
Även om jag är rudis på programmering/hårdvarukodning tror jag att jag förstår på ett ungefär.
Man utgår helt enkelt från att instruktionen är korrekt så länge inget ändras på vägen oavsett vad, istället för att vänta på verifiering via cache/ram?
Vad är så fall skillnaden på "branch prediction" och detta?
Nåja det kanske är överkurs?

Intel har inte beskrivit i detalj hur man implementerat detta, men på RealworldTech spekulerar den mycket kunnige skribenten David Kanter att man mycket väl kan använda delar av "branch prediction" för att hantera fallet när upplåsningen "misslyckas" och alla förändringar måste slängas bort.

Det enda som är viktigt att komma ihåg kring detta är: TSX leder till billigare "lås" som i sin tur leder till program som mer effektivt kan utnyttja flera CPU-kärnor. Hur mycket bättre det blir återstår att se.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Permalänk
Medlem
Skrivet av Schnitz:

Hur mycket är "en hel del"? Har den dubbla beräkningskraften som en motsvarande CPU hade 18 månader innan denna release, vilket är den gamla utvecklingstakten? Jag får intrycket att de rent prestandamässiga förbättringarna är lite väl marginella.

Så har det aldrig fungerat, du förväxlar med Moores lag. Som mer handlar om transistortäthet. Faktisk prestanda i benchmarks har aldrig följt den takten.

Skrivet av KNI-861:

Håller med, den ser ut som en best. Men för oss som inte vill ha integrerad grafik då? Ta tex Ivy Bridge. Den är 160 mm², har fyra kärnor och en integrerad GPU. Citerar Anandtech här:

Teoretiskt sett 113mm² alltså. Dubblera antalet kärnor så är vi uppe i 226mm² för att räkna enkelt, men antagligen borde det inte vara några som helst problem att bygga en sådan CPU, Nehalem är ju 263mm². Så åtta kärnor utan GPU och som drar mindre än 125W borde inte vara några problem som helst att bygga. DET vore en best.

De tillverkar processorer utan GPU men med fler kärnor också. Men eftersom det inte ökar prestandan för vanligt folk som gör vanliga saker så är det något som är förbehållet servrar, workstations och entusiastmaskiner, och kostar därmed därefter.

Skrivet av sveaklockare:

Jag tycker ni är orättvisa.

En AMD 8120 presterar 50 - 70 % bättre än motsvarande ivy i3 i samma prisklass.

Det säger väl inget om hur bra arkitekturen är, som redan sagts så är i3 94mm² inklusive GPU och PCIe-kontroller, medan BD ligger på 315mm² exklusive GPU och PCIe-kontroller. Och trots detta är BD bara snabbare på flertrådade saker.

Skrivet av Anon@tor:

Ja precis, varför nöja sig med Ivy's 1-3% prestanda, när du med Haswell kan få upp till 20-30% mera
plus en gpu bättre open cl och dx 11.1.

Fast IB ligger mer kring 10% i benchmarks som inte begränsas av annat.

Skrivet av FredrikMH:

Min magkänsla säger att Haswell inte gör något gigantiskt kliv i IPC/kärna. Jag tror nästan all satsning görs på grafik och strömförbrukning.

Det känns som att Intel hade kunnat ge något helt annat om de ville imponera på de med stationära speldatorer

Kul att din "magkänsla" säger ungefär samma sak som folk sagt till oss på nätet. Det är mest grundat på Intels snack om mobila marknaden, men det innebär inte att de inte förbättrat annat. På pappret är det stor prestandaökning, och intel brukar inte svika när de pratar sådant. Till IB blev det 10% högre IPC även fast det inte skulle vara några direkta arkitekturförbättringar. Tänk då hur det blir med Haswell.

Skrivet av saddam:

IvyBridge var ju 5% snabbare än SandyBridge. Alla tekniksajter säger att det är lönlöst att uppgradera från SandyBridge.

HasWell har kämpats mest med att få ned strömmen och få upp grafikprestandan. I vanlig ordning så är det inte många här som är intresserad av den kassa grafiken, de flesta kommer att köpa Nvidia eller nåt sånt. Så HasWell kommer kanske vara 5% snabbare än IvyBridge (gissning), vilket suger.

Har man SB så behöver man inte uppgradera till HW, eftersom man har externt grafikkort, och man bara får typ 5% snabbare cpu. Visst drar HW mindre ström, men det är inget folk här uppgraderar för.

Intel har legat av sig, pga konkurrens saknas från AMD. Kom igen, 5% snabbare cpu? Är det nåt att skryta om??

Så du gissar på 5%, alltså hälften av prestandavinsten från IB som är en Tick? Detta helt utan grund, och sedan klagar du på Intel från denna förutfattade mening. Hur tänker du då?

Skrivet av saddam:

Oracle SPARC kommer att fördubbla prestanda på sina SPARC servrar vartannat år. Här pratar vi inte futtiga 5% ökning vartannat år. IBM POWER ökar typ 20% prestanda vartannat år. Det är också bättre. ALLA är bättre än Intel. Hur många av er kommer att uppgradera för att få 5% högre prestanda? Ingen?

Och hur är deras IPC per kärna? Hur ökar den varje generation? Ja just det. Ingen processor i världen kan mäta sig med Intels när det kommer till prestanda per kärna. IBM och Oracle kastar bara fler kärnor på problemet, det är ingen vidare konst. Grejen är att det inte hjälper konsumentprestanda. Intel är överlägsna på den punkten och fortsätter öka i högre takt än någon annan. Även AMD är grymt duktiga på responsiv enkeltrådsprestanda jämfört med IBM och Oracle som mest satsa på att skyffla stora mängder data. Återigen så klagar du på ett tal som du bara hittat på själv.

Intel har ökat 10% bara med IB, Haswell är en Tock och ger mycket mer, Alltså kan vi säga att Intel som absolut minst ger 20% vartannat år, antagligen betydligt mycket mer.

Skrivet av saddam:

Det dumma är att AMDs 16 core cpuer är ju egentligen bara 8 cores. AMD använder en avancerad form av hyperthreading där AMD räknar varje core dubbelt.

Så egentligen, när AMD säger 8-core så menar de egentligen 4-core. Så en AMD 8-core cpu borde benchas mot Intels 4-core cpuer. Det låter ju vedervärdigt när AMDs 8-core cpuer (dvs 4 core) får stryk av Intels 4-core cpuer.

Intels 4-core cpuer visar ju 8 trådar i Windows, precis samma som AMDs 4-core cpuer gör. Vore jag AMD, skulle jag halvera core antalet i reklamen.

Kan du bara inte bara läsa på. AMDs moduluppbyggnad är inte en avancerad form av HT. En AMD modul ger prestandamässigt 160-180% av en ensam kärna, och denna skalningen kommer öka med steamroller då det blir dubbla decoders. En vanlig dualcore ligger på runt 190% av prestandan av en singlecore. HT ger allt som oftast 120-130%. Prestandamässigt ligger en modul betydligt närmare en ren dualcore. Och med steamroller då konceptet kommer mer till sin rätt så är det mer en vanlig dualcore med delad prefetch.