Intels färdplan täcker in 7, 5, 3, 2 och 1,4 nanometer till år 2029

Permalänk
Medlem

@HenrikM: Vilket visar på hur dålig 14nm faktiskt var i början, checkade Silicon Lottery och endast 12% av 5775C klarade 4,3GHz (utan AVX).

Permalänk
Avstängd

Hmm, undrar nog hur pass stora förbättringar det blir med tanke på att densiteten ökar snabbare än energieffektiviteten, dvs kretsarna blir svårare att kyla! När behöver vi löda kylplattan till vattenkylaren till kislet?

Hoppas innerligt dock att vi kan se åtminstone tredubbla IPC ökning till år 2029, det med ökat stöd för multitrådat i spel skulle göra fysik med mera otroligt precist! Längtar efter spel med realistisk fysik där man kan göra nästa allt man kan göra i verkliga livet, gräva gropar, spränga berg, smälta metall o.s.v.

64C/256T CPUer med 64 MB l2$ två 512 MB L3$ och 512 GB RAM i bortåt 1TB/s vore nanna för gemene man, förutsatt att man löst mjukvarubiten!

Visa signatur

2600x||16GB @3000Mhz 14-14-10-14-32-46||Vega 64||1TB SSD||HX1000 plat||FD R6 TG vit||CH VII||H100i V2||SST-ARM22SC||SG 32" QHD 144 Hz VA|| https://folding.extremeoverclocking.com/team_summary.php?s=&t...

Permalänk
Medlem
Skrivet av Esseboy:

Hmm, undrar nog hur pass stora förbättringar det blir med tanke på att densiteten ökar snabbare än energieffektiviteten, dvs kretsarna blir svårare att kyla! När behöver vi löda kylplattan till vattenkylaren till kislet?

Hoppas innerligt dock att vi kan se åtminstone tredubbla IPC ökning till år 2029, det med ökat stöd för multitrådat i spel skulle göra fysik med mera otroligt precist! Längtar efter spel med realistisk fysik där man kan göra nästa allt man kan göra i verkliga livet, gräva gropar, spränga berg, smälta metall o.s.v.

64C/256T CPUer med 64 MB l2$ två 512 MB L3$ och 512 GB RAM i bortåt 1TB/s vore nanna för gemene man, förutsatt att man löst mjukvarubiten!

Om inget revolutionerade händer så tror jag inte att det kommer att ske. För just nu handlar IPC förbättringar per generation någonstans mellan 5-8% och 10-15%. Följer man den kartan så kommer man inte ens vara nära 3 ggr högre IPC än vad man ser idag. Däremot så kommer allt mer programvara börja stödja multitrådat. Något man redan ser idag.

Visa signatur

Fractal Design Meshify 2 Compact w/ Dark Tint | Intel i5 12600K | Asus ROG Strix B660-F | 32 GB Corsair DDR5 5600 MHz CL36 | MSI Geforce RTX 3060 TI Ventus 2X OCV1 | 512 GB Samsung Pro 850 SSD + 2TB WD Black SN850 NVME PCI-E 4.0 | Corsair RM750X |

Permalänk
Avstängd
Skrivet av Xinpei:

Om inget revolutionerade händer så tror jag inte att det kommer att ske. För just nu handlar IPC förbättringar per generation någonstans mellan 5-8% och 10-15%. Följer man den kartan så kommer man inte ens vara nära 3 ggr högre IPC än vad man ser idag. Däremot så kommer allt mer programvara börja stödja multitrådat. Något man redan ser idag.

In chiplet and 3D stacking we trust Hoppas det blir gött. Med 12% mer per år i 10 år når vi 300% högre prestanda

Visa signatur

2600x||16GB @3000Mhz 14-14-10-14-32-46||Vega 64||1TB SSD||HX1000 plat||FD R6 TG vit||CH VII||H100i V2||SST-ARM22SC||SG 32" QHD 144 Hz VA|| https://folding.extremeoverclocking.com/team_summary.php?s=&t...

Permalänk
Datavetare
Skrivet av Xinpei:

Om inget revolutionerade händer så tror jag inte att det kommer att ske. För just nu handlar IPC förbättringar per generation någonstans mellan 5-8% och 10-15%. Följer man den kartan så kommer man inte ens vara nära 3 ggr högre IPC än vad man ser idag. Däremot så kommer allt mer programvara börja stödja multitrådat. Något man redan ser idag.

Tror inte heller 3 ggr högre IPC från idag är realistiskt. Har ändå skruvat upp nivån på hur långt jag tror man kan komma med IPC, primärt då Apple numera har 80 % högre IPC jämfört med Zen2/Skylake. Även ARM har visat vad som är möjligt, Cortex A76 matchar Zen2/Skylake, Cortex A77 ökade IPC ~25 % och ARM har kommuncerat att kommande 2-3 generationer (en per år) kommer öka enkeltrådprestanda med 20-30 %.

Visst är Aarch64 en långt bättre ISA jämfört med x86_64, men svårt att tänk mig att det ger mer än kanske 30-40 % högre IPC, inte 80 % som fallet är nu (Apples A13 kärnor är helt jämförbara med Zen2/Skylake i komplexitet och storlek, Cortex A76 är väsentligt mindre).

Förstår dock inte varför du skriver 5-8 % och 10-15 %. Vad är vad där och varför tror du på olika utveckling för samma ISA?

Zen+ -> Zen2 gav ~15 % högre IPC. Fast kolla vad som krävdes... 8 Zen+ kärnor + L3$ tog ungefär 90 mm² kretsyta på GF/Samsung 14 nm medan 8 Zen2 kärnor + L3$ tar ~80 mm². TSMC hävdar dubbel densitet från 16 nm -> 10 nm och 1,6 gånger från 10 nm -> 7 nm, så 3,2 gånger högre densitet på 7 nm jämfört med 16 nm.

Nu gick AMD från GF/Samsung, GF planerade 7 nm process hade nära nog identisk densitet med TSMC. GF hävdade 2,8 gånger högre densitet från deras 14 nm till 7 nm. Så TSMC och GF siffror är sammstämmiga då TSMC 16 nm hade lägre densitet jämfört med GF/Samsung 14 nm.

Slutsatsen man kan dra är att Zen2 lär använda mer än dubbelt så många transistorer för CPU+L3$, det för 15 % högre IPC... Låter inte helt osannolikt när man ser att L3$, μ-op cache, SIMD-bredd fördubblades, antal ld/st-portar ökade 50%, L2-TLB$ ökade 33 %, out-of-order fönstret ökade 17 %, scheduler-köer ökade ~10 %. En sådan massiv förändring kan bara göras ihop med byte av nod, finns ingen chans att Zen3 (TSMC 7 nm+) kommer se en så stor ökning om man inte samtidigt kraftigt ökar storleken på kretsytan.

Skylake -> Sunny Cove verkar ju ha gett mer än de 18 % som Intel skrivit. ST GB5 visar på en ~22 % ökning av IPC, Phoronix uppmätte ~24 % högre prestanda hos i7-1065G över i7-8655U (då har den senare både högre maxboost och högre basfrekvens).

Men åter igen. Kollar man på vad som ändrats för att få den ökning så påminner den om Zen+ -> Zen. Arean för 4 st CPU+L3$ har minskat från ~50 mm² till ~30 mm² (fast med en densitetsökning på upp mot 2,7 gånger). En stor orsak är nog att Intel inte ökat L3$, L3$ tar massiv mängd utrymme i anspråk (lite över 50 % av Zen2-chiplet ser ut att vara L3$). Men huvudförändringen till Willow Cove är just massiv ökning av cache (L2$ ökar till 1,25 MB från ,25 MB i Skylake och ,5 MB i Sunny Cove, L3$ kommer öka 50 %), så då lär man vara tillbaka på ~50 mm² igen.

Antar vi att Intel faktiskt stannat vid sin ursprungliga 10 nm densitet (vilket mycket pekar på när folk jämfört storlek på t.ex. iGPU EUs) så har Sunny Cove CPU+L3$ ~60 % fler transistorer (och det är i praktiken 60 % fler transistorer i CPU då L3$ är lika stor som innan). Man har ökat L2$ och ITLB$ 100%, 80 % fler läs operationer kan vara "in-flight" (bra för att "gömma" latens), out-of-order fönstret hela 60 % (det lär svida i transistorbudget!), ökat μ-op och L1d$ 50 %, ökad back-end bredd 50 % (100 % fler portar för minnesoperationer), likt Zen2 har man 33 % större L2-TLB$.

En stor orsak till att Nehalem -> Sandy Bridge -> Haswell -> Skylake (mikroarkitekturändringarna, tock:en) bara sett 5-10 % IPC-ökning är att storleken på kretsen minskat rätt kraftigt. Man har mer använt krympningarna till att optimera servers för fler kärnor och minska tillverkningskostnad för konsumenter. Även i dessa har det krävts rätt stora relativa förändringar i teoretisk kapacitet för en rätt liten praktisk ökning.

TL;DR är ändå att man kan skruva upp IPC, men kvoten ökning IPC mot ökning antal transistorer är rätt dålig och minskar

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Permalänk
Medlem
Skrivet av Yoshman:

Tror inte heller 3 ggr högre IPC från idag är realistiskt. Har ändå skruvat upp nivån på hur långt jag tror man kan komma med IPC, primärt då Apple numera har 80 % högre IPC jämfört med Zen2/Skylake. Även ARM har visat vad som är möjligt, Cortex A76 matchar Zen2/Skylake, Cortex A77 ökade IPC ~25 % och ARM har kommuncerat att kommande 2-3 generationer (en per år) kommer öka enkeltrådprestanda med 20-30 %.

Visst är Aarch64 en långt bättre ISA jämfört med x86_64, men svårt att tänk mig att det ger mer än kanske 30-40 % högre IPC, inte 80 % som fallet är nu (Apples A13 kärnor är helt jämförbara med Zen2/Skylake i komplexitet och storlek, Cortex A76 är väsentligt mindre).

Förstår dock inte varför du skriver 5-8 % och 10-15 %. Vad är vad där och varför tror du på olika utveckling för samma ISA?

Zen+ -> Zen2 gav ~15 % högre IPC. Fast kolla vad som krävdes... 8 Zen+ kärnor + L3$ tog ungefär 90 mm² kretsyta på GF/Samsung 14 nm medan 8 Zen2 kärnor + L3$ tar ~80 mm². TSMC hävdar dubbel densitet från 16 nm -> 10 nm och 1,6 gånger från 10 nm -> 7 nm, så 3,2 gånger högre densitet på 7 nm jämfört med 16 nm.

Nu gick AMD från GF/Samsung, GF planerade 7 nm process hade nära nog identisk densitet med TSMC. GF hävdade 2,8 gånger högre densitet från deras 14 nm till 7 nm. Så TSMC och GF siffror är sammstämmiga då TSMC 16 nm hade lägre densitet jämfört med GF/Samsung 14 nm.

Slutsatsen man kan dra är att Zen2 lär använda mer än dubbelt så många transistorer för CPU+L3$, det för 15 % högre IPC... Låter inte helt osannolikt när man ser att L3$, μ-op cache, SIMD-bredd fördubblades, antal ld/st-portar ökade 50%, L2-TLB$ ökade 33 %, out-of-order fönstret ökade 17 %, scheduler-köer ökade ~10 %. En sådan massiv förändring kan bara göras ihop med byte av nod, finns ingen chans att Zen3 (TSMC 7 nm+) kommer se en så stor ökning om man inte samtidigt kraftigt ökar storleken på kretsytan.

Skylake -> Sunny Cove verkar ju ha gett mer än de 18 % som Intel skrivit. ST GB5 visar på en ~22 % ökning av IPC, Phoronix uppmätte ~24 % högre prestanda hos i7-1065G över i7-8655U (då har den senare både högre maxboost och högre basfrekvens).

Men åter igen. Kollar man på vad som ändrats för att få den ökning så påminner den om Zen+ -> Zen. Arean för 4 st CPU+L3$ har minskat från ~50 mm² till ~30 mm² (fast med en densitetsökning på upp mot 2,7 gånger). En stor orsak är nog att Intel inte ökat L3$, L3$ tar massiv mängd utrymme i anspråk (lite över 50 % av Zen2-chiplet ser ut att vara L3$). Men huvudförändringen till Willow Cove är just massiv ökning av cache (L2$ ökar till 1,25 MB från ,25 MB i Skylake och ,5 MB i Sunny Cove, L3$ kommer öka 50 %), så då lär man vara tillbaka på ~50 mm² igen.

Antar vi att Intel faktiskt stannat vid sin ursprungliga 10 nm densitet (vilket mycket pekar på när folk jämfört storlek på t.ex. iGPU EUs) så har Sunny Cove CPU+L3$ ~60 % fler transistorer (och det är i praktiken 60 % fler transistorer i CPU då L3$ är lika stor som innan). Man har ökat L2$ och ITLB$ 100%, 80 % fler läs operationer kan vara "in-flight" (bra för att "gömma" latens), out-of-order fönstret hela 60 % (det lär svida i transistorbudget!), ökat μ-op och L1d$ 50 %, ökad back-end bredd 50 % (100 % fler portar för minnesoperationer), likt Zen2 har man 33 % större L2-TLB$.

En stor orsak till att Nehalem -> Sandy Bridge -> Haswell -> Skylake (mikroarkitekturändringarna, tock:en) bara sett 5-10 % IPC-ökning är att storleken på kretsen minskat rätt kraftigt. Man har mer använt krympningarna till att optimera servers för fler kärnor och minska tillverkningskostnad för konsumenter. Även i dessa har det krävts rätt stora relativa förändringar i teoretisk kapacitet för en rätt liten praktisk ökning.

TL;DR är ändå att man kan skruva upp IPC, men kvoten ökning IPC mot ökning antal transistorer är rätt dålig och minskar

5-8% samt 10-15% baseras på hur Intel kontra AMD ökat de senaste åren i ren IPC (medelvärde). Taget från 6700k - > 9900K samt Zen - > Zen 2.

Vad Intel påstås öka i IPC mellan två generationer tar jag med en nypa salt med tanke på hur deras PR sköts idag.

Visa signatur

Fractal Design Meshify 2 Compact w/ Dark Tint | Intel i5 12600K | Asus ROG Strix B660-F | 32 GB Corsair DDR5 5600 MHz CL36 | MSI Geforce RTX 3060 TI Ventus 2X OCV1 | 512 GB Samsung Pro 850 SSD + 2TB WD Black SN850 NVME PCI-E 4.0 | Corsair RM750X |

Permalänk
Datavetare
Skrivet av Xinpei:

5-8% samt 10-15% baseras på hur Intel kontra AMD ökat de senaste åren i ren IPC (medelvärde). Taget från 6700k - > 9900K samt Zen - > Zen 2.

Vad Intel påstås öka i IPC mellan två generationer tar jag med en nypa salt med tanke på hur deras PR sköts idag.

Fast från 6700K till 9900K har ju IPC ökningen varit exakt noll. Det är ju samma mikroarkitektur!
Och AMD hade ju bara några enstaka procent mellan Zen till Zen+, dessa har väldigt snarlik mikroarkitektur men dock inte identiskt.

Var också rätt skeptisk till de 18 % Intel nämnde som IPC ökning hos Sunny Cove. Självklart beror det på vad man mäter, men har trillat in rätt många resultat som visar att 18 % i alla fall inte var en överdrift. PR ska man absolut vara skeptisk till, men finns ingen anledning att tvivla på faktiska mätresultat.

Men ändå lite svårt att imponeras av AMDs 15 % och Intels 18 % givet hur brutalt många fler transistorer de stoppat in i CPU+L3$ för att nå dessa. Och det var huvudpoängen ovan, visst kommer vi få se fortsatt IPC ökning men kommer nog bara vara ihop med nodkrympningar man får se någon större ökning. Både AMD och Intel verkar vara inne på att krympningar efter 7 nm antagligen medför lägre maximal frekvens, vilket då tyvärr äter upp en del av IPC-vinsten.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Permalänk
Medlem
Skrivet av Yoshman:

Fast från 6700K till 9900K har ju IPC ökningen varit exakt noll. Det är ju samma mikroarkitektur!
Och AMD hade ju bara några enstaka procent mellan Zen till Zen+, dessa har väldigt snarlik mikroarkitektur men dock inte identiskt.

Var också rätt skeptisk till de 18 % Intel nämnde som IPC ökning hos Sunny Cove. Självklart beror det på vad man mäter, men har trillat in rätt många resultat som visar att 18 % i alla fall inte var en överdrift. PR ska man absolut vara skeptisk till, men finns ingen anledning att tvivla på faktiska mätresultat.

Men ändå lite svårt att imponeras av AMDs 15 % och Intels 18 % givet hur brutalt många fler transistorer de stoppat in i CPU+L3$ för att nå dessa. Och det var huvudpoängen ovan, visst kommer vi få se fortsatt IPC ökning men kommer nog bara vara ihop med nodkrympningar man får se någon större ökning. Både AMD och Intel verkar vara inne på att krympningar efter 7 nm antagligen medför lägre maximal frekvens, vilket då tyvärr äter upp en del av IPC-vinsten.

Som sagt. Jag ifrågasätter egentligen inte "18%" utan jag ställer följdfrågan.. Under vilken last? Du har däremot rätt att prestandan inte händelsevis blir bättre med högre IPC eftersom klockfrekvensen spelar in. AMD har dock haft en ökning när det kommer till klockfrekvensen på Zen 2 så där har prestandan skjutit förbi Intel i vissa fall.

Visa signatur

Fractal Design Meshify 2 Compact w/ Dark Tint | Intel i5 12600K | Asus ROG Strix B660-F | 32 GB Corsair DDR5 5600 MHz CL36 | MSI Geforce RTX 3060 TI Ventus 2X OCV1 | 512 GB Samsung Pro 850 SSD + 2TB WD Black SN850 NVME PCI-E 4.0 | Corsair RM750X |

Permalänk
Medlem

Den som vill läsa den ursprungliga artikeln (kinesiska, från 28/10) som sedan skrivits om några iterationer innan innehållet hamnat här kan se här.

Skrivet av Esseboy:

... När behöver vi löda kylplattan till vattenkylaren till kislet?

Jag förstår inte frågan...
Lösningen är förstås att inte använda kylblock alls, utan ersätta värmespridaren med en huv över chipen, där man skruvar fast slangnipplarna. Vattnet ska vara i direkt kontakt med chipen för bästa effekt!

Permalänk
Medlem
Skrivet av Yoshman:

visst kommer vi få se fortsatt IPC ökning men kommer nog bara vara ihop med nodkrympningar man får se någon större ökning. Både AMD och Intel verkar vara inne på att krympningar efter 7 nm antagligen medför lägre maximal frekvens, vilket då tyvärr äter upp en del av IPC-vinsten.

Är det lokal värmeutveckling som begränsar? Hur mycket kan man vinna på att glesa ut avstånden mellan de enskilda kärnorna för att möjliggöra större avkylning per kärna? Förlorar man massvis i latens då, i stället?

Visa signatur

Moderkort: Gigabyte X570 Aorus Master | CPU: AMD Ryzen R9 5900X | CPU-kylare: Noctua NH-D15 chromax.black | RAM: Corsair Vengeance LPX 64 GB (4x16) DDR4-3600 CL18 | GPU: Gigabyte RTX 4080 Eagle OC | SSD: 2 x Samsung 970 EVO Plus 1 TB NVMe + Kingston A400 480 GB + Samsung QVO860 1 TB | PSU: EVGA SuperNOVA G2 1000 W Gold | Chassi: Lian Li O11 Dynamic XL | Skärm: BenQ PD3200U @ 3840x2160 + ASUS ROG Strix XG32VQ @ 2560x1440 | Tangentbord: Corsair K68 RGB Cherry MX Red | Mus: Logitech MX Master 2S

Permalänk
Datavetare
Skrivet av Xinpei:

Som sagt. Jag ifrågasätter egentligen inte "18%" utan jag ställer följdfrågan.. Under vilken last? Du har däremot rätt att prestandan inte händelsevis blir bättre med högre IPC eftersom klockfrekvensen spelar in. AMD har dock haft en ökning när det kommer till klockfrekvensen på Zen 2 så där har prestandan skjutit förbi Intel i vissa fall.

Tja, i.o.f.s. tror jag att Cinebench är väsentligt mindre än 18 % (verkar vara ca 12 %), så ur den aspekten kanske det är "fail" bland många här. Vem vill inte köra rendering på en CPU när det krävs minst ett GTX 1660S för att matcha 32-kärnors Thread Ripper

Mer seriöst. GB5 har en riktigt bra mix av arbetslaster, där ligger genomsnittlig IPC-ökning på ~22 %. Phoronix hade lite väl hög andel HPC-laster, det är en stor orsak till att de såg >30 % IPC-ökning (Sunny Cove har AVX512).
Edit: kollade några resultat för Zen+ och Zen2 i GB5, är 14-15 % IPC-övertag för Zen2, vilket stämmer väldigt bra med vad AMD hävdar.

Edit2: AnandTech har en väldigt bra jämförelse mellan AMD och Intel i 15" Surface Laptop 3. I SPEC2017 har Sunny Cove ~20 % högre IPC jämfört med Skylake, tyvärr klart större fördel i flyttal än det långt viktigare heltalstesterna.

"On purely CPU based tasks, Ice Lake really stretched its legs, and despite this being a 3.9 GHz chip, in single-threaded SPEC 2017, it managed to come very close to a 5.0 GHz Core i9-9900K with a massively higher TDP."

Men att relativ IPC varierar kraftigt beroende på last gäller ju alla CPUer!

Skrivet av cyklonen:

Är det lokal värmeutveckling som begränsar? Hur mycket kan man vinna på att glesa ut avstånden mellan de enskilda kärnorna för att möjliggöra större avkylning per kärna? Förlorar man massvis i latens då, i stället?

Har inte sett exakt orsak, men "hot-spots" (för hög W/mm² i vissa specifika områden) är garanterat ett snabbt ökande problem då transistordensiteten numera ökar mycket snabbare än effektiviteten (Dennard scaling är död). Det finns en hård fysisk gräns för hur mycket effekt som kan kylas bort på en viss yta givet omgivande temperatur, kretsen maximala temperatur och materialet i CPUns kapsling.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Permalänk
Medlem
Skrivet av Yoshman:

Har inte sett exakt orsak, men "hot-spots" (för hög W/mm² i vissa specifika områden) är garanterat ett snabbt ökande problem då transistordensiteten numera ökar mycket snabbare än effektiviteten (Dennard scaling är död). Det finns en hård fysisk gräns för hur mycket effekt som kan kylas bort på en viss yta givet omgivande temperatur, kretsen maximala temperatur och materialet i CPUns kapsling.

Mmm.

Men borde det inte gå att kraftigt slipa ner kiselskiktet ovanpå själva halvledarlagren (som ju bara tar upp några promille, om ens det, av hela tjockleken) och löda fast en effektiv kopparvärmespridare för att få ut lite mer kylprestanda?

Visa signatur

Moderkort: Gigabyte X570 Aorus Master | CPU: AMD Ryzen R9 5900X | CPU-kylare: Noctua NH-D15 chromax.black | RAM: Corsair Vengeance LPX 64 GB (4x16) DDR4-3600 CL18 | GPU: Gigabyte RTX 4080 Eagle OC | SSD: 2 x Samsung 970 EVO Plus 1 TB NVMe + Kingston A400 480 GB + Samsung QVO860 1 TB | PSU: EVGA SuperNOVA G2 1000 W Gold | Chassi: Lian Li O11 Dynamic XL | Skärm: BenQ PD3200U @ 3840x2160 + ASUS ROG Strix XG32VQ @ 2560x1440 | Tangentbord: Corsair K68 RGB Cherry MX Red | Mus: Logitech MX Master 2S

Permalänk
Avstängd
Skrivet av Olle P:

Den som vill läsa den ursprungliga artikeln (kinesiska, från 28/10) som sedan skrivits om några iterationer innan innehållet hamnat här kan se här.

Jag förstår inte frågan...
Lösningen är förstås att inte använda kylblock alls, utan ersätta värmespridaren med en huv över chipen, där man skruvar fast slangnipplarna. Vattnet ska vara i direkt kontakt med chipen för bästa effekt!

Nja, då har vattnet inte samma yta att absorbera värmen, kanske man göra kisel med mikroflänsar?

Visa signatur

2600x||16GB @3000Mhz 14-14-10-14-32-46||Vega 64||1TB SSD||HX1000 plat||FD R6 TG vit||CH VII||H100i V2||SST-ARM22SC||SG 32" QHD 144 Hz VA|| https://folding.extremeoverclocking.com/team_summary.php?s=&t...

Permalänk
Quizmaster Malmö 22

Pfffft......karta som ska vara i 10 år ner till 1,4nm när de inte ens kan få ut 10nm....

Intel måste ju förstå att deras trovärdighet fått sig en törn.

Visa signatur

[Gigabyte EP35-DS4][Intel Core 2 Duo E8400 3.0 Ghz][2x2GB Corsair XMS 2][Gainward GTX 570][Sandisk Extreme II 480GB][Corsair HX 620W][Fractal Design Define XL R4][Acer GD245HQBID]

Permalänk
Medlem
Skrivet av Yoshman:

Fast från 6700K till 9900K har ju IPC ökningen varit exakt noll. Det är ju samma mikroarkitektur!
Och AMD hade ju bara några enstaka procent mellan Zen till Zen+, dessa har väldigt snarlik mikroarkitektur men dock inte identiskt.

Var också rätt skeptisk till de 18 % Intel nämnde som IPC ökning hos Sunny Cove. Självklart beror det på vad man mäter, men har trillat in rätt många resultat som visar att 18 % i alla fall inte var en överdrift. PR ska man absolut vara skeptisk till, men finns ingen anledning att tvivla på faktiska mätresultat.

Men ändå lite svårt att imponeras av AMDs 15 % och Intels 18 % givet hur brutalt många fler transistorer de stoppat in i CPU+L3$ för att nå dessa. Och det var huvudpoängen ovan, visst kommer vi få se fortsatt IPC ökning men kommer nog bara vara ihop med nodkrympningar man får se någon större ökning. Både AMD och Intel verkar vara inne på att krympningar efter 7 nm antagligen medför lägre maximal frekvens, vilket då tyvärr äter upp en del av IPC-vinsten.

Som du påpekar lite implicit, så är ju IPC-förbättringarna inte bara beroende på att man förstärkt själva kärnorna, utan också på att man avsevärt förbättrat prestandan i cache-hierarkierna. (Också där Apple lyckats göra bra ifrån sig i mobile domänen.) Är inte oense om om något, vill bara förstärka att det är ett område som kan ge en hel del även när förbättringar av kärnornas arkitektur börjar ge riktigt lite tillbaka.

Angående förhoppningar om att multitrådad prestanda skall dominera i framtiden vill jag citera John Carmack: "'Oh just thread your application.' Anyone that says that is basically an idiot, not appreciating the problems."

Inte för att multiparallellism inte kan ge förbättringar på sina ställen, och är det specifikt de ställena man behöver högra prestanda, ja då kan man vara optimist. Men att det skulle vara en general panacea är helt orealistiskt. Vilket är anledningen till att vi fortfarande ser stora ansträngningar för att få upp IPC och enkeltrådad prestanda. Det ger helt enkelt, trots de stora kostnaderna, mest bang for the buck. Om det är tillräckligt mycket mer bang för att vara lönt för konsument skall nog vara osagt, men tillverkarna måste ju ha försäljningsargument om nu kärnornas krig inte får genomslag i de breda konsumentleden.

Permalänk
Datavetare
Skrivet av EntropyQ3:

Som du påpekar lite implicit, så är ju IPC-förbättringarna inte bara beroende på att man förstärkt själva kärnorna, utan också på att man avsevärt förbättrat prestandan i cache-hierarkierna. (Också där Apple lyckats göra bra ifrån sig i mobile domänen.) Är inte oense om om något, vill bara förstärka att det är ett område som kan ge en hel del även när förbättringar av kärnornas arkitektur börjar ge riktigt lite tillbaka.

Angående förhoppningar om att multitrådad prestanda skall dominera i framtiden vill jag citera John Carmack: "'Oh just thread your application.' Anyone that says that is basically an idiot, not appreciating the problems."

Inte för att multiparallellism inte kan ge förbättringar på sina ställen, och är det specifikt de ställena man behöver högra prestanda, ja då kan man vara optimist. Men att det skulle vara en general panacea är helt orealistiskt. Vilket är anledningen till att vi fortfarande ser stora ansträngningar för att få upp IPC och enkeltrådad prestanda. Det ger helt enkelt, trots de stora kostnaderna, mest bang for the buck. Om det är tillräckligt mycket mer bang för att vara lönt för konsument skall nog vara osagt, men tillverkarna måste ju ha försäljningsargument om nu kärnornas krig inte får genomslag i de breda konsumentleden.

IPC ökningarna för typiska desktop-laster kommer långt mer från förändringar i exekveringsenheterna än från ökad storlek på cache, spel är noterbart undantag där stor L3$ lär hjälpa till i dagens titlar.

μ-op cache lär vara en väldigt viktigt komponent, ser ändå den mer som en implementationsdetalj i front-end än en normal cache. x86 instruktioner är vansinnigt kodade, μ-op cache är enda realistiska sättet att kunna levererar nog med instruktioner till riktigt breda back-ends. Både AMD och Intel ökade på bredd och djup i Zen2 resp Sunny Cove, rätt säker att det är primära orsaken till högre IPC för desktop.

Håller helt med det sista! Även på serversidan räcker det ofta med så lite som 20-25 % högre prestanda per kärna för att det i praktiken ska vara mer värt än att dubbla antalet kärnor. På desktop är cut-off i alla fall inte högre än så...

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Permalänk
Medlem
Skrivet av Yoshman:

Tror inte heller 3 ggr högre IPC från idag är realistiskt. Har ändå skruvat upp nivån på hur långt jag tror man kan komma med IPC, primärt då Apple numera har 80 % högre IPC jämfört med Zen2/Skylake. Även ARM har visat vad som är möjligt, Cortex A76 matchar Zen2/Skylake, Cortex A77 ökade IPC ~25 % och ARM har kommuncerat att kommande 2-3 generationer (en per år) kommer öka enkeltrådprestanda med 20-30 %.

Visst är Aarch64 en långt bättre ISA jämfört med x86_64, men svårt att tänk mig att det ger mer än kanske 30-40 % högre IPC, inte 80 % som fallet är nu (Apples A13 kärnor är helt jämförbara med Zen2/Skylake i komplexitet och storlek, Cortex A76 är väsentligt mindre).

Förstår dock inte varför du skriver 5-8 % och 10-15 %. Vad är vad där och varför tror du på olika utveckling för samma ISA?

Zen+ -> Zen2 gav ~15 % högre IPC. Fast kolla vad som krävdes... 8 Zen+ kärnor + L3$ tog ungefär 90 mm² kretsyta på GF/Samsung 14 nm medan 8 Zen2 kärnor + L3$ tar ~80 mm². TSMC hävdar dubbel densitet från 16 nm -> 10 nm och 1,6 gånger från 10 nm -> 7 nm, så 3,2 gånger högre densitet på 7 nm jämfört med 16 nm.

Nu gick AMD från GF/Samsung, GF planerade 7 nm process hade nära nog identisk densitet med TSMC. GF hävdade 2,8 gånger högre densitet från deras 14 nm till 7 nm. Så TSMC och GF siffror är sammstämmiga då TSMC 16 nm hade lägre densitet jämfört med GF/Samsung 14 nm.

Slutsatsen man kan dra är att Zen2 lär använda mer än dubbelt så många transistorer för CPU+L3$, det för 15 % högre IPC... Låter inte helt osannolikt när man ser att L3$, μ-op cache, SIMD-bredd fördubblades, antal ld/st-portar ökade 50%, L2-TLB$ ökade 33 %, out-of-order fönstret ökade 17 %, scheduler-köer ökade ~10 %. En sådan massiv förändring kan bara göras ihop med byte av nod, finns ingen chans att Zen3 (TSMC 7 nm+) kommer se en så stor ökning om man inte samtidigt kraftigt ökar storleken på kretsytan.

Skylake -> Sunny Cove verkar ju ha gett mer än de 18 % som Intel skrivit. ST GB5 visar på en ~22 % ökning av IPC, Phoronix uppmätte ~24 % högre prestanda hos i7-1065G över i7-8655U (då har den senare både högre maxboost och högre basfrekvens).

Men åter igen. Kollar man på vad som ändrats för att få den ökning så påminner den om Zen+ -> Zen. Arean för 4 st CPU+L3$ har minskat från ~50 mm² till ~30 mm² (fast med en densitetsökning på upp mot 2,7 gånger). En stor orsak är nog att Intel inte ökat L3$, L3$ tar massiv mängd utrymme i anspråk (lite över 50 % av Zen2-chiplet ser ut att vara L3$). Men huvudförändringen till Willow Cove är just massiv ökning av cache (L2$ ökar till 1,25 MB från ,25 MB i Skylake och ,5 MB i Sunny Cove, L3$ kommer öka 50 %), så då lär man vara tillbaka på ~50 mm² igen.

Antar vi att Intel faktiskt stannat vid sin ursprungliga 10 nm densitet (vilket mycket pekar på när folk jämfört storlek på t.ex. iGPU EUs) så har Sunny Cove CPU+L3$ ~60 % fler transistorer (och det är i praktiken 60 % fler transistorer i CPU då L3$ är lika stor som innan). Man har ökat L2$ och ITLB$ 100%, 80 % fler läs operationer kan vara "in-flight" (bra för att "gömma" latens), out-of-order fönstret hela 60 % (det lär svida i transistorbudget!), ökat μ-op och L1d$ 50 %, ökad back-end bredd 50 % (100 % fler portar för minnesoperationer), likt Zen2 har man 33 % större L2-TLB$.

En stor orsak till att Nehalem -> Sandy Bridge -> Haswell -> Skylake (mikroarkitekturändringarna, tock:en) bara sett 5-10 % IPC-ökning är att storleken på kretsen minskat rätt kraftigt. Man har mer använt krympningarna till att optimera servers för fler kärnor och minska tillverkningskostnad för konsumenter. Även i dessa har det krävts rätt stora relativa förändringar i teoretisk kapacitet för en rätt liten praktisk ökning.

TL;DR är ändå att man kan skruva upp IPC, men kvoten ökning IPC mot ökning antal transistorer är rätt dålig och minskar

Bara liten detalj men på Zen2 är ca 10-15% av CCD själva IF bryggan till cIOD, så CCX storleken har minskat från ca 45 till ca 35 mm^2.

Skickades från m.sweclockers.com

Visa signatur

"Oh glorious cheeseburger… we bow to thee. The secrets of the universe are between the buns..."
"All my farts come straight from hell, you're already dead if you notice a smell"

Permalänk
Datavetare
Skrivet av wowsers:

Bara liten detalj men på Zen2 är ca 10-15% av CCD själva IF bryggan till cIOD, så CCX storleken har minskat från ca 45 till ca 35 mm^2.

Skickades från m.sweclockers.com

Kvittar då ~dubbla antalet transistorer var rätt ungefärligt. Har hittat Samsung/GF och TSMCs påstådda densitet i MTr/mm² på relevanta noder.

Med de siffrorna är TSMCs 7 nm rätt exakt tre gånger tätare, vilket betyder att antalet transistorer ökat med ca 2,3 om vi använder dina siffror.

Slutsatsen är ändå densamma. AMD ökade antalet transistorer mer än Intel vid Zen+ -> Zen2 vs Skylake -> Sunny Cove. AMD använde den största andel till L3$ (cache i de storlekar AMD och Intel har på LLC tar rejält med plats!) medan Intel använde dem nästan uteslutande till logik.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer