Intels färdplan täcker in 7, 5, 3, 2 och 1,4 nanometer till år 2029

Trädvy Permalänk
Medlem
Plats
Hudiksvall
Registrerad
Maj 2002

@HenrikM: Vilket visar på hur dålig 14nm faktiskt var i början, checkade Silicon Lottery och endast 12% av 5775C klarade 4,3GHz (utan AVX).

Trädvy Permalänk
Medlem
Plats
Finland
Registrerad
Jul 2009

Hmm, undrar nog hur pass stora förbättringar det blir med tanke på att densiteten ökar snabbare än energieffektiviteten, dvs kretsarna blir svårare att kyla! När behöver vi löda kylplattan till vattenkylaren till kislet?

Hoppas innerligt dock att vi kan se åtminstone tredubbla IPC ökning till år 2029, det med ökat stöd för multitrådat i spel skulle göra fysik med mera otroligt precist! Längtar efter spel med realistisk fysik där man kan göra nästa allt man kan göra i verkliga livet, gräva gropar, spränga berg, smälta metall o.s.v.

64C/256T CPUer med 64 MB l2$ två 512 MB L3$ och 512 GB RAM i bortåt 1TB/s vore nanna för gemene man, förutsatt att man löst mjukvarubiten!

2700x||16GB @2933Mhz||Vega 64||1TB SSD||HX1000 plat||FD R6 TG vit||CH VII||H100i V2||SST-ARM22SC||SG 32" QHD 144 Hz VA|| https://folding.extremeoverclocking.com/team_summary.php?s=&t...

Trädvy Permalänk
Medlem
Plats
Piteå
Registrerad
Jul 2017
Skrivet av Esseboy:

Hmm, undrar nog hur pass stora förbättringar det blir med tanke på att densiteten ökar snabbare än energieffektiviteten, dvs kretsarna blir svårare att kyla! När behöver vi löda kylplattan till vattenkylaren till kislet?

Hoppas innerligt dock att vi kan se åtminstone tredubbla IPC ökning till år 2029, det med ökat stöd för multitrådat i spel skulle göra fysik med mera otroligt precist! Längtar efter spel med realistisk fysik där man kan göra nästa allt man kan göra i verkliga livet, gräva gropar, spränga berg, smälta metall o.s.v.

64C/256T CPUer med 64 MB l2$ två 512 MB L3$ och 512 GB RAM i bortåt 1TB/s vore nanna för gemene man, förutsatt att man löst mjukvarubiten!

Om inget revolutionerade händer så tror jag inte att det kommer att ske. För just nu handlar IPC förbättringar per generation någonstans mellan 5-8% och 10-15%. Följer man den kartan så kommer man inte ens vara nära 3 ggr högre IPC än vad man ser idag. Däremot så kommer allt mer programvara börja stödja multitrådat. Något man redan ser idag.

NZXT H440 | Intel i7 7700K @ 5 GHz | Asus strix Z270H Gaming | 16GB Corsair DDR4 3200 mhz | EVGA RTX 2070 Black | 512 GB Samsung Pro 850 SSD | Corsair HX750 |

Trädvy Permalänk
Medlem
Plats
Finland
Registrerad
Jul 2009
Skrivet av Xinpei:

Om inget revolutionerade händer så tror jag inte att det kommer att ske. För just nu handlar IPC förbättringar per generation någonstans mellan 5-8% och 10-15%. Följer man den kartan så kommer man inte ens vara nära 3 ggr högre IPC än vad man ser idag. Däremot så kommer allt mer programvara börja stödja multitrådat. Något man redan ser idag.

In chiplet and 3D stacking we trust Hoppas det blir gött. Med 12% mer per år i 10 år når vi 300% högre prestanda

2700x||16GB @2933Mhz||Vega 64||1TB SSD||HX1000 plat||FD R6 TG vit||CH VII||H100i V2||SST-ARM22SC||SG 32" QHD 144 Hz VA|| https://folding.extremeoverclocking.com/team_summary.php?s=&t...

Trädvy Permalänk
Datavetare
Plats
Stockholm
Registrerad
Jun 2011
Skrivet av Xinpei:

Om inget revolutionerade händer så tror jag inte att det kommer att ske. För just nu handlar IPC förbättringar per generation någonstans mellan 5-8% och 10-15%. Följer man den kartan så kommer man inte ens vara nära 3 ggr högre IPC än vad man ser idag. Däremot så kommer allt mer programvara börja stödja multitrådat. Något man redan ser idag.

Tror inte heller 3 ggr högre IPC från idag är realistiskt. Har ändå skruvat upp nivån på hur långt jag tror man kan komma med IPC, primärt då Apple numera har 80 % högre IPC jämfört med Zen2/Skylake. Även ARM har visat vad som är möjligt, Cortex A76 matchar Zen2/Skylake, Cortex A77 ökade IPC ~25 % och ARM har kommuncerat att kommande 2-3 generationer (en per år) kommer öka enkeltrådprestanda med 20-30 %.

Visst är Aarch64 en långt bättre ISA jämfört med x86_64, men svårt att tänk mig att det ger mer än kanske 30-40 % högre IPC, inte 80 % som fallet är nu (Apples A13 kärnor är helt jämförbara med Zen2/Skylake i komplexitet och storlek, Cortex A76 är väsentligt mindre).

Förstår dock inte varför du skriver 5-8 % och 10-15 %. Vad är vad där och varför tror du på olika utveckling för samma ISA?

Zen+ -> Zen2 gav ~15 % högre IPC. Fast kolla vad som krävdes... 8 Zen+ kärnor + L3$ tog ungefär 90 mm² kretsyta på GF/Samsung 14 nm medan 8 Zen2 kärnor + L3$ tar ~80 mm². TSMC hävdar dubbel densitet från 16 nm -> 10 nm och 1,6 gånger från 10 nm -> 7 nm, så 3,2 gånger högre densitet på 7 nm jämfört med 16 nm.

Nu gick AMD från GF/Samsung, GF planerade 7 nm process hade nära nog identisk densitet med TSMC. GF hävdade 2,8 gånger högre densitet från deras 14 nm till 7 nm. Så TSMC och GF siffror är sammstämmiga då TSMC 16 nm hade lägre densitet jämfört med GF/Samsung 14 nm.

Slutsatsen man kan dra är att Zen2 lär använda mer än dubbelt så många transistorer för CPU+L3$, det för 15 % högre IPC... Låter inte helt osannolikt när man ser att L3$, μ-op cache, SIMD-bredd fördubblades, antal ld/st-portar ökade 50%, L2-TLB$ ökade 33 %, out-of-order fönstret ökade 17 %, scheduler-köer ökade ~10 %. En sådan massiv förändring kan bara göras ihop med byte av nod, finns ingen chans att Zen3 (TSMC 7 nm+) kommer se en så stor ökning om man inte samtidigt kraftigt ökar storleken på kretsytan.

Skylake -> Sunny Cove verkar ju ha gett mer än de 18 % som Intel skrivit. ST GB5 visar på en ~22 % ökning av IPC, Phoronix uppmätte ~24 % högre prestanda hos i7-1065G över i7-8655U (då har den senare både högre maxboost och högre basfrekvens).

Men åter igen. Kollar man på vad som ändrats för att få den ökning så påminner den om Zen+ -> Zen. Arean för 4 st CPU+L3$ har minskat från ~50 mm² till ~30 mm² (fast med en densitetsökning på upp mot 2,7 gånger). En stor orsak är nog att Intel inte ökat L3$, L3$ tar massiv mängd utrymme i anspråk (lite över 50 % av Zen2-chiplet ser ut att vara L3$). Men huvudförändringen till Willow Cove är just massiv ökning av cache (L2$ ökar till 1,25 MB från ,25 MB i Skylake och ,5 MB i Sunny Cove, L3$ kommer öka 50 %), så då lär man vara tillbaka på ~50 mm² igen.

Antar vi att Intel faktiskt stannat vid sin ursprungliga 10 nm densitet (vilket mycket pekar på när folk jämfört storlek på t.ex. iGPU EUs) så har Sunny Cove CPU+L3$ ~60 % fler transistorer (och det är i praktiken 60 % fler transistorer i CPU då L3$ är lika stor som innan). Man har ökat L2$ och ITLB$ 100%, 80 % fler läs operationer kan vara "in-flight" (bra för att "gömma" latens), out-of-order fönstret hela 60 % (det lär svida i transistorbudget!), ökat μ-op och L1d$ 50 %, ökad back-end bredd 50 % (100 % fler portar för minnesoperationer), likt Zen2 har man 33 % större L2-TLB$.

En stor orsak till att Nehalem -> Sandy Bridge -> Haswell -> Skylake (mikroarkitekturändringarna, tock:en) bara sett 5-10 % IPC-ökning är att storleken på kretsen minskat rätt kraftigt. Man har mer använt krympningarna till att optimera servers för fler kärnor och minska tillverkningskostnad för konsumenter. Även i dessa har det krävts rätt stora relativa förändringar i teoretisk kapacitet för en rätt liten praktisk ökning.

TL;DR är ändå att man kan skruva upp IPC, men kvoten ökning IPC mot ökning antal transistorer är rätt dålig och minskar

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Trädvy Permalänk
Medlem
Plats
Piteå
Registrerad
Jul 2017
Skrivet av Yoshman:

Tror inte heller 3 ggr högre IPC från idag är realistiskt. Har ändå skruvat upp nivån på hur långt jag tror man kan komma med IPC, primärt då Apple numera har 80 % högre IPC jämfört med Zen2/Skylake. Även ARM har visat vad som är möjligt, Cortex A76 matchar Zen2/Skylake, Cortex A77 ökade IPC ~25 % och ARM har kommuncerat att kommande 2-3 generationer (en per år) kommer öka enkeltrådprestanda med 20-30 %.

Visst är Aarch64 en långt bättre ISA jämfört med x86_64, men svårt att tänk mig att det ger mer än kanske 30-40 % högre IPC, inte 80 % som fallet är nu (Apples A13 kärnor är helt jämförbara med Zen2/Skylake i komplexitet och storlek, Cortex A76 är väsentligt mindre).

Förstår dock inte varför du skriver 5-8 % och 10-15 %. Vad är vad där och varför tror du på olika utveckling för samma ISA?

Zen+ -> Zen2 gav ~15 % högre IPC. Fast kolla vad som krävdes... 8 Zen+ kärnor + L3$ tog ungefär 90 mm² kretsyta på GF/Samsung 14 nm medan 8 Zen2 kärnor + L3$ tar ~80 mm². TSMC hävdar dubbel densitet från 16 nm -> 10 nm och 1,6 gånger från 10 nm -> 7 nm, så 3,2 gånger högre densitet på 7 nm jämfört med 16 nm.

Nu gick AMD från GF/Samsung, GF planerade 7 nm process hade nära nog identisk densitet med TSMC. GF hävdade 2,8 gånger högre densitet från deras 14 nm till 7 nm. Så TSMC och GF siffror är sammstämmiga då TSMC 16 nm hade lägre densitet jämfört med GF/Samsung 14 nm.

Slutsatsen man kan dra är att Zen2 lär använda mer än dubbelt så många transistorer för CPU+L3$, det för 15 % högre IPC... Låter inte helt osannolikt när man ser att L3$, μ-op cache, SIMD-bredd fördubblades, antal ld/st-portar ökade 50%, L2-TLB$ ökade 33 %, out-of-order fönstret ökade 17 %, scheduler-köer ökade ~10 %. En sådan massiv förändring kan bara göras ihop med byte av nod, finns ingen chans att Zen3 (TSMC 7 nm+) kommer se en så stor ökning om man inte samtidigt kraftigt ökar storleken på kretsytan.

Skylake -> Sunny Cove verkar ju ha gett mer än de 18 % som Intel skrivit. ST GB5 visar på en ~22 % ökning av IPC, Phoronix uppmätte ~24 % högre prestanda hos i7-1065G över i7-8655U (då har den senare både högre maxboost och högre basfrekvens).

Men åter igen. Kollar man på vad som ändrats för att få den ökning så påminner den om Zen+ -> Zen. Arean för 4 st CPU+L3$ har minskat från ~50 mm² till ~30 mm² (fast med en densitetsökning på upp mot 2,7 gånger). En stor orsak är nog att Intel inte ökat L3$, L3$ tar massiv mängd utrymme i anspråk (lite över 50 % av Zen2-chiplet ser ut att vara L3$). Men huvudförändringen till Willow Cove är just massiv ökning av cache (L2$ ökar till 1,25 MB från ,25 MB i Skylake och ,5 MB i Sunny Cove, L3$ kommer öka 50 %), så då lär man vara tillbaka på ~50 mm² igen.

Antar vi att Intel faktiskt stannat vid sin ursprungliga 10 nm densitet (vilket mycket pekar på när folk jämfört storlek på t.ex. iGPU EUs) så har Sunny Cove CPU+L3$ ~60 % fler transistorer (och det är i praktiken 60 % fler transistorer i CPU då L3$ är lika stor som innan). Man har ökat L2$ och ITLB$ 100%, 80 % fler läs operationer kan vara "in-flight" (bra för att "gömma" latens), out-of-order fönstret hela 60 % (det lär svida i transistorbudget!), ökat μ-op och L1d$ 50 %, ökad back-end bredd 50 % (100 % fler portar för minnesoperationer), likt Zen2 har man 33 % större L2-TLB$.

En stor orsak till att Nehalem -> Sandy Bridge -> Haswell -> Skylake (mikroarkitekturändringarna, tock:en) bara sett 5-10 % IPC-ökning är att storleken på kretsen minskat rätt kraftigt. Man har mer använt krympningarna till att optimera servers för fler kärnor och minska tillverkningskostnad för konsumenter. Även i dessa har det krävts rätt stora relativa förändringar i teoretisk kapacitet för en rätt liten praktisk ökning.

TL;DR är ändå att man kan skruva upp IPC, men kvoten ökning IPC mot ökning antal transistorer är rätt dålig och minskar

5-8% samt 10-15% baseras på hur Intel kontra AMD ökat de senaste åren i ren IPC (medelvärde). Taget från 6700k - > 9900K samt Zen - > Zen 2.

Vad Intel påstås öka i IPC mellan två generationer tar jag med en nypa salt med tanke på hur deras PR sköts idag.

NZXT H440 | Intel i7 7700K @ 5 GHz | Asus strix Z270H Gaming | 16GB Corsair DDR4 3200 mhz | EVGA RTX 2070 Black | 512 GB Samsung Pro 850 SSD | Corsair HX750 |

Trädvy Permalänk
Datavetare
Plats
Stockholm
Registrerad
Jun 2011
Skrivet av Xinpei:

5-8% samt 10-15% baseras på hur Intel kontra AMD ökat de senaste åren i ren IPC (medelvärde). Taget från 6700k - > 9900K samt Zen - > Zen 2.

Vad Intel påstås öka i IPC mellan två generationer tar jag med en nypa salt med tanke på hur deras PR sköts idag.

Fast från 6700K till 9900K har ju IPC ökningen varit exakt noll. Det är ju samma mikroarkitektur!
Och AMD hade ju bara några enstaka procent mellan Zen till Zen+, dessa har väldigt snarlik mikroarkitektur men dock inte identiskt.

Var också rätt skeptisk till de 18 % Intel nämnde som IPC ökning hos Sunny Cove. Självklart beror det på vad man mäter, men har trillat in rätt många resultat som visar att 18 % i alla fall inte var en överdrift. PR ska man absolut vara skeptisk till, men finns ingen anledning att tvivla på faktiska mätresultat.

Men ändå lite svårt att imponeras av AMDs 15 % och Intels 18 % givet hur brutalt många fler transistorer de stoppat in i CPU+L3$ för att nå dessa. Och det var huvudpoängen ovan, visst kommer vi få se fortsatt IPC ökning men kommer nog bara vara ihop med nodkrympningar man får se någon större ökning. Både AMD och Intel verkar vara inne på att krympningar efter 7 nm antagligen medför lägre maximal frekvens, vilket då tyvärr äter upp en del av IPC-vinsten.

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Trädvy Permalänk
Medlem
Plats
Piteå
Registrerad
Jul 2017
Skrivet av Yoshman:

Fast från 6700K till 9900K har ju IPC ökningen varit exakt noll. Det är ju samma mikroarkitektur!
Och AMD hade ju bara några enstaka procent mellan Zen till Zen+, dessa har väldigt snarlik mikroarkitektur men dock inte identiskt.

Var också rätt skeptisk till de 18 % Intel nämnde som IPC ökning hos Sunny Cove. Självklart beror det på vad man mäter, men har trillat in rätt många resultat som visar att 18 % i alla fall inte var en överdrift. PR ska man absolut vara skeptisk till, men finns ingen anledning att tvivla på faktiska mätresultat.

Men ändå lite svårt att imponeras av AMDs 15 % och Intels 18 % givet hur brutalt många fler transistorer de stoppat in i CPU+L3$ för att nå dessa. Och det var huvudpoängen ovan, visst kommer vi få se fortsatt IPC ökning men kommer nog bara vara ihop med nodkrympningar man får se någon större ökning. Både AMD och Intel verkar vara inne på att krympningar efter 7 nm antagligen medför lägre maximal frekvens, vilket då tyvärr äter upp en del av IPC-vinsten.

Som sagt. Jag ifrågasätter egentligen inte "18%" utan jag ställer följdfrågan.. Under vilken last? Du har däremot rätt att prestandan inte händelsevis blir bättre med högre IPC eftersom klockfrekvensen spelar in. AMD har dock haft en ökning när det kommer till klockfrekvensen på Zen 2 så där har prestandan skjutit förbi Intel i vissa fall.

NZXT H440 | Intel i7 7700K @ 5 GHz | Asus strix Z270H Gaming | 16GB Corsair DDR4 3200 mhz | EVGA RTX 2070 Black | 512 GB Samsung Pro 850 SSD | Corsair HX750 |

Trädvy Permalänk
Medlem
Plats
Sundsvall
Registrerad
Okt 2003

Den som vill läsa den ursprungliga artikeln (kinesiska, från 28/10) som sedan skrivits om några iterationer innan innehållet hamnat här kan se här.

Skrivet av Esseboy:

... När behöver vi löda kylplattan till vattenkylaren till kislet?

Jag förstår inte frågan...
Lösningen är förstås att inte använda kylblock alls, utan ersätta värmespridaren med en huv över chipen, där man skruvar fast slangnipplarna. Vattnet ska vara i direkt kontakt med chipen för bästa effekt!

För övrigt anser jag att MS FlightSim X borde vara standard som ett av benchmarkprogrammen.

Trädvy Permalänk
Medlem
Plats
Göteborg
Registrerad
Nov 2018
Skrivet av Yoshman:

visst kommer vi få se fortsatt IPC ökning men kommer nog bara vara ihop med nodkrympningar man får se någon större ökning. Både AMD och Intel verkar vara inne på att krympningar efter 7 nm antagligen medför lägre maximal frekvens, vilket då tyvärr äter upp en del av IPC-vinsten.

Är det lokal värmeutveckling som begränsar? Hur mycket kan man vinna på att glesa ut avstånden mellan de enskilda kärnorna för att möjliggöra större avkylning per kärna? Förlorar man massvis i latens då, i stället?

Moderkort: Gigabyte X570 Aorus Master | CPU: AMD Ryzen R9 3900X | CPU-kylare: be quiet! Dark Rock Pro 4 | RAM: Corsair Vengeance 32 GB (4x8) DDR4-3000 CL15 LPX | GPU: Palit RTX 2080 Ti 11 GB GamingPro OC | SSD: Samsung 970 EVO Plus 1 TB NVMe + Kingston A400 480 GB + Samsung QVO860 1 TB | PSU: EVGA SuperNOVA G2 1000 W Gold | Chassi: be quiet! Silent Base 801 | Skärm: BenQ PD3200U @ 3840x2160 + ASUS ROG Strix XG32VQ @ 2560x1440 | Tangentbord: Corsair K68 RGB Cherry MX Red | Mus: Logitech MX Master 2S

Trädvy Permalänk
Datavetare
Plats
Stockholm
Registrerad
Jun 2011
Skrivet av Xinpei:

Som sagt. Jag ifrågasätter egentligen inte "18%" utan jag ställer följdfrågan.. Under vilken last? Du har däremot rätt att prestandan inte händelsevis blir bättre med högre IPC eftersom klockfrekvensen spelar in. AMD har dock haft en ökning när det kommer till klockfrekvensen på Zen 2 så där har prestandan skjutit förbi Intel i vissa fall.

Tja, i.o.f.s. tror jag att Cinebench är väsentligt mindre än 18 % (verkar vara ca 12 %), så ur den aspekten kanske det är "fail" bland många här. Vem vill inte köra rendering på en CPU när det krävs minst ett GTX 1660S för att matcha 32-kärnors Thread Ripper

Mer seriöst. GB5 har en riktigt bra mix av arbetslaster, där ligger genomsnittlig IPC-ökning på ~22 %. Phoronix hade lite väl hög andel HPC-laster, det är en stor orsak till att de såg >30 % IPC-ökning (Sunny Cove har AVX512).
Edit: kollade några resultat för Zen+ och Zen2 i GB5, är 14-15 % IPC-övertag för Zen2, vilket stämmer väldigt bra med vad AMD hävdar.

Edit2: AnandTech har en väldigt bra jämförelse mellan AMD och Intel i 15" Surface Laptop 3. I SPEC2017 har Sunny Cove ~20 % högre IPC jämfört med Skylake, tyvärr klart större fördel i flyttal än det långt viktigare heltalstesterna.

"On purely CPU based tasks, Ice Lake really stretched its legs, and despite this being a 3.9 GHz chip, in single-threaded SPEC 2017, it managed to come very close to a 5.0 GHz Core i9-9900K with a massively higher TDP."

Men att relativ IPC varierar kraftigt beroende på last gäller ju alla CPUer!

Skrivet av cyklonen:

Är det lokal värmeutveckling som begränsar? Hur mycket kan man vinna på att glesa ut avstånden mellan de enskilda kärnorna för att möjliggöra större avkylning per kärna? Förlorar man massvis i latens då, i stället?

Har inte sett exakt orsak, men "hot-spots" (för hög W/mm² i vissa specifika områden) är garanterat ett snabbt ökande problem då transistordensiteten numera ökar mycket snabbare än effektiviteten (Dennard scaling är död). Det finns en hård fysisk gräns för hur mycket effekt som kan kylas bort på en viss yta givet omgivande temperatur, kretsen maximala temperatur och materialet i CPUns kapsling.

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Trädvy Permalänk
Medlem
Plats
Göteborg
Registrerad
Nov 2018
Skrivet av Yoshman:

Har inte sett exakt orsak, men "hot-spots" (för hög W/mm² i vissa specifika områden) är garanterat ett snabbt ökande problem då transistordensiteten numera ökar mycket snabbare än effektiviteten (Dennard scaling är död). Det finns en hård fysisk gräns för hur mycket effekt som kan kylas bort på en viss yta givet omgivande temperatur, kretsen maximala temperatur och materialet i CPUns kapsling.

Mmm.

Men borde det inte gå att kraftigt slipa ner kiselskiktet ovanpå själva halvledarlagren (som ju bara tar upp några promille, om ens det, av hela tjockleken) och löda fast en effektiv kopparvärmespridare för att få ut lite mer kylprestanda?

Moderkort: Gigabyte X570 Aorus Master | CPU: AMD Ryzen R9 3900X | CPU-kylare: be quiet! Dark Rock Pro 4 | RAM: Corsair Vengeance 32 GB (4x8) DDR4-3000 CL15 LPX | GPU: Palit RTX 2080 Ti 11 GB GamingPro OC | SSD: Samsung 970 EVO Plus 1 TB NVMe + Kingston A400 480 GB + Samsung QVO860 1 TB | PSU: EVGA SuperNOVA G2 1000 W Gold | Chassi: be quiet! Silent Base 801 | Skärm: BenQ PD3200U @ 3840x2160 + ASUS ROG Strix XG32VQ @ 2560x1440 | Tangentbord: Corsair K68 RGB Cherry MX Red | Mus: Logitech MX Master 2S

Trädvy Permalänk
Medlem
Plats
Finland
Registrerad
Jul 2009
Skrivet av Olle P:

Den som vill läsa den ursprungliga artikeln (kinesiska, från 28/10) som sedan skrivits om några iterationer innan innehållet hamnat här kan se här.

Jag förstår inte frågan...
Lösningen är förstås att inte använda kylblock alls, utan ersätta värmespridaren med en huv över chipen, där man skruvar fast slangnipplarna. Vattnet ska vara i direkt kontakt med chipen för bästa effekt!

Nja, då har vattnet inte samma yta att absorbera värmen, kanske man göra kisel med mikroflänsar?

2700x||16GB @2933Mhz||Vega 64||1TB SSD||HX1000 plat||FD R6 TG vit||CH VII||H100i V2||SST-ARM22SC||SG 32" QHD 144 Hz VA|| https://folding.extremeoverclocking.com/team_summary.php?s=&t...

Trädvy Permalänk
Medlem
Plats
Skåne
Registrerad
Dec 2002

Pfffft......karta som ska vara i 10 år ner till 1,4nm när de inte ens kan få ut 10nm....

Intel måste ju förstå att deras trovärdighet fått sig en törn.

[Gigabyte EP35-DS4][Intel Core 2 Duo E8400 3.0 Ghz][2x2GB Corsair XMS 2][Gainward GTX 570][Sandisk Extreme II 480GB][Corsair HX 620W][Fractal Design Define XL R4][Acer GD245HQBID]

Trädvy Permalänk
Medlem
Plats
Lund
Registrerad
Sep 2008
Skrivet av Yoshman:

Fast från 6700K till 9900K har ju IPC ökningen varit exakt noll. Det är ju samma mikroarkitektur!
Och AMD hade ju bara några enstaka procent mellan Zen till Zen+, dessa har väldigt snarlik mikroarkitektur men dock inte identiskt.

Var också rätt skeptisk till de 18 % Intel nämnde som IPC ökning hos Sunny Cove. Självklart beror det på vad man mäter, men har trillat in rätt många resultat som visar att 18 % i alla fall inte var en överdrift. PR ska man absolut vara skeptisk till, men finns ingen anledning att tvivla på faktiska mätresultat.

Men ändå lite svårt att imponeras av AMDs 15 % och Intels 18 % givet hur brutalt många fler transistorer de stoppat in i CPU+L3$ för att nå dessa. Och det var huvudpoängen ovan, visst kommer vi få se fortsatt IPC ökning men kommer nog bara vara ihop med nodkrympningar man får se någon större ökning. Både AMD och Intel verkar vara inne på att krympningar efter 7 nm antagligen medför lägre maximal frekvens, vilket då tyvärr äter upp en del av IPC-vinsten.

Som du påpekar lite implicit, så är ju IPC-förbättringarna inte bara beroende på att man förstärkt själva kärnorna, utan också på att man avsevärt förbättrat prestandan i cache-hierarkierna. (Också där Apple lyckats göra bra ifrån sig i mobile domänen.) Är inte oense om om något, vill bara förstärka att det är ett område som kan ge en hel del även när förbättringar av kärnornas arkitektur börjar ge riktigt lite tillbaka.

Angående förhoppningar om att multitrådad prestanda skall dominera i framtiden vill jag citera John Carmack: "'Oh just thread your application.' Anyone that says that is basically an idiot, not appreciating the problems."

Inte för att multiparallellism inte kan ge förbättringar på sina ställen, och är det specifikt de ställena man behöver högra prestanda, ja då kan man vara optimist. Men att det skulle vara en general panacea är helt orealistiskt. Vilket är anledningen till att vi fortfarande ser stora ansträngningar för att få upp IPC och enkeltrådad prestanda. Det ger helt enkelt, trots de stora kostnaderna, mest bang for the buck. Om det är tillräckligt mycket mer bang för att vara lönt för konsument skall nog vara osagt, men tillverkarna måste ju ha försäljningsargument om nu kärnornas krig inte får genomslag i de breda konsumentleden.

Trädvy Permalänk
Datavetare
Plats
Stockholm
Registrerad
Jun 2011
Skrivet av EntropyQ3:

Som du påpekar lite implicit, så är ju IPC-förbättringarna inte bara beroende på att man förstärkt själva kärnorna, utan också på att man avsevärt förbättrat prestandan i cache-hierarkierna. (Också där Apple lyckats göra bra ifrån sig i mobile domänen.) Är inte oense om om något, vill bara förstärka att det är ett område som kan ge en hel del även när förbättringar av kärnornas arkitektur börjar ge riktigt lite tillbaka.

Angående förhoppningar om att multitrådad prestanda skall dominera i framtiden vill jag citera John Carmack: "'Oh just thread your application.' Anyone that says that is basically an idiot, not appreciating the problems."

Inte för att multiparallellism inte kan ge förbättringar på sina ställen, och är det specifikt de ställena man behöver högra prestanda, ja då kan man vara optimist. Men att det skulle vara en general panacea är helt orealistiskt. Vilket är anledningen till att vi fortfarande ser stora ansträngningar för att få upp IPC och enkeltrådad prestanda. Det ger helt enkelt, trots de stora kostnaderna, mest bang for the buck. Om det är tillräckligt mycket mer bang för att vara lönt för konsument skall nog vara osagt, men tillverkarna måste ju ha försäljningsargument om nu kärnornas krig inte får genomslag i de breda konsumentleden.

IPC ökningarna för typiska desktop-laster kommer långt mer från förändringar i exekveringsenheterna än från ökad storlek på cache, spel är noterbart undantag där stor L3$ lär hjälpa till i dagens titlar.

μ-op cache lär vara en väldigt viktigt komponent, ser ändå den mer som en implementationsdetalj i front-end än en normal cache. x86 instruktioner är vansinnigt kodade, μ-op cache är enda realistiska sättet att kunna levererar nog med instruktioner till riktigt breda back-ends. Både AMD och Intel ökade på bredd och djup i Zen2 resp Sunny Cove, rätt säker att det är primära orsaken till högre IPC för desktop.

Håller helt med det sista! Även på serversidan räcker det ofta med så lite som 20-25 % högre prestanda per kärna för att det i praktiken ska vara mer värt än att dubbla antalet kärnor. På desktop är cut-off i alla fall inte högre än så...

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Trädvy Permalänk
Medlem
Registrerad
Jul 2015
Skrivet av Yoshman:

Tror inte heller 3 ggr högre IPC från idag är realistiskt. Har ändå skruvat upp nivån på hur långt jag tror man kan komma med IPC, primärt då Apple numera har 80 % högre IPC jämfört med Zen2/Skylake. Även ARM har visat vad som är möjligt, Cortex A76 matchar Zen2/Skylake, Cortex A77 ökade IPC ~25 % och ARM har kommuncerat att kommande 2-3 generationer (en per år) kommer öka enkeltrådprestanda med 20-30 %.

Visst är Aarch64 en långt bättre ISA jämfört med x86_64, men svårt att tänk mig att det ger mer än kanske 30-40 % högre IPC, inte 80 % som fallet är nu (Apples A13 kärnor är helt jämförbara med Zen2/Skylake i komplexitet och storlek, Cortex A76 är väsentligt mindre).

Förstår dock inte varför du skriver 5-8 % och 10-15 %. Vad är vad där och varför tror du på olika utveckling för samma ISA?

Zen+ -> Zen2 gav ~15 % högre IPC. Fast kolla vad som krävdes... 8 Zen+ kärnor + L3$ tog ungefär 90 mm² kretsyta på GF/Samsung 14 nm medan 8 Zen2 kärnor + L3$ tar ~80 mm². TSMC hävdar dubbel densitet från 16 nm -> 10 nm och 1,6 gånger från 10 nm -> 7 nm, så 3,2 gånger högre densitet på 7 nm jämfört med 16 nm.

Nu gick AMD från GF/Samsung, GF planerade 7 nm process hade nära nog identisk densitet med TSMC. GF hävdade 2,8 gånger högre densitet från deras 14 nm till 7 nm. Så TSMC och GF siffror är sammstämmiga då TSMC 16 nm hade lägre densitet jämfört med GF/Samsung 14 nm.

Slutsatsen man kan dra är att Zen2 lär använda mer än dubbelt så många transistorer för CPU+L3$, det för 15 % högre IPC... Låter inte helt osannolikt när man ser att L3$, μ-op cache, SIMD-bredd fördubblades, antal ld/st-portar ökade 50%, L2-TLB$ ökade 33 %, out-of-order fönstret ökade 17 %, scheduler-köer ökade ~10 %. En sådan massiv förändring kan bara göras ihop med byte av nod, finns ingen chans att Zen3 (TSMC 7 nm+) kommer se en så stor ökning om man inte samtidigt kraftigt ökar storleken på kretsytan.

Skylake -> Sunny Cove verkar ju ha gett mer än de 18 % som Intel skrivit. ST GB5 visar på en ~22 % ökning av IPC, Phoronix uppmätte ~24 % högre prestanda hos i7-1065G över i7-8655U (då har den senare både högre maxboost och högre basfrekvens).

Men åter igen. Kollar man på vad som ändrats för att få den ökning så påminner den om Zen+ -> Zen. Arean för 4 st CPU+L3$ har minskat från ~50 mm² till ~30 mm² (fast med en densitetsökning på upp mot 2,7 gånger). En stor orsak är nog att Intel inte ökat L3$, L3$ tar massiv mängd utrymme i anspråk (lite över 50 % av Zen2-chiplet ser ut att vara L3$). Men huvudförändringen till Willow Cove är just massiv ökning av cache (L2$ ökar till 1,25 MB från ,25 MB i Skylake och ,5 MB i Sunny Cove, L3$ kommer öka 50 %), så då lär man vara tillbaka på ~50 mm² igen.

Antar vi att Intel faktiskt stannat vid sin ursprungliga 10 nm densitet (vilket mycket pekar på när folk jämfört storlek på t.ex. iGPU EUs) så har Sunny Cove CPU+L3$ ~60 % fler transistorer (och det är i praktiken 60 % fler transistorer i CPU då L3$ är lika stor som innan). Man har ökat L2$ och ITLB$ 100%, 80 % fler läs operationer kan vara "in-flight" (bra för att "gömma" latens), out-of-order fönstret hela 60 % (det lär svida i transistorbudget!), ökat μ-op och L1d$ 50 %, ökad back-end bredd 50 % (100 % fler portar för minnesoperationer), likt Zen2 har man 33 % större L2-TLB$.

En stor orsak till att Nehalem -> Sandy Bridge -> Haswell -> Skylake (mikroarkitekturändringarna, tock:en) bara sett 5-10 % IPC-ökning är att storleken på kretsen minskat rätt kraftigt. Man har mer använt krympningarna till att optimera servers för fler kärnor och minska tillverkningskostnad för konsumenter. Även i dessa har det krävts rätt stora relativa förändringar i teoretisk kapacitet för en rätt liten praktisk ökning.

TL;DR är ändå att man kan skruva upp IPC, men kvoten ökning IPC mot ökning antal transistorer är rätt dålig och minskar

Bara liten detalj men på Zen2 är ca 10-15% av CCD själva IF bryggan till cIOD, så CCX storleken har minskat från ca 45 till ca 35 mm^2.

Skickades från m.sweclockers.com

"Oh glorious cheeseburger… we bow to thee. The secrets of the universe are between the buns..."
"All my farts come straight from hell, you're already dead if you notice a smell"

Trädvy Permalänk
Datavetare
Plats
Stockholm
Registrerad
Jun 2011
Skrivet av wowsers:

Bara liten detalj men på Zen2 är ca 10-15% av CCD själva IF bryggan till cIOD, så CCX storleken har minskat från ca 45 till ca 35 mm^2.

Skickades från m.sweclockers.com

Kvittar då ~dubbla antalet transistorer var rätt ungefärligt. Har hittat Samsung/GF och TSMCs påstådda densitet i MTr/mm² på relevanta noder.

Med de siffrorna är TSMCs 7 nm rätt exakt tre gånger tätare, vilket betyder att antalet transistorer ökat med ca 2,3 om vi använder dina siffror.

Slutsatsen är ändå densamma. AMD ökade antalet transistorer mer än Intel vid Zen+ -> Zen2 vs Skylake -> Sunny Cove. AMD använde den största andel till L3$ (cache i de storlekar AMD och Intel har på LLC tar rejält med plats!) medan Intel använde dem nästan uteslutande till logik.

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer