Intel Skylake efterträds av Kaby Lake 2016

2015-06-25 09:37

Medlem ★

Registrerad: Apr 2012

●

Skrivet av Friterad:

Du har uppenbarligen inte läst på om quantum processorer. Dom kommer enligt dom som försöker skapa dem antagligen att vara sämre än våra nuvarande datorer i just dom saker vi normalt gör så som surf och spel. Det handlar inte om att quantum ligger i samma stadium som första datorerna gjorde överhuvudtaget utan det har att göra med hur tekniken fungerar. Den är skapad för och bäst när den multitaskar och ska göra många olika saker men betydligt sämre på att göra en sak i taget.

Gå till inlägget

om det är så så kanske det blir som matteprocessor som förr fans extra att köpa till men idag är inbyggt i processorn. Och nej jag har inte direkt läst på men dom verkar inte direkt redo ännu även om google experimenterar med någon... frågan är nog snarare när det kommer Kvant Datorer som klarar rumstemepratur istället för att den ska kylas med flytande kväve. Liknelsen med dom första datorerna känns fortfarande riktig i och med att dessa är stora och klumpiga, otroligt dyra och sett från ett framtida perspektiv troligtvis väldigt långsamma

Senast redigerat 2015-06-25 09:49

Rapportera Redigera

Citera flera Citera

2015-06-25 10:21

Permalänk

Kilroy

Medlem ★

Plats: Stockholm
Registrerad: Jul 2001

●

Skrivet av Gender Bender:

En stark kärna är bara till en fördel tills man når smärttröskeln för vad som anses vara rimlig energiförbrukning. Vi skulle ha kunnat fortsätt att höja klockfrekvensen i stället för att börja utveckla processorer med fler kärnor, men jag tror nog att en dator skulle få svettas en hel del om man körde en processor i uppemot 20 GHz, för att inte tala om vilka monster till nätagg vi skulle behöva och kylanordning för att leda bort värmen. Klockfrekvensen kom ikapp tillverkningstekniken, och fler kärnor blev en väldigt smart kompromiss om du frågar mig. För det hade inte varit rimligt att fortsätta öka klockfrekvensen och samtidigt höja energiförbrukningen. Den första Pentium-processorn förbrukade bara 8W, och i takt med att klockfrekvenserna höjdes så nådde man till slut en energiförbrukning på över 100W. Här började ingenjörerna att inse problemet och IBM utvecklade då den första processorn med dubbla kärnor som teoretiskt kunde prestera dubbelt så bra men samtidigt behålla samma energiförbrukning. Problemet är väl att teorin i sig inte stämmer helt och hållet, men visst, om det var möjligt att fortsätta i dessa banor och bara skruva upp klockfrekvensen så hade vi haft effektivare processorer idag, men ser man det ur ett realistiskt perspektiv så är fler kärnor den rätta vägen att gå idag då det blir en större och större utmaning att krympa tillverkningsprocessen. Och ett API som gör fler kärnor mer effektiva är mer än välkommet i en tid där vi mer eller mindre måste köra med fler kärnor.

Gå till inlägget

Det var ju exakt det jag sade...

Rapportera Redigera

Citera flera Citera

2015-06-25 14:01

Permalänk

Friterad

Medlem ★

Registrerad: Jan 2013

●

Skrivet av Alpha77:

om det är så så kanske det blir som matteprocessor som förr fans extra att köpa till men idag är inbyggt i processorn. Och nej jag har inte direkt läst på men dom verkar inte direkt redo ännu även om google experimenterar med någon... frågan är nog snarare när det kommer Kvant Datorer som klarar rumstemepratur istället för att den ska kylas med flytande kväve. Liknelsen med dom första datorerna känns fortfarande riktig i och med att dessa är stora och klumpiga, otroligt dyra och sett från ett framtida perspektiv troligtvis väldigt långsamma

Gå till inlägget

Program måste vara särskilt gjorda för just quantum-datorn och det är som sagt inget utbyte mot dagens system. Tror det är något som stora företag, underrättelsetjänster och regeringar vill ha. Nasa t.ex ville ha detta, vet inte om dom redan börjat använda det men det är inte omöjligt.

En väldigt bra video om man vill veta mer om detta: https://www.youtube.com/watch?v=g_IaVepNDT4

Det är inte omöjligt att man gör en hybrid men om det skulle vara till en fördel är inte sannolikt. För vanliga användare då givetvis

Rapportera Redigera

Citera flera Citera

2015-06-29 21:54

Permalänk

MichaelJackson

Medlem

Registrerad: Sep 2014

●

Skrivet av Yoshman:

Worst case latency mot RAM: ~100ns
Best case latency på en kärna i power-save mode: ~100µs

Gå till inlägget

Se nedan

Skrivet av Yoshman:

SMT har en fördel här, används något av trådarna hos en fysisk kärna så kan övriga CPU-trådar användas med nära nog noll latens. SMT är därför väldigt användbart på en server. Ovanpå det kan en modern Intel CPU kan ha upp till 200 instruktioner "in-flight", så den är i många fall kapabel att "gömma" rätt mycket latens genom att göra andra beräkningar out-of-order medan den väntar på en minnesaccess.

Gå till inlägget

Jaså, jag har läst i en teknisk artikel att switcha mellan trådar tar flera hundra cykler på x86. Och att det bara är SPARC T1, T2, etc som kan switcha trådar snabbt och på så sätt dölja latens, genom att arbeta med nåt annat då tråden väntar på data från RAM. Har du länk som stödjer påståendet att x86 kan switcha snabbt? En annan studie visade att SPARC har typ 95% cpu utilization under full load, medan studier från Intel visade att en server x86 cpu, har cpu utiliation på kring 50% eller så, under full load. Om det nu stämmer som du säger, att x86 kan gömma latens, så borde Intelstudien visat att en server x86 cpu har en cpu utilization på kring 90% precis som SPARC. Så något är fishy.

SPARC T1 var ju kanske 10x snabbare än x86 på trådade server laster, trots att den var klockad på typ 1.2GHz med totalt 256KB cpu cache, och Xeon x86 var klockad på 2.5GHz och cpu cache på flera MB. Så därför var det möjligt att SPARC T1 krossade en x86, pga 95% cpu utilization medan x86 hade 50% cpu utilization. Så något är fishy. Hur kan SPARC T1 vara 10x snabbare än x86 om de döljer lika mycket latens genom snabb trådswitchning?

Jag ser minst två sätt hur man kan förklara att SPARC T1 är 10x snabbare än x86 på vissa trådade serverlaster.
1) Du har fel, x86 tar flera hundra cyckler att switcha tråd, precis som jag läst och kan alltså inte dölja latens. Och det är därför SPARC T1 är 10x snabbare än x86.
2) x86 kan switcha snabbt, men eftersom SMT bara har två trådar så kan inte mycket latens döljas och därför är SPARC T1 över 10x snabbare på vissa laster.

I båda dessa fall har du fel. Så har du länkar? Det låter inte troligt att x86 kan dölja latens, för då borde x86 ha cpu utilization på 95% precis som SPARC T1, och då finns inte en chans att SPARC T1 var 10x snabbare, eftersom x86 har mer än dubbelt så bra specar (dubbla GHz, dubbla cache storleken = 4x bättre spec)

Skrivet av Yoshman:

Din beskrivning av UV2000 minnesdesign är så fel att det inte är lönt att försöka peka ut missar, det första steget är nog att du läser på om "crossbar switch".

Gå till inlägget

Jag har kollat upp UV2000 igen och det verkar vara lite olika bud. Föregångaren till UV2000 hade i alla fall fat tree topology, dvs hierarkier med olika lager av switchar.
http://clusterdesign.org/fat-trees/

Här står att UV2000 består av ett rack som består av flera IRU, dvs 8 compute blades i varje IRU. Dessa 8 blades är kopplade inuti en IRU enhet genom en 3D enhanced hypercube. Och varje sådan IRU enhet är kopplade samman i en cross bar interconnect, dvs en vanlig matris. Så det är alltså en matris med massa IRU enheter.
http://www.theplatform.net/2015/03/05/balancing-scale-and-sim...

Men här står det nåt på sidan 8 längst ned, att UV2000 med 256 sockets har "three level router topology". Jag vet inte vad det betyder, men kan det betyda tre lager av routrar eller nåt sånt, precis som föregångaren hade flera lager av hierarkiska switchar i en fat tree topology?
https://www.coursehero.com/file/p481j0/Figure-3b-256-socket-u...

detsamma står här
https://www.coursehero.com/file/p481j0/Figure-3b-256-socket-u...

I vilket fall som helst så är latensen till noder långt bort mer än 10x sämre än om man rör sig i samma enhet. T.ex. i en liten 64-socket SGI UV2000 är latensen 870 nanosekunder, dvs 10.7x sämre (sidan 4 i länken nedan). Om man skulle skala upp till 256-cpuer så skulle latensen bli mycket värre. Latensen minskar ju inte linjärt, utan värre än så. Det är därför alla stora Unix servrar stannar vid 32-cpuer.
www.adms-conf.org/2014/adms14_kissinger.pdf

Skrivet av Yoshman:

Det sagt så är det nog ingen som ens försökt hävda att man ska köra något annat än typiska HPC laster på system med 256 sockets,

Gå till inlägget

Nja, jag vet flera Linux fantaster (t.ex. virt*** v***) som tror på fullaste allvar att ett HPC cluster som SGI UV2000, kan ersätta och köra scale-up enterprise arbetslaster långt bättre än stora Unix servrar. Somliga av fantasterna har sagt att stora Unix servrar är dinosaurier och snart utdöda och att framtiden är hos stora Linux x86 servrar med 100 tals sockets. När jag påpekar att UV2000 är ett kluster eftersom det enda som körs på UV2000 är HPC laster, så idiotförklarar de mig. Jag frågar då varför alla höga SAP benchmarks är med stora Unix servrar, och alla x86 benchmarks är typiskt 8-sockets och med dåliga poäng och definitivt finns inte UV2000 med bland SAP benchmarks - så får jag inget svar. Men de fortsätter trots det hävda att UV2000 skalar bättre och ersätter stora Unix servrar som SPARC och POWER. Utan några bevis eller benchmarks, eftersom det inte existerar några bra x86 affärsbenchmarks att tala om. Det är bara stora Unix servrar med 32 sockets som klarar av bra affärsprestanda, eftersom Unix skalar långt bättre än x86 eller Linux. Nu pratar jag om scale-up (dvs en stor fet server), och inte scale-out (dvs kluster). Så, jo, det finns massor av såna människor som tror att Unix servrar är dinosaurier och snart utdöda, typiskt finns de i Linux lägret.

Skrivet av Yoshman:

NUMALink som UV2000 använder har dock bland den lägsta latens du hittar för inter-socket connects idag så det är definitivt möjligt att designa en "vanliga" server med mer rimligt mängd sockets.

Gå till inlägget

Visst kanske NUMALink6 ha en låg latens, men när man börjar skala upp så degraderas prestandan raskt. Med så få som 64-sockets blir latensen mer än 10x sämre. Föreställ dig då 256 sockets med kanske 4x sämre latens. Eller, som de gamla föregångarna till UV2000 som SGI hade, som skalade upp till 4096 cpuer - hur dålig tror du latensen var på ett sådant kluster? Det hade antagligen många många lager av switchar i hierarkier och latensen kröp upp mot millisekunder kanske?

Skrivet av Yoshman:

För lite verklighetscheck när man pratar om dessa system så kan man konstatera att <=4 sockets står för ~99% av alla servers som körs idag.

Gå till inlägget

Möjligt, men jag pratar om high end servrar. Och SAP säger själva i en studie att ca 10% av alla deras kunder vill ha >4-sockets.

Skrivet av Yoshman:

SPARC XIfx verkar rätt cool. Men den finns ännu inte (om jag inte totalt missat något), den ska tillverkas på 20nm och ingen har lyckats tillverka kretsar med denna storlek/komplexitet på denna nod ännu. Intel (som använder 22nm för Xeon E5/E7 för tillfället) har en peak-flyttalskapacitet på 800GFLOP/s per socket (ca 750GFLOP/s har uppmätts i faktiskt program), det är andra eller tredje gången du hävdar att x86 maxar på 300-400GFLOP/s och det är fortfarande fel.

Gå till inlägget

Vad jag kommer ihåg är detta första gången jag hävdar att x86 maxar på 3-400 gflops. Men strunt samma. Här står att POWER8 maxar på 384 gflops. Jag trodde inte att x86 har dubbelt så hög gflops? Har du länk?
http://www.oerc.ox.ac.uk/projects/asearch/hardware/ibm
"...see HotChips presentation above). With the cores running at 4GHz, and each core capable of 4 double precision FMA operations per cycle, the peak performance is 384 GFlops per chip. This is not as high as a top-of-the-line x86 CPU..."

Skrivet av Yoshman:

Edit: SPARC XIfx ska tydligen använda Hybrid Memory Cube också. Ännu coolare, men det finns väll inte heller i kommersiell produktion för tillfället?

Gå till inlägget

Jag vet inte. Jag är mer intresserad av SPARC M7 som är en server cpu, än denna XIfx som har två starka trådar per core vilket är ju mer desktop laster. M7 fokuserar ju på genomströmning, dvs serva många klienter samtidigt, dvs en riktig server cpu.

Rapportera Redigera

Citera flera Citera

2015-06-29 22:06

Permalänk

MichaelJackson

Medlem

Registrerad: Sep 2014

●

Skrivet av Gender Bender:

En stark kärna är bara till en fördel tills man når smärttröskeln för vad som anses vara rimlig energiförbrukning. Vi skulle ha kunnat fortsätt att höja klockfrekvensen i stället för att börja utveckla processorer med fler kärnor, men jag tror nog att en dator skulle få svettas en hel del om man körde en processor i uppemot 20 GHz,

Gå till inlägget

Jag har för mig att enligt fysikens lagar så är effektkravet = GHz * GHz * Volt
Så effekten växer alltså i kvadrat om du ökar GHz. Därför går det inte att gå över 5GHz på ett enkelt sätt.

IBM sade ju länge att deras POWER cpuer skulle gå mot 7-8GHz eller ännu snabbare. IBMs dual core POWER6 kördes ju på 5GHz och hade två trådar, dvs fyra trådar totalt. IBM sade explicit att "databaser körs bättre på få starka trådar, än många svaga trådar". Och om man vill ha många trådar, så stoppar man i många cpuer istället. Då får man både snabba och många trådar. Och därför ville IBM att deras cpuer skulle bli högre och högre klockade och siktade på 7-8GHz i nästa generation. IBM hånade SPARC T1 familjen som var "en nitlott och hade ingen framtid". IBM optimerade hela POWER för databaser, dvs hjärtat i alla affärsystem.

Samtidigt fanns den helt nya radikala SPARC T1 familjen och visade en annan väg med lägre klockade men många cores och många trådar. Så t.ex. behövdes tre IBM P470 servrar med 14 st POWER6 på 4.7 GHz för att matcha en enda Sun Niagara T5440 som har fyra st SPARC T2 cpuer på 1.6GHz i SIEBEL v8 benchmarks.

Men efter POWER6 så frångick IBM få men starka cores, och började likna SPARC mer och mer, med många och lägre klockade kärnor. T.ex. IBM POWER8 liknar ju SPARC M6 ganska mycket; både har 12 cores och 8 trådar varje kärna. Om man hade trott IBM så skulle POWER8 varit en eller två cores, med 12 GHz eller så. Men IBM insåg att det inte funkade, pga effektkraven mfl problem. Och nu är POWER ganska lik SPARC med många kärnor och många trådar. Och helt plötsligt anser IBM att det är så man ska bygga cpuer och att IBM är "revolutionerande och unika". När det i själva verket är starkt influerat av SPARC

Rapportera Redigera

Citera flera Citera

2015-06-29 22:26

Permalänk

Yoshman

Datavetare ★

Plats: Stockholm
Registrerad: Jun 2011

●

Skrivet av MichaelJackson:

Se nedan

Jaså, jag har läst i en teknisk artikel att switcha mellan trådar tar flera hundra cykler på x86. Och att det bara är SPARC T1, T2, etc som kan switcha trådar snabbt och på så sätt dölja latens, genom att arbeta med nåt annat då tråden väntar på data från RAM. Har du länk som stödjer påståendet att x86 kan switcha snabbt? En annan studie visade att SPARC har typ 95% cpu utilization under full load, medan studier från Intel visade att en server x86 cpu, har cpu utiliation på kring 50% eller så, under full load. Om det nu stämmer som du säger, att x86 kan gömma latens, så borde Intelstudien visat att en server x86 cpu har en cpu utilization på kring 90% precis som SPARC. Så något är fishy.

SPARC T1 var ju kanske 10x snabbare än x86 på trådade server laster, trots att den var klockad på typ 1.2GHz med totalt 256KB cpu cache, och Xeon x86 var klockad på 2.5GHz och cpu cache på flera MB. Så därför var det möjligt att SPARC T1 krossade en x86, pga 95% cpu utilization medan x86 hade 50% cpu utilization. Så något är fishy. Hur kan SPARC T1 vara 10x snabbare än x86 om de döljer lika mycket latens genom snabb trådswitchning?

Jag ser minst två sätt hur man kan förklara att SPARC T1 är 10x snabbare än x86 på vissa trådade serverlaster.
1) Du har fel, x86 tar flera hundra cyckler att switcha tråd, precis som jag läst och kan alltså inte dölja latens. Och det är därför SPARC T1 är 10x snabbare än x86.
2) x86 kan switcha snabbt, men eftersom SMT bara har två trådar så kan inte mycket latens döljas och därför är SPARC T1 över 10x snabbare på vissa laster.

I båda dessa fall har du fel. Så har du länkar? Det låter inte troligt att x86 kan dölja latens, för då borde x86 ha cpu utilization på 95% precis som SPARC T1, och då finns inte en chans att SPARC T1 var 10x snabbare, eftersom x86 har mer än dubbelt så bra specar (dubbla GHz, dubbla cache storleken = 4x bättre spec)

Jag har kollat upp UV2000 igen och det verkar vara lite olika bud. Föregångaren till UV2000 hade i alla fall fat tree topology, dvs hierarkier med olika lager av switchar.
http://clusterdesign.org/fat-trees/

Här står att UV2000 består av ett rack som består av flera IRU, dvs 8 compute blades i varje IRU. Dessa 8 blades är kopplade inuti en IRU enhet genom en 3D enhanced hypercube. Och varje sådan IRU enhet är kopplade samman i en cross bar interconnect, dvs en vanlig matris. Så det är alltså en matris med massa IRU enheter.
http://www.theplatform.net/2015/03/05/balancing-scale-and-sim...

Men här står det nåt på sidan 8 längst ned, att UV2000 med 256 sockets har "three level router topology". Jag vet inte vad det betyder, men kan det betyda tre lager av routrar eller nåt sånt, precis som föregångaren hade flera lager av hierarkiska switchar i en fat tree topology?
https://www.coursehero.com/file/p481j0/Figure-3b-256-socket-u...

detsamma står här
https://www.coursehero.com/file/p481j0/Figure-3b-256-socket-u...

I vilket fall som helst så är latensen till noder långt bort mer än 10x sämre än om man rör sig i samma enhet. T.ex. i en liten 64-socket SGI UV2000 är latensen 870 nanosekunder, dvs 10.7x sämre (sidan 4 i länken nedan). Om man skulle skala upp till 256-cpuer så skulle latensen bli mycket värre. Latensen minskar ju inte linjärt, utan värre än så. Det är därför alla stora Unix servrar stannar vid 32-cpuer.
www.adms-conf.org/2014/adms14_kissinger.pdf

Nja, jag vet flera Linux fantaster (t.ex. virt*** v***) som tror på fullaste allvar att ett HPC cluster som SGI UV2000, kan ersätta och köra scale-up enterprise arbetslaster långt bättre än stora Unix servrar. Somliga av fantasterna har sagt att stora Unix servrar är dinosaurier och snart utdöda och att framtiden är hos stora Linux x86 servrar med 100 tals sockets. När jag påpekar att UV2000 är ett kluster eftersom det enda som körs på UV2000 är HPC laster, så idiotförklarar de mig. Jag frågar då varför alla höga SAP benchmarks är med stora Unix servrar, och alla x86 benchmarks är typiskt 8-sockets och med dåliga poäng och definitivt finns inte UV2000 med bland SAP benchmarks - så får jag inget svar. Men de fortsätter trots det hävda att UV2000 skalar bättre och ersätter stora Unix servrar som SPARC och POWER. Utan några bevis eller benchmarks, eftersom det inte existerar några bra x86 affärsbenchmarks att tala om. Det är bara stora Unix servrar med 32 sockets som klarar av bra affärsprestanda, eftersom Unix skalar långt bättre än x86 eller Linux. Nu pratar jag om scale-up (dvs en stor fet server), och inte scale-out (dvs kluster). Så, jo, det finns massor av såna människor som tror att Unix servrar är dinosaurier och snart utdöda, typiskt finns de i Linux lägret.

Visst kanske NUMALink6 ha en låg latens, men när man börjar skala upp så degraderas prestandan raskt. Med så få som 64-sockets blir latensen mer än 10x sämre. Föreställ dig då 256 sockets med kanske 4x sämre latens. Eller, som de gamla föregångarna till UV2000 som SGI hade, som skalade upp till 4096 cpuer - hur dålig tror du latensen var på ett sådant kluster? Det hade antagligen många många lager av switchar i hierarkier och latensen kröp upp mot millisekunder kanske?

Möjligt, men jag pratar om high end servrar. Och SAP säger själva i en studie att ca 10% av alla deras kunder vill ha >4-sockets.

Vad jag kommer ihåg är detta första gången jag hävdar att x86 maxar på 3-400 gflops. Men strunt samma. Här står att POWER8 maxar på 384 gflops. Jag trodde inte att x86 har dubbelt så hög gflops? Har du länk?
http://www.oerc.ox.ac.uk/projects/asearch/hardware/ibm
"...see HotChips presentation above). With the cores running at 4GHz, and each core capable of 4 double precision FMA operations per cycle, the peak performance is 384 GFlops per chip. This is not as high as a top-of-the-line x86 CPU..."

Jag vet inte. Jag är mer intresserad av SPARC M7 som är en server cpu, än denna XIfx som har två starka trådar per core vilket är ju mer desktop laster. M7 fokuserar ju på genomströmning, dvs serva många klienter samtidigt, dvs en riktig server cpu.

Gå till inlägget

Teoretiskt peak FLOPS per cykel och kärna för Haswell är
4 (4 DP per AVX-register) * 2 (FMA) * 2 (2 FMA-ALUs) = 16DP per cykel och kärna

Xeon E5 2699v3 har 18 kärnor, maximal frekvens när alla kärnor är aktiv är 2.8GHz -> 18 * 2.8 * 16 = 806GFLOPS. I Linpack (som kan utnyttja FMA till väldigt nära 100% effektivitet) så går det att nå >700FLOPS i praktiken.

Du förstår uppenbarligen överhuvudtaget inte hur SMT fungerar så blir ingen vettig diskussion. Du säger att SPARC T1/T2 skulle vara bra på något sätt, det är i princip en barrel processor, att den byter tråd varje cykel är för att den måste. Barrel processors är den enklaste/minst effektiva varianten av SMT, så det är inget positivt!

Intels variant av SMT kör båda trådarna samtidigt, finns därför ingen motsvarighet till T1/T2 byte mellan trådar. Hur mycket varje tråd avancerar på Intel beror på vilka ALU-enheter som finns tillgängliga och huruvida data för instruktionerna finns tillgängligt, ovan på det finns heuristik där instruktioner som varit lägst in-flight får högre prioritet och den tråd som fått mindre "retired" instruktioner på sistone får också en boost så båda trådarna i snitt får lika mycket CPU-kraft.

Det var inte det jag refererade till när jag sa att latensen mellan trådar är i princip noll, jag refererade till latens för att leverera data från en tråd till en annan. Det är väldigt dyrt mellan "fysiska" kärnor p.g.a. av något känt som cache line bouncing. Alla trådar i samma fysiska CPU-kärna delar L1-cache så därför har man inget cache-line-bouncing problem.

Vad det gäller kontextswitch mellan trådar (d.v.s. byte av OS-tråd på CPU-tråd) så finns det nog ingen RISC, definitivt inte SPARC, som gör det billigare än x86. SPARC ska i det läget spara/ladda ett helt nytt registerhjul ("S" i SPARC) medan x86 kan skriva ut/spara tillbaka hela registerbanken med två instruktioner.

Den studie du tidigare refererar till kring CPU-utilization när du skulle visa SPARCs/Solaris överlägsenhet var mot P4! Ja, P4 sög som server, faktum är att Nehalem är den första "riktiga" server CPU som Intel någonsin gjort på x86. Tidigare Xeons var desktop CPUer med större cache och senare fler CPU-kärnor. Dagens Xeon E5/E7 skiljer på rätt många punkter från desktop-versionerna.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Rapportera Redigera

Citera flera Citera (4)

2015-06-29 23:21

Permalänk

MichaelJackson

Medlem

Registrerad: Sep 2014

●

Skrivet av Yoshman:

Teoretiskt peak FLOPS per cykel och kärna för Haswell är
4 (4 DP per AVX-register) * 2 (FMA) * 2 (2 FMA-ALUs) = 16DP per cykel och kärna

Xeon E5 2699v3 har 18 kärnor, maximal frekvens när alla kärnor är aktiv är 2.8GHz -> 18 * 2.8 * 16 = 806GFLOPS. I Linpack (som kan utnyttja FMA till väldigt nära 100% effektivitet) så går det att nå >700FLOPS i praktiken.

Gå till inlägget

Vad teorin säger kan man inte räkna med. Har du länkar som visar 700 gflops? Jag googlade förut på x86 och hittade inget vettigt. Jag hittade bara POWER8 siffran.

Skrivet av Yoshman:

Du förstår uppenbarligen överhuvudtaget inte hur SMT fungerar så blir ingen vettig diskussion. Du säger att SPARC T1/T2 skulle vara bra på något sätt, det är i princip en barrel processor, att den byter tråd varje cykel är för att den måste. Barrel processors är den enklaste/minst effektiva varianten av SMT, så det är inget positivt!

Gå till inlägget

Jag har för mig att SPARC T1/T2 byter tråd när den vill det, dvs när den får en cache miss. Inte att den byter varje cykel.

Skrivet av Yoshman:

Vad det gäller kontextswitch mellan trådar (d.v.s. byte av OS-tråd på CPU-tråd) så finns det nog ingen RISC, definitivt inte SPARC, som gör det billigare än x86. SPARC ska i det läget spara/ladda ett helt nytt registerhjul ("S" i SPARC) medan x86 kan skriva ut/spara tillbaka hela registerbanken med två instruktioner.

Gå till inlägget

Så den tekniska artikeln på djup detaljnivå som jag läste förrut, stämmer inte när den påstod att det tog flera hundra cykler att byta tråd för en x86? Har du länkar? Jag kan försöka hitta artikeln jag läste igen, men det var längesen, men jag ska googla lite. Men om du redan är säker på detta, så kanske du kan visa länk?

Men varför har SPARC T1/T2 ca 95% cpu utilization och x86 har maximalt 50% under full load - om nu x86 är snabbare på att switcha trådar? Kan det bero på att x86 bara har två trådar och när en tråd stallar, och den switchar, så kanske även andra tråden stallar snart, och då är båda trådarna upptagna med att fetcha data från RAM, dvs det tar väldigt lång tid och därför har en x86 endast 50% cpu utilization under server work loads? Självklart har en x86 som kör desktop laster mycket högre cpu utilization. Det är när den kör server workloads och den servar många klienter som data aldrig kan få plats i cpu cachen, så cpun måste ut till RAM hela tiden. Om tusen klienter ska servas, som alla gör olika saker, så går det aldrig att cache all deras data i en cpu cache.

Medan en 8 core och 64 trådars SPARC T1/T2 alltid har en tråd redo för exekvering. Är det därför som en 1.6GHz SPARC cpu kunde vara 10x snabbare än en x86 på 3GHz?

Skrivet av Yoshman:

Den studie du tidigare refererar till kring CPU-utilization när du skulle visa SPARCs/Solaris överlägsenhet var mot P4! Ja, P4 sög som server, faktum är att Nehalem är den första "riktiga" server CPU som Intel någonsin gjort på x86. Tidigare Xeons var desktop CPUer med större cache och senare fler CPU-kärnor. Dagens Xeon E5/E7 skiljer på rätt många punkter från desktop-versionerna.

Gå till inlägget

P4? Det kommer jag inte alls ihåg. Det var en studie från Intel som visade att en server x86 cpu idlar 50% av tiden under full load. Men det är ju självklart, hur skulle en cpu kunna cacha 1000 användares data? Det är ju omöjligt. Det går ju bara att cacha en liten arbetslast, t.ex desktop arbetslaster som kan köras i en tight for loop. Alla cpuer har ju detta problem, det är omöjligt att cacha 1000 klienters data i cpu cachen. T.ex. Fujitsu M10-4S SPARC server som har topp SAP benchmarks, kan serva 153.000 samtidiga SAP användare. Och alla dessa användare gör helt olika saker, så det går aldrig att cacha detta. Så man måste ut till RAM hela tiden. Och det gäller även idag, en cpu kan inte cacha allt, utan måste ut till RAM. Så man måste maskera detta på något sätt, t.ex. genom enorma cpu caches, jag har för mig att nån IBM cpu hade 96MB cpu cache. Men ändå, det går inte att få in tusen tals klienters data i 96MB RAM, därför att du även måste få in SAP, databasen, kernel, etc etc. Du måste alltid ut till RAM om du kör server laster. Punkt. Det spelar ingen roll om du kör dagens Xeon E7v3 eller POWER8 eller SPARC M7.

Men visst, även om det nu vore P4, så måste man tänka på att SPARC T1/T2 var inte heller några bra cpuer idag. Du säger att P4 är dålig idag, men T1/T2 är också dåliga idag. Men visst var det så att P4 var bättre på desktop laster, med tunga beräkningar. SPARC T1/T2 var ju bra på hög genomströmning med att serva många klienter med enkla jobb. Där var den 10x snabbare eller så.

Rapportera Redigera

Citera flera Citera

2015-06-30 11:01

Permalänk

Yoshman

Datavetare ★

Plats: Stockholm
Registrerad: Jun 2011

●

Skrivet av MichaelJackson:

Vad teorin säger kan man inte räkna med. Har du länkar som visar 700 gflops? Jag googlade förut på x86 och hittade inget vettigt. Jag hittade bara POWER8 siffran.

Gå till inlägget

POWER8 siffran är teoretiskt max: 2 (2 DP per vektorregister) * 2 (FMA) * 2 (2st FMA-ALUs per kärna) = 8DP per cykel och kärna.

Snabbaste "scale-out" (vilket rimligen är vad man vill ha för HPC) är S824, den finns att tillgå som 8 kärnor @ 4.15GHz eller 12 kärnor @ 3.52GHz, . 12 kärnor ger högre teoretisk FLOPS, det blir 3.52*12*8 = 338GFLOPS, frågan är om det går att köra en POWER8 idag med teoretisk max på 384GLOPS (skulle vara 12 kärnor @ 4.0GHz).

Finns en variant med 12 kärnor och 4.0GHz, E880, kostar antagligen som en mindre lands BNP men visar i alla fall att man kan köpa 12 kärnor @ 4.0GHz. Hittar inga Linpack mätningar på någon av dessa, hittar bara POWER7+ mätningar och den modeller verkar nå ca 90% av teoretiskt max (Linpack skalar i princip linjärt över kärnor och även över sockets).

Agner Fog har visat att det han kallar "reciprocal throughput" är 0.5 för alla FVMADDxxx instruktioner på Haswell, det betyder att det rent praktiskt är möjligt att nå det teoretiskt GFLOPS värdet. I praktiken innehåller instruktionsströmmen annat än bara FVMADDxxx instruktioner, finns folk som bara genom att bygga & köra de varianter av LinPack som finns öppet tillgängliga för Linux kan nå 80% av teoretiskt max.

Den körning jag hittade är ca 1 år gammal, man ser att Ivy Bridge ligger i princip på 100% av sitt teoretiskt max (max 8DP per cykel och kärna där då FMA stöd kom med Haswell). Rätt säker att man idag skulle få bättre resultat idag då man haft tid att jobbat lite mer med att optimera för FMA.[/quote]

Skrivet av MichaelJackson:

Jag har för mig att SPARC T1/T2 byter tråd när den vill det, dvs när den får en cache miss. Inte att den byter varje cykel.

Så den tekniska artikeln på djup detaljnivå som jag läste förrut, stämmer inte när den påstod att det tog flera hundra cykler att byta tråd för en x86? Har du länkar? Jag kan försöka hitta artikeln jag läste igen, men det var längesen, men jag ska googla lite. Men om du redan är säker på detta, så kanske du kan visa länk?

Gå till inlägget

Antag att du har rätt kring SPARC T1/T2, vad skulle då hända om en tråd råkar köra något som bara jobbar mot register? Den tråden skulle aldrig "stalla" och ingen annan tråd skulle få köra. T1/T2 delar upp aktiva trådar i två uppsättningar, en som innehåller trådar som är "stallad" och en som innehåller trådar som kan köra, man växlar mellan trådarna i den senare uppsättningen varje cykel. Går att hitta i tekniskt dokumentation om T1/T2, men går också och läsa på wiki för T1

"Each core is a barrel processor, meaning it switches between available threads each cycle. When a long-latency event occurs, such as cache miss, the thread is taken out of rotation while the data is fetched into cache in the background. Once the long-latency event completes, the thread is made available for execution again."

Angående latens på x86, ett par hundra cykler låter rimligt för att byta OS-tråd. Men att byta OS-tråd är inte samma sak som SMT, x86 och PowerPC är de CPUer jag jobbat med som är snabbast på att byta mellan OS-trådar. Just detta är en SPARCs akilleshälar, det är betydligt dyrare där p.g.a. registerhjulet.

Skrivet av MichaelJackson:

Men varför har SPARC T1/T2 ca 95% cpu utilization och x86 har maximalt 50% under full load - om nu x86 är snabbare på att switcha trådar? Kan det bero på att x86 bara har två trådar och när en tråd stallar, och den switchar, så kanske även andra tråden stallar snart, och då är båda trådarna upptagna med att fetcha data från RAM, dvs det tar väldigt lång tid och därför har en x86 endast 50% cpu utilization under server work loads? Självklart har en x86 som kör desktop laster mycket högre cpu utilization. Det är när den kör server workloads och den servar många klienter som data aldrig kan få plats i cpu cachen, så cpun måste ut till RAM hela tiden. Om tusen klienter ska servas, som alla gör olika saker, så går det aldrig att cache all deras data i en cpu cache.

Medan en 8 core och 64 trådars SPARC T1/T2 alltid har en tråd redo för exekvering. Är det därför som en 1.6GHz SPARC cpu kunde vara 10x snabbare än en x86 på 3GHz?

Gå till inlägget

Det är så mest för du sväljer det SUN/Oracle skriver helt utan att kritisk ifrågasätta vad man faktiskt ger siffror på, medan du förutsätter att allt Intel skriver om x86 är fel och alla skitkastande rykte är rätt

SPARC T1/T2 är en single issue(!) design med 4 trådar på kärna. För att nå 95% "CPU utilization" som SUN definierade det måste man nå en IPC på 0.95. Har inget problem med den definitionen och är lite imponerad om P4 faktiskt når 50%, skulle ha gissat på lägre.

SPARC T1 lanserades 2005, P4 var fortfarande den aktuella modellen då Core2 lanserades 2006. Men då T2 lanserades 2007 och efterföljaren lanserades 2010 skulle jag ändå hävda att Core2 var konkurrent under majoriteten av tiden. Låt oss titta på Core2, det är en quad-issue design, för att nå 95% ska den ha en IPC på 3.8. Finns inte en sportmössa att den ens är nära en sådan IPC, men sett till utfört arbete per kärna räcker det faktiskt att Core2 har en effektivitet på 25% för att matcha T1/T2 (Core2 var i.o.f.s högre klockad, men hade färre kärnor).

Det du skriver är i någon korrekt, men i praktiken irrelevant. Det som spelar roll är hur fort CPUn kan köra program. Det fanns definitivt saker SPARC T1/T2 kunde köra snabbare än Xeon Core2, men det var extremt smala nischer. I praktiken ligger Core2 på en IPC runt 2.0 (samma 50% effektivitet som P4, men P4 var bara dual-issue så Core2 utför ungefär dubbelt så mycket per cykel).

I Nehalem stoppade man in SMT och tack vare det kan man nu nå väsentligt över 50% av teoretiskt kapacitet, är dock inga 95%. Spelar mindre roll då teoretiskt max sedan Nehalem är 5 x86 instruktioner per cykel.

Skrivet av MichaelJackson:

P4? Det kommer jag inte alls ihåg. Det var en studie från Intel som visade att en server x86 cpu idlar 50% av tiden under full load. Men det är ju självklart, hur skulle en cpu kunna cacha 1000 användares data? Det är ju omöjligt. Det går ju bara att cacha en liten arbetslast, t.ex desktop arbetslaster som kan köras i en tight for loop. Alla cpuer har ju detta problem, det är omöjligt att cacha 1000 klienters data i cpu cachen. T.ex. Fujitsu M10-4S SPARC server som har topp SAP benchmarks, kan serva 153.000 samtidiga SAP användare. Och alla dessa användare gör helt olika saker, så det går aldrig att cacha detta. Så man måste ut till RAM hela tiden. Och det gäller även idag, en cpu kan inte cacha allt, utan måste ut till RAM. Så man måste maskera detta på något sätt, t.ex. genom enorma cpu caches, jag har för mig att nån IBM cpu hade 96MB cpu cache. Men ändå, det går inte att få in tusen tals klienters data i 96MB RAM, därför att du även måste få in SAP, databasen, kernel, etc etc. Du måste alltid ut till RAM om du kör server laster. Punkt. Det spelar ingen roll om du kör dagens Xeon E7v3 eller POWER8 eller SPARC M7.

Men visst, även om det nu vore P4, så måste man tänka på att SPARC T1/T2 var inte heller några bra cpuer idag. Du säger att P4 är dålig idag, men T1/T2 är också dåliga idag. Men visst var det så att P4 var bättre på desktop laster, med tunga beräkningar. SPARC T1/T2 var ju bra på hög genomströmning med att serva många klienter med enkla jobb. Där var den 10x snabbare eller så.

Gå till inlägget

SUN hade totalt fel i att cache var onödigt, till och med Oracle erkänner detta och fokus på senare SPARC-modeller därifrån har varit stenhårt på just cache. Problemet för alla konkurrenter till Intel är att Intel ligger lite i en klass för sig just nu vad det gäller design på cache och prefetchers, sett till teoretisk bandbredd och övrig teoretisk kapacitet borde Xeon E5/E7 vara totalt chanslös mot POWER8 och senaste SPARC men i praktiken är det relativt jämt i absolut prestanda men Intel har mindre än halva strömförbrukningen så deras perf/W är totalt överlägsen.

Tror du får fundera hur korrekt ditt uttalande om att IBM/POWER närmat sig Oracle/SPARC i POWER8. Det är en design som maximalt kan ha 12 kärnor, det är en 8-issue (12 pipelines internt) som kan köras i runt 4GHz. Var ser du att det inte är en design som inte stenhårt fokuserar på extremt starka, men inte supermånga kärnor? Visst kan man köra 8 trådar per kärna, bl.a. AnandTech har testat denna CPU och konstaterat att mer än 4 trådar hjälper bara i extremt specifika fall, ungefär samma fall där SPARC T1/T2 fungerade bra.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Rapportera Redigera

Citera flera Citera (2)

2015-07-01 17:04

Permalänk

MichaelJackson

Medlem

Registrerad: Sep 2014

●

Skrivet av Yoshman:

Den körning jag hittade är ca 1 år gammal, man ser att Ivy Bridge ligger i princip på 100% av sitt teoretiskt max (max 8DP per cykel och kärna där då FMA stöd kom med Haswell). Rätt säker att man idag skulle få bättre resultat idag då man haft tid att jobbat lite mer med att optimera för FMA

Gå till inlägget

Jag hänger inte riktigt med här. Den länken du visar angående att Xeon Haswell når 788 gflops, är ju när han benchar två stycken Xeon Haswell proppar samtidigt.
https://www.pugetsystems.com/labs/articles/Xeon-E5-v3-Haswell...

Kan du posta en annan länk som visar att en enda Xeon når runt 700 gflops? Jag menar, POWER8 som ska vara väldigt snabb, når bara runt 384 gflops. Och IBM påstår att POWER8 är flera gånger snabbare än x86. Så då borde x86 nå mindre gflops än en POWER8?

Skrivet av Yoshman:

Angående latens på x86, ett par hundra cykler låter rimligt för att byta OS-tråd. Men att byta OS-tråd är inte samma sak som SMT, x86 och PowerPC är de CPUer jag jobbat med som är snabbast på att byta mellan OS-trådar.

Gå till inlägget

Ok, så du menar att det kan vara så att när SPARC T1/T2 byter tråd, så går det långsamt om den byter OS-trådar? Det låter rimligt. Så poängen med SPARCs snabbhet är alltså att den kan maskera mycket mer latens genom att ha många fler trådar att switcha mellan. x86 har bara två trådar att switcha mellan och när de stallar, så får x86 vänta ofta. Det låter rimligt.

Skrivet av Yoshman:

Det är så mest för du sväljer det SUN/Oracle skriver helt utan att kritisk ifrågasätta vad man faktiskt ger siffror på, medan du förutsätter att allt Intel skriver om x86 är fel och alla skitkastande rykte är rätt

Gå till inlägget

Den här studien var inte från Sun. Det var några forskare från nåt universitet har jag för mig. Jag borde sparat artikeln när jag läste den förrut. Och artikeln dröjde med att komma ut, SPARC T1/T2 hade funnit något/några år, innan den började få uppmärksamhet.

Men se på det så här, om jag verkligen sväljer allt som Sun/Oracle skriver, så räcker det med att du motbevisar med länkar/benchmarks/etc så ändrar jag mig. Genast. Det är inte svårare än så att få mig att ändra ståndpunkt. Bevisa att jag har fel. Bevisa även att Sun/Oracle har fel, så kommer jag ändra åsikt, även där. Det är det som är skönt att diskutera med matematiker, det spelar ingen roll hur många timmar man diskuterar, men bevisar du med hårda fakta/länkar så ändrar en matematiker omedelbart ståndpunkt. Simple as that. Det tar några sekunder bara, så tycker jag exakt som du.

Däremot vet jag att man kan visa Linux fantaster (och även dig) hur många länkar som helst som de/du omedelbart avfärdar. Jag har t.ex. visat dem flera länkar om hur bloatad Linux kernel är, enligt vad Linus Torvalds säger - och alla Linux fantaster avfärdar genast Linus Torvalds som mindre vetande. Erhm??? Jag menar, finns det någon mer trovärdig källa om Linux än Linus? Nej, och ändå avfärdas han, trots att han gång på gång i flera olika intervjuer säger att Linux kernel är bloatad. O_o

T.ex. anser du ju att Linux TCP IP stack är helt överlägsen allt annat på marknaden. Och ifall jag visar dig såna här länkar (många av dessa kommentarer säger att Linux stack är inte alls vidare bra) så kommer du omedelbart avfärda länken eftersom "Facebook inte kan så mycket om högprestanda nätverkstrafik". Det går liksom inte att få dig att ändra ståndpunkt, oavsett hur många länkar man visar, från Linus Torvalds eller Gud själv. Alla bevis avfärdas utav dig. Men jag sväljer alla bevis.
http://bsd.slashdot.org/story/14/08/06/1731218/facebook-seeks...

Skrivet av Yoshman:

SUN hade totalt fel i att cache var onödigt,

Gå till inlägget

Cache är inte _onödigt_, det är mycket bra. Men mindre viktigt på serverlaster än på desktops, eftersom alla data inte får plats i cachen. Det som är viktigt är att minska latensen, det kan göras mindre bra med cache. Det är bättre att dölja latens med många trådar. En vanlig desktop cpu med få starka trådar och stor cache, når 50% cpu utilization på server loads. En SPARC T1 når 95% cpu utilization på server loads med mycket liten cache. Vilket är bäst, cache eller trådar? Det är helt omöjligt att nå 95% cpu utilization med stor cache. Men det går att nå med trådar.

Idag har Oracle många trådar, SPARC M7 kommer att ha 256 trådar. Hur förbättrar man prestanda härnäst? Jo, genom att gå tillbaka till de gamla sätten; öka cachen. Men om man sysslar med servrar, så är många trådar bättre än stor cache. Så bara för att Sun/Oracle börjat addera cache efter att först ha ökat antalet trådar, så betyder det inte att Sun/Oracle tycker det du säger.

Skrivet av Yoshman:

Tror du får fundera hur korrekt ditt uttalande om att IBM/POWER närmat sig Oracle/SPARC i POWER8. Det är en design som maximalt kan ha 12 kärnor, det är en 8-issue (12 pipelines internt) som kan köras i runt 4GHz. Var ser du att det inte är en design som inte stenhårt fokuserar på extremt starka, men inte supermånga kärnor?

Gå till inlägget

Man kan lägga sin Watt budget på två olika sätt:
1) en enda core som skruvar upp GHz tills kärnan ensam slukar 250 Watt. Det kanske blir 8-10 GHz?
2) många cores/många trådar som tillsammans slukar 250 watt.

IBM pratade om att 1) var framtiden och att 2) var dåligt, och hånade Suns SPARC T1. Tycker du att POWER8 är mer lik 1) eller 2)? Tycker du att POWER8 är lik en sådan design som IBM menade var framtiden för cpuer? Eller gick IBM kanske över till många cores/många trådar design, med sin POWER8 som har 8-12 cores och 96 trådar, precis som SPARC M6 också har 8 cores och 96 trådar? Jag fattar inte att du verkligen tycker på riktigt, att POWER8 är mer lik en single core cpu med två trådar på 8-10 GHz?

Rapportera Redigera

Citera flera Citera

2015-07-01 17:40

Permalänk

Yoshman

Datavetare ★

Plats: Stockholm
Registrerad: Jun 2011

●

Skrivet av MichaelJackson:

Jag hänger inte riktigt med här. Den länken du visar angående att Xeon Haswell når 788 gflops, är ju när han benchar två stycken Xeon Haswell proppar samtidigt.
https://www.pugetsystems.com/labs/articles/Xeon-E5-v3-Haswell...

Kan du posta en annan länk som visar att en enda Xeon når runt 700 gflops? Jag menar, POWER8 som ska vara väldigt snabb, når bara runt 384 gflops. Och IBM påstår att POWER8 är flera gånger snabbare än x86. Så då borde x86 nå mindre gflops än en POWER8?

Gå till inlägget

WTF...
Linpack skalar linjärt med kärnor och frekvens på samma design. Ta 5930K siffrorna, dela med 6 (antal kärnor) och med 3.5 (frekvens), multiplicera 18 (antal kärnor i E5 2699v3) och 2.8 (frekvens) = 700GFLOPS

Det enda man egentligen behöver visa är att det går att köra 2 FMA per cykel, vilket är exakt vad Agner Fog gjort (reciprocal throughput 0.5). Då har man visat att det är praktiskt möjligt att nå 800Gbit/s eftersom kärnorna är helt oberoende om data ligger i L2 (för peak FLOPS är det något alla utgår från).

Skrivet av MichaelJackson:

Ok, så du menar att det kan vara så att när SPARC T1/T2 byter tråd, så går det långsamt om den byter OS-trådar? Det låter rimligt. Så poängen med SPARCs snabbhet är alltså att den kan maskera mycket mer latens genom att ha många fler trådar att switcha mellan. x86 har bara två trådar att switcha mellan och när de stallar, så får x86 vänta ofta. Det låter rimligt.

Gå till inlägget

Visst se det så, i praktiken är det inte så det fungerar.

Skrivet av MichaelJackson:

Den här studien var inte från Sun. Det var några forskare från nåt universitet har jag för mig. Jag borde sparat artikeln när jag läste den förrut. Och artikeln dröjde med att komma ut, SPARC T1/T2 hade funnit något/några år, innan den började få uppmärksamhet.

Men se på det så här, om jag verkligen sväljer allt som Sun/Oracle skriver, så räcker det med att du motbevisar med länkar/benchmarks/etc så ändrar jag mig. Genast. Det är inte svårare än så att få mig att ändra ståndpunkt. Bevisa att jag har fel. Bevisa även att Sun/Oracle har fel, så kommer jag ändra åsikt, även där. Det är det som är skönt att diskutera med matematiker, det spelar ingen roll hur många timmar man diskuterar, men bevisar du med hårda fakta/länkar så ändrar en matematiker omedelbart ståndpunkt. Simple as that. Det tar några sekunder bara, så tycker jag exakt som du.

Gå till inlägget

Om du är den jag är rätt säker på att du är så, nej du har blivit överbevisad av så många personer på olika forum och du hävdar fortfarande att SPARC är konkurrenskraftig med Xeon och POWER på något relevant sätt. Finns smala nischer där SPARC fungerar, men de var ju uppenbarligen för smala med tanke på hur försäljningen skjunker och Oracle drog proppen ur allt under top-of-the-line (den lär inte heller leva 10 år till).

Skrivet av MichaelJackson:

Däremot vet jag att man kan visa Linux fantaster (och även dig) hur många länkar som helst som de/du omedelbart avfärdar. Jag har t.ex. visat dem flera länkar om hur bloatad Linux kernel är, enligt vad Linus Torvalds säger - och alla Linux fantaster avfärdar genast Linus Torvalds som mindre vetande. Erhm??? Jag menar, finns det någon mer trovärdig källa om Linux än Linus? Nej, och ändå avfärdas han, trots att han gång på gång i flera olika intervjuer säger att Linux kernel är bloatad. O_o

T.ex. anser du ju att Linux TCP IP stack är helt överlägsen allt annat på marknaden. Och ifall jag visar dig såna här länkar (många av dessa kommentarer säger att Linux stack är inte alls vidare bra) så kommer du omedelbart avfärda länken eftersom "Facebook inte kan så mycket om högprestanda nätverkstrafik". Det går liksom inte att få dig att ändra ståndpunkt, oavsett hur många länkar man visar, från Linus Torvalds eller Gud själv. Alla bevis avfärdas utav dig. Men jag sväljer alla bevis.
http://bsd.slashdot.org/story/14/08/06/1731218/facebook-seeks...

Gå till inlägget

Har väl inte ens nämnt Linux i denna diskussion innan?

Varför bygger man numera Telecom systemen på standard Linux (notera standard Linux, företag som Ericsson och Nokia lägger stor vikt vid att det ska vara kernel.org kärnor) om stacken inte är i världsklass? Säg något system som lägger mer tryck på nätverket än moderna Telecom-system?

Varför dominerar Linux i "molnet" där 10Gbit/s är vardagsmat och man kör redan 40 och även 100Gbit/s?

Peka på något annat OS som kan skicka minsta möjliga Ethernet-ram storlek i 10Gbit/s genom standardstacken per CPU-kärna. Finns "trick" likt vad DX12 kommer bli för grafik som kan dubbla till tredubbla den siffran, det är också för Linux...

Går det att göra saker bättre? Självklart.
Finns det saker andra stackar gör bättre? Självklart, men det börjar bli rätt smala nischer numera och ingen (statiskt sett) använder BSD till något på serversidan idag.

Skrivet av MichaelJackson:

Cache är inte _onödigt_, det är mycket bra. Men mindre viktigt på serverlaster än på desktops, eftersom alla data inte får plats i cachen. Det som är viktigt är att minska latensen, det kan göras mindre bra med cache. Det är bättre att dölja latens med många trådar. En vanlig desktop cpu med få starka trådar och stor cache, når 50% cpu utilization på server loads. En SPARC T1 når 95% cpu utilization på server loads med mycket liten cache. Vilket är bäst, cache eller trådar? Det är helt omöjligt att nå 95% cpu utilization med stor cache. Men det går att nå med trådar.

Idag har Oracle många trådar, SPARC M7 kommer att ha 256 trådar. Hur förbättrar man prestanda härnäst? Jo, genom att gå tillbaka till de gamla sätten; öka cachen. Men om man sysslar med servrar, så är många trådar bättre än stor cache. Så bara för att Sun/Oracle börjat addera cache efter att först ha ökat antalet trådar, så betyder det inte att Sun/Oracle tycker det du säger.

Man kan lägga sin Watt budget på två olika sätt:
1) en enda core som skruvar upp GHz tills kärnan ensam slukar 250 Watt. Det kanske blir 8-10 GHz?
2) många cores/många trådar som tillsammans slukar 250 watt.

Gå till inlägget

Har du sett beräknad strömförbrukning för high-end SPARC-systemen? Går att uppskatta på Oracles site, man hamnar rätt snabbt på >1500W redan vid 2-4 sockets.

Intelsystem går knappt att få över 600W med 4 sockets.

Om server == databasserver så har du en poäng, men finns rätt mycket annat som körs på servers. Något som blir allt vanligare är att man har TB med RAM och har rubbet i minne, där har SPARC-designen inte en chans mot Xeon/POWER då latens mot RAM må vara hög men den är åtskilliga tiopotenser lägre än mot extern I/O.

Och åter igen, denna skala är något som fraktion av en procent av alla servers har. Designar man enbart för det segmentet är man snart utslagen. I mer normal skala är SPARC CPUerna chanslösa mot Xeon/POWER då de har för lite, för långsam (latens) cache och för dålig enkeltrådprestanda.

Skrivet av MichaelJackson:

IBM pratade om att 1) var framtiden och att 2) var dåligt, och hånade Suns SPARC T1. Tycker du att POWER8 är mer lik 1) eller 2)? Tycker du att POWER8 är lik en sådan design som IBM menade var framtiden för cpuer? Eller gick IBM kanske över till många cores/många trådar design, med sin POWER8 som har 8-12 cores och 96 trådar, precis som SPARC M6 också har 8 cores och 96 trådar? Jag fattar inte att du verkligen tycker på riktigt, att POWER8 är mer lik en single core cpu med två trådar på 8-10 GHz?

Gå till inlägget

Ge dig, finns ingen som lyckats gjort en CPU på 8-10GHz. Det man försökte med SPARC var väldigt många kärnor/trådar (var ju extremt antal 2005-2007, idag är det inte lika extremt men idag har Intel 18 kärnor medan man hade 4 på den tiden) med väldigt låg frekvens (var länge <2GHz). IBM försökte och lyckades nå 5GHz med POWER6, vad som har hänt är att båda insett att de hade fel men tycker du inte 12 kärnor, 4GHz och 8-wide är närmare vad IBM initialt försökte med än 8 kärnor (redan 2005), <2GHz och 1-wide?

Runt samma tidpunkt hade ju Cavium system med 16 (väldigt klena) kärnor och man hade en konkurrent, Raza (som inte längre finns) med 4 kärnor + 4 trådar vilket är lite åt samma håll som SUN. Skillnande att båda dessa designer hade, för sin tid, väldigt mycket L2-cache och I/O var direktkopplat dit (likt vad Intel gjorde i Sandy Bridge med DDIO).

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Rapportera Redigera

Citera flera Citera (2)

2015-07-01 19:23

Permalänk

MichaelJackson

Medlem

Registrerad: Sep 2014

●

Skrivet av Yoshman:

WTF...
Linpack skalar linjärt med kärnor och frekvens på samma design. Ta 5930K siffrorna, dela med 6 (antal kärnor) och med 3.5 (frekvens), multiplicera 18 (antal kärnor i E5 2699v3) och 2.8 (frekvens) = 700GFLOPS

Det enda man egentligen behöver visa är att det går att köra 2 FMA per cykel, vilket är exakt vad Agner Fog gjort (reciprocal throughput 0.5). Då har man visat att det är praktiskt möjligt att nå 800Gbit/s eftersom kärnorna är helt oberoende om data ligger i L2 (för peak FLOPS är det något alla utgår från).

Gå till inlägget

Tyvärr, jag är inte övertygad. Jag vet flera fall där man extrapolerar på liknande sätt och får radikalt andra resultat i verkligheten. Om vi tänker till lite, kan ditt resonemang vara rimligt? Är det konsistent om vi tittar från annat håll? Reality check.

Antag att en 5930K med 6-cores drar 150 watt. Om du drar ihop 3 stycken såna här cpuer så får du 18 cores och 350 Watt.

Antag att den dära 18 core Xeon E5 2699v3 du pratar om, också drar 150 watt.

Nu påstår du att en 150 Watt Xeon E5 cpu ger lika mycket prestanda som 350 Watt 5930K. Jag tror inte på detta. Om Intel får 350 watt budget att leka med, så blir prestandan enormt mycket större än om Intel får 150 watt budget. Rimligtvis är en av de 18 kärnorna i E5 mycket klenare än en av de sex kärnorna i 5930K. Mao, så kan du inte tro att en Xeon E5 motsvarar tre st 5930K. Visst, watt siffrorna kanske inte stämmer exakt, men jag hoppas du inser att något är fishy i ditt resonemang?

Visst, om Xeon E5 faktiskt drog 350 Watt, och varje 5930K drog 150 Watt, så är din teori konsistent och det låter trovärdigt att det bara är att dra ihop 18 st individuella 5930K kärnor. Men nu är det antagligen en logisk lucka när du benchar två st x86 cpuer och inte en enda x86 cpu.

Teori är en sak, praktik en annan. Det enklaste vore om du visade benchmarks där en enda x86 når runt 700 gflops. Då har du övertygat mig och jag tycker som du. För som det ser ut nu, enligt din länk, så ligger den snabbaste x86 på 394 gflops vilket är mycket bra, men långt ifrån 700 gflops. Jag gissar även att alla cpuer som benchmarkades ligger på kring 150 watt styck. Mao, det är svårt att öka prestandan mera eftersom watt budgeten är maxad, oavsett om du har få starka cores eller många svaga cores. Mao, just nu verkar det som att ifall Intel får 150 Watt att leka med, så kommer Intel upp i endast 394 gflops. Inte mera. Sen tror jag det spelar mindre roll om det är få starka kärnor eller många svaga kärnor - slutresultatet blir detsamma: ~400 gflops från Intel är max. Och det är bättre än POWER8 på 384 gflops, så det är inte fy skam. Jag är imponerad utav x86 faktiskt.

Skrivet av Yoshman:

Om du är den jag är rätt säker på att du är så, nej du har blivit överbevisad av så många personer på olika forum och du hävdar fortfarande att SPARC är konkurrenskraftig med Xeon och POWER på något relevant sätt.

Gå till inlägget

Jag tror fortfarande att SPARC är konkurrenskraftig med Xeon och POWER. Tror inte du det?
-SPARC XIfx når 1100 gflops. POWER8 når 384 gflops. x86 når 400(?).
-SPARC M7 har 32 cores, 256 trådar, adresserar 2 TB RAM, gör SQL queries 120 GB/sek, stoppar heartbleed attacker och andra pekarfel, krypterar och dekomprimerar data i realtid, etc etc.

Den största 32-socket SPARC M7 servern kommer detta år, har 1024 cores, 8192 trådar, 64TB RAM. Den största x86 business scale-up servern hade fram till nyligen 8-sockets.

Jag vet inte riktigt, men... du tycker att SPARC laggar? Speciellt som SPARC dubblar prestanda varje år, medan x86 ökar prestandan typ 10% varje år. Oracle har släppt fem cpuer på fyra år. Servrarna är dubbelt så snabba, varje generation, ibland flera gånger snabbare varje generation. Om man dubblar varje generation, och alla andra ökar 10% så till slut måste man bli snabbast. Eller hur? Sant är att Sun hade stora problem, men Oracle satsar mer pengar på FoU än Sun någonsin gjort. Därför kan SPARC dubbla prestandan varje generation.

Skrivet av Yoshman:

Finns smala nischer där SPARC fungerar, men de var ju uppenbarligen för smala med tanke på hur försäljningen skjunker och Oracle drog proppen ur allt under top-of-the-line (den lär inte heller leva 10 år till).

Gå till inlägget

Som du vet minskar Unix marknaden och har gjort det flera år. Men Oracles stora affärsservrar ökar kraftigt. Varje år. Oracle gör en Apple; tillverkar hårdvara, cpu, OS, databas, middleware, etc etc. Så dessa system är mycket optimerade att köra affärssystem och databaser. Och gör det mycket snabbare än en ihopplockad x86 eller POWER.

Dessutom är det mycket politik. T.ex. på mitt stora företag sade cheferna helt plötsligt "nu slutar vi köpa Sun prylar, order från högsta chefen". Och senare sade de samma sak om HP. Sun hade väldigt bra OS och hårdvara, t.ex. ZFS, DTrace, etc - men om företag vägrar köpa så blir det svårt.

Skrivet av Yoshman:

Har väl inte ens nämnt Linux i denna diskussion innan?

Varför bygger man numera Telecom systemen på standard Linux (notera standard Linux, företag som Ericsson och Nokia lägger stor vikt vid att det ska vara kernel.org kärnor) om stacken inte är i världsklass? Säg något system som lägger mer tryck på nätverket än moderna Telecom-system?

Varför dominerar Linux i "molnet" där 10Gbit/s är vardagsmat och man kör redan 40 och även 100Gbit/s?

Peka på något annat OS som kan skicka minsta möjliga Ethernet-ram storlek i 10Gbit/s genom standardstacken per CPU-kärna. Finns "trick" likt vad DX12 kommer bli för grafik som kan dubbla till tredubbla den siffran, det är också för Linux...

Går det att göra saker bättre? Självklart.
Finns det saker andra stackar gör bättre? Självklart, men det börjar bli rätt smala nischer numera och ingen (statiskt sett) använder BSD till något på serversidan idag.

Gå till inlägget

Det var precis det här jag menade.

Jag visar länk när Facebook säger att Linux stack är inte alls lika bra som FreeBSD, och i kommentarerna skriver massa människor att FreeBSDs stack är helt överlägsen, etc etc - och genast avfärdar du länken som att Facebook inte vet vad de sysslar med. Och att Linux stack är mycket bättre därför att fler kör det OSet. Precis som Windows körs mer än Linux, då måste Windows vara det bästa OSet.

Det spelar ingen roll hur många länkar jag visar, om du har bestämt dig, så har du och det går inte att ändra på dig. Inte ens om Linus Torvalds ringde dig och sade att stacken suger och att han kopierat allt från FreeBSD skulle du ändra dig. Du skulle avfärda honom direkt. Jag vet hur du funkar.

Som tur är, funkar jag inte så. Om Solaris utvecklarna skulle alla säga att Solaris blivit dåligt och att Linux är bättre och att flera OS utvecklare säger så, skulle jag ändra mig. Då skulle jag börja supporta Linux och överge Solaris. Jag gilllar bara den bästa tekniken, jag har bytt läger flera gånger förrut. Plan9 verkar vara det häftigaste OSet, men jag tror inte det skalar vidare bra på affärsservrar.

Jag har inte blivit överbevisad på något forum, du får gärna PMa mig om du vet någon tråd. Jag hittar fel i deras resonemang (som i ditt), eller så postar de inte relevanta länkar. Om jag verkligen skulle bli överbevisad, skulle jag genast ändra åsikt. Det har hänt flera gånger. Jag har påstått något, och någon har visat länkar som säger motsatsen, och då har jag genast slutat säga så och tackat personen. T.ex såg jag en blog med Oracles stora ZFS servrar mot NetApp, och jag citerade bloggen och förklarade att NetApp hade dåliga prestanda i det fallet. Som alltid postar jag även länken, så att man vet att jag inte hittar på. En NetApp människa läste bloggen och förklarade att bloggen var fel. Jag tackade honom och slutade citera bloggen och skrev även på Oracle bloggen att det var fel och att han borde sluta skriva så. Matematiker söker bara sanningen. Så, om du visar trovärdiga länkar, så tycker jag som du. Jag _måste_ tycka som du, annars är jag inte matematiker. Jag har inget annat val om jag bekänner mig till sanningen.

Skrivet av Yoshman:

Har du sett beräknad strömförbrukning för high-end SPARC-systemen? Går att uppskatta på Oracles site, man hamnar rätt snabbt på >1500W redan vid 2-4 sockets.

Intelsystem går knappt att få över 600W med 4 sockets.

Om server == databasserver så har du en poäng, men finns rätt mycket annat som körs på servers. Något som blir allt vanligare är att man har TB med RAM och har rubbet i minne, där har SPARC-designen inte en chans mot Xeon/POWER då latens mot RAM må vara hög men den är åtskilliga tiopotenser lägre än mot extern I/O.

Och åter igen, denna skala är något som fraktion av en procent av alla servers har. Designar man enbart för det segmentet är man snart utslagen. I mer normal skala är SPARC CPUerna chanslösa mot Xeon/POWER då de har för lite, för långsam (latens) cache och för dålig enkeltrådprestanda.

Gå till inlägget

SPARC är chanslösa mot x86 och POWER? Jag tycker specarna säger annorlunda? Och SPARC har flera världsrekord idag. Nu pratar jag affärssystem. När det gäller kluster dominerar Linux och x86 stort.

Skrivet av Yoshman:

Ge dig, finns ingen som lyckats gjort en CPU på 8-10GHz. Det man försökte med SPARC var väldigt många kärnor/trådar (var ju extremt antal 2005-2007, idag är det inte lika extremt men idag har Intel 18 kärnor medan man hade 4 på den tiden) med väldigt låg frekvens (var länge <2GHz). IBM försökte och lyckades nå 5GHz med POWER6, vad som har hänt är att båda insett att de hade fel men tycker du inte 12 kärnor, 4GHz och 8-wide är närmare vad IBM initialt försökte med än 8 kärnor (redan 2005), <2GHz och 1-wide?

Gå till inlägget

Poängen är att samtidigt med SPARC T1 sade IBM att en enda stark core är framtiden. Och att SPARC T1 suger, pga den har så många klena cores att en databas inte skulle köras bra på en SPARC T1 (och det är ju sant). Så därför är framtiden en enda stark core på skyhög GHz. Detta var vad IBM sade och hånade SPARC T1. Och som jag ser det, så har IBM övergett denna syn till att göra som Sun gjorde först med commoditycpu: istället för att höja GHz, så höjde Sun antalet cores. Sen följde alla andra efter. Men du håller inte med om detta? Du anser att IBMs cpuer inte alls har många kärnor med många trådar idag? Att IBM fortfarande är inne på ensam-stark-kärna spåret? Att IBM inte alls liknar SPARC mer och mer?

Rapportera Redigera

Citera flera Citera

2015-07-01 20:04

Permalänk

Yoshman

Datavetare ★

Plats: Stockholm
Registrerad: Jun 2011