Världens snabbaste cpu:

2015-11-04 22:49

Medlem

Registrerad: Sep 2014

●

Skrivet av Yoshman:

Du pratar om Xeon baserad på Pentium 4. Tror det inte finns någon som hävdar att Pentium 4 på något sätt var bra, den var exceptionellt usel som serverprocessor. D.v.s. ingen större merit att "vinna" mot P4, framförallt inte på servers. Intel hade ingen "riktigt" server-CPU innan man lanserade Nehalem, innan det ansåg man även själv att x86 var främst skrivbordet och Itanium var modellen för "tunga" uppgifter. SPARC T1 ser inte lika imponerande ut mot samtida Itanium.

Gå till inlägget

Jag tycker inte det är rättvist av dig att implicera att Intel beslut att satsa på Netburst P4 var en exceptionellt usel ide. Just då, vid den tiden, så tog Intel beslutet att satsa på netburst P4 och det var det bästa beslutet då för Intel, annars hade Intel inte tagit det beslutet. Det är alltid lätt att gå tillbaka i tiden och säga att någon gjorde fel, att de istället borde gjort så här - när du har facit i hand. Men med den informationen man hade då, så var det faktiskt det bästa beslutet - just då.
-Varför sålde en av Apples grundare sina aktier för $1000 till Steve Jobs precis när Apple startades? Det var ju exceptionellt dåligt beslut!
-Ja, men han hade varit med i många startups som alla failat, och just då var det bästa beslutet att sälja sina aktier, det fanns inte en chans att veta att Apple skulle bli stort 40 år senare.

Det folk inte verkar förstå, när man tittar på korkade beslut idag, är att just då, utifrån den informationen man hade då, var det bästa beslutet man tog. Det finns inte en chans att folk förstod att om man röstade på Hitler skulle det gå som det gick då. Utifrån den informationen man hade då, så var det bästa beslutet för Tyskland tyckte folk. Intel hade gjort sin due diligence och tekniska undersökningar och kommit fram till att Netburst var det bästa beslutet då. Intel hade rejält på fötterna för sitt beslut, det fanns mycket som stödde det bestlutet. Kanske hade de lyssnat på IBM som tjatade om att det enda vettiga är 1-2 cores med skyhög GHz, därför att databaser (som är själva hjärtat i ett företag) trivs bäst på starka kärnor, istället för många lägre klockade kärnor, vilket Sun sysslade med. Därför trash-talkade IBM SPARC T1 cpun som hade 8 kärnor och 32 trådar - korkad design att ha många lägre klockade kärnor och trådar, sade IBM. Det enda raka är 7-8GHz cpuer med 1-2 cores, sade IBM. Idag har vi facit, och alla satsar idag på många lägre klockade cores. Det finns ingen cpu idag som har 1-2 cores med 7-8 GHz, vilket IBM sade var framtiden. Så istället för att satsa på höga GHz, satsar man idag istället på många cores som Sun var först med att kommersialisera.

Med det sagt, Itanium hade stora prestandaproblem under många år vilket du kanske missat. Och även de senaste Itanium cpuerna var kassa ur prestanda synpunkt:
https://en.wikipedia.org/wiki/Itanium
"...journalist John C. Dvorak reported "Itanium continues to be one of the great fiascos of the last 50 years" .[5] Tech columnist Ashlee Vance commented that the delays and underperformance "turned Itanium into a joke in the chip industry."[6] In an interview, Donald Knuth said "The Itanium approach...was supposed to be so terrific—until it turned out that the wished-for compilers were basically impossible to write...."

År 2005, om vi tittar på samtida Itanium cpu med SPARC T1 och P4, så släpptes single core McKinley några år innan SPARC T1, och den var ungefär lika snabb som 2200+ Athlon, dvs 1.67 GHz AMD.
http://www.theregister.co.uk/2002/07/09/hp_releases_itanium_2...
Senare, år 2006 släpptes Montecito Itanium, och om man googlar lite så var den ungefär dubbelt så snabb som McKinley, kanske eftersom den hade två kärnor. Så vi kanske kan avrunda och säga att Montecito var ungefär 2x så snabb som en McKinley, som är ungefär lika snabb som Pentium4. Det betyder att en SPARC T1 inte var 50x snabbare än en samtida Itanium, SPARC T1 var bara typ 25x snabbare än Itanium Montecito inom sin nisch, dvs webservrar och liknande saker med många lätta trådar och hög genomströmning. Nu pratar vi inte 25% snabbare än Itanium, vilket är ganska bra när man jämför cpuer/gpuer. Nej, vi pratar 25 gånger snabbare. Och jag vet inte vilken måttstock du har, men jag blir imponerad i alla fall när en cpu är 10x eller 20x snabbare än nån annan.

Citat:

Det som listar här är SPECInt2006_rate, d.v.s. man kör en instans per CPU-tråd så resultatet skalar i princip helt linjärt med kärnor. Intressant i sig själv, men knappast ett resultat som betyder något kring hur snabb kretsen är i majoriteten av alla program vi kör på våra datorer då dessa i många fall inte skalar alls med CPU-kärnor (långt över 50% hamnar fortfarande i denna klass) eller bara skalar till några få CPU-trådar (över 90% av alla program hamnar i denna kategori, inklusive alla spel).

Siffran långt över 50% känns lite tagen ur luften, men visst, jag ska inte be dig posta länkar. Men vi kanske kan säga att SPARC M7 inte är så dålig på beräkningar om man tittar på SPECint2006 då? Skulle man göra beräkningar på riktigt så är det många parallella trådar som körs samtidigt, typexemplet är Monte Carlo simuleringar som används flitigt inom t.ex. finansmatematik och andra områden när man inte kan lösa ekvationen analytiskt, utan måste använda en dator. Så i verkligheten skulle SPARC M7 vara mycket snabbare än x86 på vetenskapliga beräkningar (vilket ses också i neurala nätverk benchmarks som vanligtvis körs på parallella GPUer i produktion). Och ifall du löser partiella diff ekvationer på ett stort grid som i CFD, så behöver du många många trådar. Det är därför superdatorer har 10.000 tals cpuer, ju fler trådar och cores desto bättre eftersom man kan lösa ett större/finmaskigare grid. Och många trådar och cores är precis vad SPARC M7 har. Så jag tycker det ser ut som att SPARC M7 är långt bättre på beräkningar än x86.

Sen ska vi inte glömma bort Fujitsu SPARC64, som alltid satsat på 2 trådar per kärna, men mycket starka trådar. Fujitsus 1.100 Gflops är ganska imponerande om du frågar mig, speciellt när man jämför med x86 som når 400 gflops. Så bevisligen går det att få starka trådar på SPARC. Fujitsu får ut ganska mycket mer gflops än x86, trots att Fujitsu använder 2 trådar, medan SPARC M7 använder 8 trådar. Och trots att x86 har 30%(?) högre IPC än Oracles SPARC version. Spelar det någon roll hur hög IPC är, när M7 är mycket snabbare i 20 vitt skilda benchmarks?

Citat:

Grundregeln för design av CPUer för interaktiv användning är...

SPARC är en server cpu, och ska serva tusentals samtidiga användare. Servrar används inte interaktivt. Men visst, om vi pratar om interaktiv användning så har du en poäng.

Citat:

Har tittat lite på detaljerna i testerna. Hadoop och Yahoo Cloud resultaten är ju inte speciellt imponerande för M7. Visst är den snabbare när man kört en CPU-socket. Men kolla på latensen för anrop, den är betydligt lägre för Intel -> när man skalar upp till fler CPU-sockets kommer Intel-systemet skala bättre.

På Hadoop är SPARC M7 ca 4.6x snabbare än x86, men x86 har lägre latency så därför vinner x86 Hadoop benchen eftersom x86 skalar bättre? Hmmmm?

Om du tittar på Hadoop benchmarken, så kördes ett kluster på 32 st x86 servrar, varje server hade dubbla x86 cpuer. Det var alltså totalt 64 st x86 cpuer. Mot detta, benchades en enda SPARC M7 server på 4 cpuer totalt. Dvs 64st x86 cpuer mot 4st SPARC M7 cpuer. Med samma mängd data på 10TB så är det inte så konstigt att den enda SPARC M7 servern behövde 4000 sekunder på sig, medan de 32 st x86 servrarna behövde 1000 sekunder på sig. Men därifrån kan du inte dra slutsatsen att x86 skalar bättre. Snarare tvärtom.

Två st SPARC M7 servrar som delar på arbetet skulle kanske halvera tiden ned till 2000 sekunder. (Hadoop är funktionellt, och funktionellt går bra att parallellisera vilket är själva poängen med Hadoop). Och fyra SPARC servrar kanske halvera tiden igen ned till 1000 sekunder. Om man använder 32st SPARC servrar, så skulle SPARC M7 klustret göra klart arbetet på 2 minuter. Och du drar slutsatsen att x86 skalar bättre? Låt oss vända på steken, hur lång tid tror du två stycken x86 servrar med 4 cpuer totalt skulle ta på sig att tröska igenom 10TB hadoop? Jag förstår inte vad det finns argumentera emot, SPARC M7 totaldemolerar x86 även på detta benchmark.

Yahoo Cloud så är SPARC M7 servern 1.6x respektive 2.5x snabbare än x86. Visst var latencyn bättre för x86, men jag tycker ändå att eftersom jobben är snabbt avklarade, så hinner M7 betjäna nästan dubbelt så många användare än x86 inom samma tidsrymd. För mig ser det ut som att SPARC M7 är snabbare även på detta benchmark.

Citat:

Sedan vet jag inte riktigt om M7 skalar till så mycket större system än Xeon. Maximal mängd RAM är enligt Oracles produktblad 512 GB per socket och största systemet är 16 sockets -> 8 TB. Visst är det mer än Xeon E5 v3 som också har max 512 GB RAM per socket men maxar på 4 sockets, det är däremot mindre än Xeon E7 v3 som klarar 1,5 TB per socket upp till max 12 GB som kräver minst 8 sockets

Den urgamla SPARC M5-32 och även gamla SPARC M6-32 hade interconnect Bixby1 som skalade upp till 96 sockets. SPARC M7 har en interconnect Bixby2 som skalar upp till 64 sockets. SPARC M5 och M6 såldes upp till 32 sockets och 32 TB RAM. Eftersom M7 har effektiv komprimering av RAM så man kan köra i full speed utan tappad prestanda trots att man komprimerar mycket. T.ex. typiskt i databaser kan du komprimera 10:1 utan prestandaförlust, då motsvarar det 80 TB RAM, det räcker ganska långt även för mycket krävande kunder. SPARC M7 kan hantera 2TB RAM per cpu, så det finns gott om utrymme att skala uppåt. Jag tror det är fel i artikeln nedan, eftersom Bixby2 skalar upp till 64 sockets och 128 TB RAM, inte 32 TB RAM som det står på ett ställe, och 128 TB RAM på ett annat ställe. Den korrekta siffran är 128 TB RAM, tror jag.

Jag antar att du inte påstår att Xeon E7v3 som skalar till 8 cpuer med 12 GB RAM, skalar högre än SPARC M7. SPARC M7-16 servern går upp till 16-sockets och 8 TB RAM. Men skalar lätt långt högre om Oracles kunder kräver det:
http://www.nextplatform.com/2015/10/28/inside-oracles-new-spa...
"....The first generation Bixby interconnect, which debuted with the Sparc M5 machines several years ago, was able to scale up to whopping 96 sockets and 96 TB of main memory in a single system image, although Oracle only shipped Sparc M5 and Sparc M6 machines that topped out at 32 sockets and 32 TB of memory. With the Sparc M7 processors, Oracle has a second generation of Bixby interconnect that tops out at 64 sockets and 32 TB of memory, as John Fowler, executive vice president of systems, told us last year when the M7 chip was unveiled. The Sparc M7 systems that use this chip are currently topping out stretch to 16 sockets and 8 TB of main memory, which is considerably less than the theoretical limits that Oracle could push.
...
But with Oracle doing so many tricks in hardware to compress data and to make this available to its systems and database software, and with Oracle using flash to accelerate storage performance and to augment the main memory capacity, it makes a certain amount of sense for Oracle to stick with slightly lighter memory configurations and leave some headroom with 64 GB sticks should customers need them for larger memory footprints
....
It is not clear what this bandwidth drop does to performance, but it may be largely academic unless someone wants to build a 64 socket machine with 128 TB of memory. Oracle would surely take the order should it come in."

Om du behöver fler sockets än 16, så finns Fujitsu M10-4S med 64-sockets och 32 TB RAM. Det är den enda servern på marknaden som har 64 sockets. Ingen annan har så många.

Citat:

(oavsett antal socket, finns "off-the-shelf" E7 system med upp till 32 socket).

Jag tvivlar på att 32-socket x86 skalar vidare bra. I alla dessa år fram till nu har x86 skalat upp till 8-sockets, och att skala väl uppåt går inte på en handvändning. SGI har i flera decennier försökt bygga stora 16-socket x86 och större scale-up servrar utan att lyckas. Det finns starka skäl att tro att prestandan på en stor 16-socket x86 server inte är vidare bra. T.ex. när HP kompilerade Linux till sin 64-socket Itanium Superdome2 server, så fick de ut ~40% cpu utilization under full load. Varannan cpu idlade under full load, under Linux. Linux har aldrig körts på större scale-up servrar än 8 sockets. Det kräver ganska mycket omdesign för att skala väl. T.ex. Solaris som i flera decennier skalat upp till 144-sockets och mycket RAM, fick nyligen skriva om sin minneshantering för att skala upp till 100 tals TB RAM. IBM AIX gjorde samma sak iom POWER7 P795 32 sockets som gick upp till 8 TB RAM. AIX och Solaris har skalat till stora servrar i decennier, och ändå fick man skriva operativsystemen för att skala upp till ett tiotal TB. Varken Linux eller Windows har skalat mer än 8-sockets hittills, jag har svårt att tro att en x86 server med Windows eller Linux skulle prestera väl i jämförelse med gamla beprövade Unix servrar. Jag vill se benchmarks för att reda ut frågan. Men personligen tror jag att en färsk scale-up x86 server presterar dåligt. Kanske om 10-20 år så kommer x86 skala väl, när man hunnit bygga några generationer scale-up servrar och lärt sig.

Och börja inte blanda in SGIs UV2000 kluster och påstå att det är en scale-up server. Du vet att jag är påläst om den.

Citat:

Kollade upp 89xx lite mer, dels går detta att köpa löst som PCIe kort som drar 40W och kostar $600, en piss i Mississippi för de system som diskuteras här. Hadoop resultaten upp till fördubblas med ett sådant kort.

Även i SPARC M7 är motsvarande funktion en extern krets, den råkar bara vara inkluderad i alla M7/T7-servers.
"The SPARC M7 processor does this by using Data Accelerator co-processor (DAX). DAX is not a SIMD instruction but rather an actual co-processor that offloads in-memory queries which frees the cores up for other processing. The DAX has direct access to the memory bus and can execute scans at near full memory bandwidth." länk

Detta är EXAKT samma sak som 89xx rent tekniskt. Den sitter på en extern bus (PCIe), kan läsa/skriva mot RAM utan att involvera CPUn (DMA) och det är en co-processor som måste användas via ett speciellt API. Intel har gjort varianter av OpenSSL samt zlib som använder QuickAssist, så alla applikationer som använder detta (t.ex. OpenJVM och därmed saker som Hadoop) kommer använda kretsen automatiskt om den finns.

Vidare är det just de fall där M7 kan använda DAX där man har någon större prestandavinst mot Xeon E5 v5/POWER8, att då säga att det är CPUn som är imponerande är lite sanning med modifikation.

Jag förstår inte riktigt vad du försöker säga. Återigen, om du börjar blanda in externa kort, så kan Oracle också göra det. Och Oracles server kort kanske kan kosta upp emot miljontals kronor. Jag tycker inte det är rättvist att blanda in Enterprise grejor som kan kosta mycket mer än hela x86 servern. Jag tycker inte vi ska blanda in externa hjälpkort eftersom vi pratar om cpu vs cpu. Vi pratar inte GPU vs cpu när det gäller beräkningar.

Om vi pratar om DAX och alla acceleratorer som SPARC M7 har, så sitter de på chippet. De är inga externa co-cpuer i stil med gamla 80287 matematik hjälpprocessorer som sitter på ett externt kort. Jag förstår inte riktigt vad du försöker säga, menar du att alla M7 acceleratorer sitter på ett externt kort, som M7 accessar utifrån? Nej, det stämmer inte. Allt är inbakat i chippet.
http://www.enterprisetech.com/2014/08/13/oracle-cranks-cores-...
"....The S4 core, for instance, has special instructions to ensure application data integrity, which is done in real-time and which safeguards against invalid or stale memory references and buffer overruns... The Sparc M7 also has database query offload engines and accelerators for in-memory compression and decompression algorithms....The on-chip compression leaves the S4 cores leftover capacity to do useful work.
...
The query accelerator for the Oracle 12c database’s in-memory columnar data store does in-memory format conversions, value and range conversions, and set membership lookups. These on-chip database functions were developed in conjunction with the Oracle database team and reside on eight off-core query accelerator engines...."

Rapportera Redigera

Citera flera Citera

2015-11-04 23:12

Permalänk

Yoshman

Datavetare ★

Plats: Stockholm
Registrerad: Jun 2011

●

@MichaelJackson: Vad jag menar är att det finns moderkort med 89xx kretsen integrerad i "south-bridge" vilket är en krets du måste ha för att kunna köra en server. Så ur den bemärkelsen blir då inte 89xx mer ett externt kort än DAX då din CPU är värdelös utan moderkortets styrkretsar.

Och varför drar du upp saker som kostar miljontals kr? Min poäng är att även som PCIe-kort kostar 89xx ca 6000 och drar 40W, väl värt det om man faktiskt kör något som Hadoop när man pratar om plattformar som kostar >100,000 kr. Fördelen med detta är att man kan vid behov öka kapaciteten, om nu krypto/komprimering är flaskhalsen, för den ringa kostnaden av ~6000 kr och max 40W.

Angående P4. Intel insåg rätt snabbt att det inte var en vettig idé, man övergav P4 på laptops efter väldigt kort tid. Problemet på "vanliga" datorer och servers var att den Pentium 3 baserade Pentium M kretsen helt enkelt inte hade tillräckligt bra absolut prestanda. Fanns däremot ett par Xeon-varianter baserade på Pentium M med väldigt låg strömförbrukning, bra perf/W men de kunde inte matcha P4 varianterna i absolut perf. Man fick designa Core2 mycket från scratch, den lanserades ungefär 5 år efter P4 vilket är rätt exakt den ledtid som en modern big-core CPU-design har.

Resten av mitt dravel var rätt mycket: SPARC M7 är snabb, mycket snabb till och med, på en väldigt specifik sak. Prestanda kommer dock mycket från DAX och det faktum att 8 trådar per CPU-kärna hjälper rätt mycket i laster med "working-sets" som är så stora att cachen sällan hjälper. Där är den helt klart snabbare än Xeon, lite dunklet hur de står sig mot toppmodellerna av POWER8 då de också har 8 trådar per kärna och finns i varianter med 12 kärnor och >4 GHz (undrar vad effekten per CPU-kärna är där...).

Vad det gäller mina 50% kan bara använda en kärna, det var taget rätt mycket ur luften men det är en extremt konservativ gissning. Tänk på att allt som är utvecklat i JavaScript alltid är enkeltrådat, det är MYCKET saker idag. Även om Python, Ruby och liknande har stöd för multitråding så skalar de öken p.g.a hur deras run-time är designade, så alla lösningar skrivna i dessa språk är i praktiken enkeltrådade (eller kan i alla fall bara använda en CPU-kärna effektivt).

Ovanpå det tillkommer allt annat som innehåller algoritmer som är "inherently sequential", vilket i praktiken är väldigt många i de program vi kör på skrivbordet.

Citat:

Sen ska vi inte glömma bort Fujitsu SPARC64, som alltid satsat på 2 trådar per kärna, men mycket starka trådar. Fujitsus 1.100 Gflops är ganska imponerande om du frågar mig, speciellt när man jämför med x86 som når 400 gflops.

Åter igen, det är en icke-lanserad CPU som du jämför mot vad? Xeon E5 2699 v3 når 800 GFLOPs (både 800 och 1,100 är teoretisk max, Intel når i praktiken >90% av teoretisk max i t.ex. matrisberäkningar där FMA har nära nog 100% effektivitet).

Till och med konsument CPUn i7-5960X når >500 GFLOPS.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Rapportera Redigera

Citera flera Citera (2)

2015-11-05 12:05

Permalänk

MichaelJackson

Medlem

Registrerad: Sep 2014

●

Skrivet av Yoshman:

@MichaelJackson: Vad jag menar är att det finns moderkort med 89xx kretsen integrerad i "south-bridge" vilket är en krets du måste ha för att kunna köra en server. Så ur den bemärkelsen blir då inte 89xx mer ett externt kort än DAX då din CPU är värdelös utan moderkortets styrkretsar.

Och varför drar du upp saker som kostar miljontals kr? Min poäng är att även som PCIe-kort kostar 89xx ca 6000 och drar 40W, väl värt det om man faktiskt kör något som Hadoop när man pratar om plattformar som kostar >100,000 kr. Fördelen med detta är att man kan vid behov öka kapaciteten, om nu krypto/komprimering är flaskhalsen, för den ringa kostnaden av ~6000 kr och max 40W.

Gå till inlägget

Om du diskuterar prestanda per krona, så är det inget snack om saken. Du kan köpa flera x86 servrar för priset av den minsta SPARC M7-1 servern som kostar $40.000, dvs 320.000kr. Dessa bör vara snabbare. (Om du inte kör databaser, för då behöver du >10st x86 servrar för att utprestera SPARC M7-1, och så många lär kosta en slant). Så visst, då har du helt rätt i det du säger att ifall man får X antal kronor och ska bygga snabbaste x86 eller SPARC så är x86 lösning rimligtvis snabbare. Jag pratar dock om cpu vs cpu, på gammalt manligt sätt. Det är två olika diskussioner: bäst prestanda, eller prestanda per krona, vi verkar tala förbi varandra. Kanske därför debatten aldrig tar slut?

Citat:

Där är den helt klart snabbare än Xeon, lite dunklet hur [M7] står sig mot toppmodellerna av POWER8 då de också har 8 trådar per kärna och finns i varianter med 12 kärnor och >4 GHz (undrar vad effekten per CPU-kärna är där...).

Jag tror att i majoriteten av dessa 20 benchmarks med M7, så är även POWER8 benchad förutom x86. IBM har inte alltid släppt benchmarks med önskad konfiguration utav POWER8, så Oracle fick väl jämföra mot det som var släppt.

Citat:

Vad det gäller mina 50% kan bara använda en kärna, det var taget rätt mycket ur luften men det är en extremt konservativ gissning. Tänk på att allt som är utvecklat i JavaScript alltid är enkeltrådat, det är MYCKET saker idag. Även om Python, Ruby och liknande har stöd för multitråding så skalar de öken p.g.a hur deras run-time är designade, så alla lösningar skrivna i dessa språk är i praktiken enkeltrådade (eller kan i alla fall bara använda en CPU-kärna effektivt).

Resonemanget är rimligt, och därför köper jag det. Mer eller mindre. Därför ber jag dig inte posta länkar, utsagan stämmer antagligen hyfsat.

Citat:

Ovanpå det tillkommer allt annat som innehåller algoritmer som är "inherently sequential", vilket i praktiken är väldigt många i de program vi kör på skrivbordet.

Om du löser P-fullständiga problem så är troligtvis x86 snabbare, ja.

Citat:

Åter igen, det är en icke-lanserad CPU som du jämför mot vad? Xeon E5 2699 v3 når 800 GFLOPs (både 800 och 1,100 är teoretisk max, Intel når i praktiken >90% av teoretisk max i t.ex. matrisberäkningar där FMA har nära nog 100% effektivitet).

Till och med konsument CPUn i7-5960X når >500 GFLOPS.

Det här får du gärna visa länkar på, E5 2699 och i7-5960X, med tanke på att jag läst att POWER8 når typ 400gflops. Och POWER8 är ingen dålig cpu.

Senast redigerat 2015-11-05 12:15

Rapportera Redigera

Citera flera Citera

2015-11-05 13:43

Permalänk

Yoshman

Datavetare ★

Plats: Stockholm
Registrerad: Jun 2011

●

Skrivet av MichaelJackson:

Om du diskuterar prestanda per krona, så är det inget snack om saken. Du kan köpa flera x86 servrar för priset av den minsta SPARC M7-1 servern som kostar $40.000, dvs 320.000kr. Dessa bör vara snabbare. (Om du inte kör databaser, för då behöver du >10st x86 servrar för att utprestera SPARC M7-1, och så många lär kosta en slant). Så visst, då har du helt rätt i det du säger att ifall man får X antal kronor och ska bygga snabbaste x86 eller SPARC så är x86 lösning rimligtvis snabbare. Jag pratar dock om cpu vs cpu, på gammalt manligt sätt. Det är två olika diskussioner: bäst prestanda, eller prestanda per krona, vi verkar tala förbi varandra. Kanske därför debatten aldrig tar slut?

Gå till inlägget

DAX sitter utanför CPU-kärnan men har direktaccess till RAM, notera pilarna på de vertikala sidorna

Hur är det annorlunda jämfört med 89xx som också sitter utanför CPU-kärnan och har direktaccess mot RAM? Och min poäng är att det finns varianter av Xeon-servers där 89xx är integrerad i plattformen (det är alltså inte ett PCIe-instickskort), så hur skiljer sig det då från DAX?

Ser faktiskt inte att DAX ens sitter på samma krets som CPU-kärnan, däremot är den i samma paket

Precis som L4-cachen i t.ex. i7-5775C inte sitter på samma krets som CPUn, men den sitter ändå i den fyrkant som är "CPUn", d.v.s i samma paket.

Det har inget med prestanda/krona eller liknande att göra, min invändning är att Oracle har gjort ett användarfall där DAX kan avlasta komprimeringsteget till en sådan nivå att CPU-delen är lastad <10% när den slipper hantera komprimering. Det fall Intel körde var mycket tyngre på beräkningsbitarna och mindre lades på första/sista steget där komprimering händer, med avlastad komprimering var ändå CPU-lasten strax över 50% och ändå fördubblade man prestanda med när 89xx används. Så invändningen här är att i en äpplen mot äpplen så borde Xeon-plattformen också avlasta komprimering, men då skulle antagligen "fel" system "vinna"...

Och om priset inte är en faktor, varför utrustas då inte Xeon-systemen med mer RAM? Xeon E7 kan ju trots allt hantera tre gånger så mycket RAM per CPU-socket och med tillräckligt stort "working-set" kommer det spela väldigt stor roll. Bl.a. SGI har sagt att de har kunder som skulle kunna använda även mer än de 12 TB RAM som är gränsen idag om det fanns sådana system. Är det inte lite futtigt att maxa på 512 GB per socket eller 8 TB totalt då?

Skrivet av MichaelJackson:

Om du löser P-fullständiga problem så är troligtvis x86 snabbare, ja.

Gå till inlägget

Exakt, vilket är min invändning mot att hävda att SPARC M7 skulle vara världens snabbaste CPU. Sedan är det faktiskt så att P-fullständiga program saknar uppgiftsparallellism, de kan fortfarande ha viss möjlighet till att köra instruktioner i valbar ordning något man hanterar med superskalära out-of-order CPU-designer (POWER8, M7 och Haswell är alla superskalära och kan ha >100 instruktioner "in-flight") och det kan också finnas dataparallellism där SIMD (x86 SSE/AVX) kan använda mer eller mindre effektivt. Går däremot inte att använda flera CPU-kärnor/trådar på något effektivt sätt.

Skrivet av MichaelJackson:

Det här får du gärna visa länkar på, E5 2699 och i7-5960X, med tanke på att jag läst att POWER8 når typ 400gflops. Och POWER8 är ingen dålig cpu.

Gå till inlägget

Ska mäta när vi får in våra dual E5 2699 v3 servers på kontoret. Men 1,1 TFLOPS siffran för Fujitsu-maskinen är teoretisk (och den inkluderar FMA), teoretisk prestanda för Haswell och senare är:
4 (antal 64-bitars flyttal per AVX register) * 2 (antal FMA-enheter) * 2 (antal FLOPS per FMA instruktion) = 16 FLOPS per CPU-kärna och Hz.

2699v3 kan maximalt hålla 2,8 GHz när alla kärnorna jobbar så 2,8 * 18 * 16 = 806 GFLOPS

Senast redigerat 2015-11-05 13:55

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Rapportera Redigera

Citera flera Citera (2)

2015-11-05 13:54

Permalänk

tolle

Medlem

Plats: Stockholm
Registrerad: Dec 2002

●

Coolt. Känns däremot som att SPARC tappat lite i upptag sedan Oracletiden. Kör bara POWER och Z i jobbsammanhang, men rattade lite SPARC under universitetstiden. Skulle vara skoj att se lite mer opartiska benchmarks.

Rapportera Redigera

Citera flera Citera

2015-11-05 14:02

Permalänk

MichaelJackson

Medlem

Registrerad: Sep 2014

●

Bara för att förtydliga, eftersom SPARC M7 är dubbelt så snabb som x86, så betyder det inte att jag säger att SPARC teamet är dubbelt så bra som Intels Xeon team. Nej, jag tror alla teamen är ungefär lika bra, men de har olika förutsättningar och resurser till förfogande. Om Intel också hade Larry Ellison som sade "dubbla prestandan varje generation eller så får ni sparken, och ni får hur mycket pengar ni vill" så skulle det hända saker. Jag tror det kallas för eld-i-baken strategin?

Skälet att M7 har dubbla prestandan, är helt enkelt att M7 har ungefär dubbelt av allting:
-10 miljarder transistorer istället för 5.7 miljarder i Xeon E7v3
-250(?) Watt mot 150 watt för Xeon
-4.13 GHz mot 2.5GHz för Xeon
-32 cores mot 18 cores för Xeon
-256 trådar mot 36 trådar för Xeon
etc etc.

Då är det inte så konstigt att M7 blir dubbelt så snabb. Det vore konstigt om den INTE vore dubbelt så snabb. Å andra sidan, om Intel också började göra high-end Enterprise cpuer som sitter i stora vattenkylda servrar som väger 1,000kg styck, skulle Intel också kunna dubbla allting, dvs lika många transistorer, lika mycket watt, lika många cores, GHz, etc etc - och då är det högst troligt att båda cpuerna blir ungefär lika snabba.

Intel gör främst desktop cpuer och är inne på low-end Enterprise marknaden med upp till 8-sockets och begränsad RAS (tillförlitlighet) - då blir Xeon teamet bakbundna med hälften av alla resurser. Jag tycker Xeon presterar exceptionellt bra med tanke på att deras nisch är desktops och low end servrar.

Rapportera Redigera

Citera flera Citera

2015-11-05 14:32

Permalänk

Kr^PacMan

Hedersmedlem ★

Plats: QuakeNet
Registrerad: Jul 2001

●

Skrivet av MichaelJackson:

Jag tycker inte det är rättvist av dig att implicera att Intel beslut att satsa på Netburst P4 var en exceptionellt usel ide. Just då, vid den tiden, så tog Intel beslutet att satsa på netburst P4 och det var det bästa beslutet då för Intel, annars hade Intel inte tagit det beslutet. Det är alltid lätt att gå tillbaka i tiden och säga att någon gjorde fel, att de istället borde gjort så här - när du har facit i hand. Men med den informationen man hade då, så var det faktiskt det bästa beslutet - just då.

Gå till inlägget

Du menar alltså att Intel alltid tar det bästa beslutet för Intel? Tillåt mig tvivla. Att Intel introducerade NetBurst var på grund av ökande konkurrens från AMD och att de behövde processorer med hög klockfrekvens för att vinna "gigaherzkriget". Arkitekturen var ju extremt ineffektiv, strömhungrig och alltigenom ful, förutom några små designer.

Ser man tillbaka var ju processorerna extremt ineffektiva, även jämfört med motsvarande AMD under samma perioid. Under 2-3 år gick de ju i samma fotspår dessutom, tills de kom på att högre IPC och multicore nog är att föredra. Det bästa beslutet de kunde ha gjort var förmodligen någon sorts mellanväg mellan hyfsat hög frekvens men även en hög IPC. Då hade grunden till dagens multitrådade processorer lagts tidigare och de hade snabbare tagit igen de förlorade marknadsandelarna från AMD.

Visa signatur

SWECLOCKERS.COM :: If Quake was done today ::
WS: Gigabyte Z690 UD DDR5 :: Core i5 12600K :: 32 GB RAM :: Geforce RTX 3060 Ti :: 10 GbE NIC :: AOC C32G1 32" :: Seagate FireCuda 530 1TB :: Deepcool Matrexx 55
NAS: SM X10-SLM-F :: Mellanox Connect2X SFP+ :: Intel XL710-QDA1 QSFP+

Rapportera Redigera

Citera flera Citera (1)

2015-11-05 15:28

Permalänk

MichaelJackson

Medlem

Registrerad: Sep 2014

●

Skrivet av Yoshman:

DAX sitter utanför CPU-kärnan men har direktaccess till RAM, notera pilarna på de vertikala sidorna
Hur är det annorlunda jämfört med 89xx som också sitter utanför CPU-kärnan och har direktaccess mot RAM? Och min poäng är att det finns varianter av Xeon-servers där 89xx är integrerad i plattformen (det är alltså inte ett PCIe-instickskort), så hur skiljer sig det då från DAX?

Ser faktiskt inte att DAX ens sitter på samma krets som CPU-kärnan, däremot är den i samma paket

Gå till inlägget

Du ser inte skillnaden om något sitter på cpun, eller om det finns varianter av moderkortet som har funktionen?

Förrut ville du ju blanda in Xeon Phi beräkningskort också när vi pratade SPARC M7 mot x86 - vill du göra det igen? Varför inte blanda in GPUer också när du ändå håller på? Hur ska man kunna dra en slutsats om vilken cpu som är snabbast, om du börjar blanda in externa kort? Jag vill inte googla fram svindyra Enterprise hjälpkort som kostar miljontals kronor när man benchar cpu mot cpu, det vore inte rättvist mot x86. Hur kan du dra en korrekt slutsats vilken cpu som är snabbast, när du börjar blanda in externa diskreta kort? Man jämför äpplen mot äpplen, inte äpplen mot päron?

Vad tror du folk här på forumet skulle säga om swec benchade grafiken på en AMD A10-7850K med inbyggd grafik, mot en Intel cpu + Geforce GTX 980Ti och sedan deklarerade att Intel har snabbare grafik? Du ser inte problemet att bencha gpu mot cpu, och sen skriva slutsatsen om cpu mot cpu? Jag har försökt förklara det logiska felet du gör många gånger, men du ser fortfarande inte felet?

Citat:

Det har inget med prestanda/krona eller liknande att göra, min invändning är att Oracle har gjort ett användarfall där DAX kan avlasta komprimeringsteget till en sådan nivå att CPU-delen är lastad <10% när den slipper hantera komprimering. Det fall Intel körde var mycket tyngre på beräkningsbitarna och mindre lades på första/sista steget där komprimering händer, med avlastad komprimering var ändå CPU-lasten strax över 50% och ändå fördubblade man prestanda med när 89xx används. Så invändningen här är att i en äpplen mot äpplen så borde Xeon-plattformen också avlasta komprimering, men då skulle antagligen "fel" system "vinna"...

Fel system vinner? Om du nu får använda ett 89xx komprimeringskort i en x86 server så att den komprimerar och krypterar gratis precis som en M7, tror du att x86 blir så snabb då att den vinner alla benchmarks? T.ex. blir 10.8x snabbare i databaser och kan matcha en M7?

Citat:

Och om priset inte är en faktor, varför utrustas då inte Xeon-systemen med mer RAM? Xeon E7 kan ju trots allt hantera tre gånger så mycket RAM per CPU-socket och med tillräckligt stort "working-set" kommer det spela väldigt stor roll. Bl.a. SGI har sagt att de har kunder som skulle kunna använda även mer än de 12 TB RAM som är gränsen idag om det fanns sådana system. Är det inte lite futtigt att maxa på 512 GB per socket eller 8 TB totalt då?

Fine, låt Xeon servern få mer RAM. Vad spelar det för roll. Tror du det ändrar benchmarks resultaten då? T.ex. att x86 blir 10.8x snabbare i databaser?

Citat:

Exakt, vilket är min invändning mot att hävda att SPARC M7 skulle vara världens snabbaste CPU. Sedan är det faktiskt så att P-fullständiga program saknar uppgiftsparallellism, de kan fortfarande ha viss möjlighet till att köra instruktioner i valbar ordning något man hanterar med superskalära out-of-order CPU-designer (POWER8, M7 och Haswell är alla superskalära och kan ha >100 instruktioner "in-flight") och det kan också finnas dataparallellism där SIMD (x86 SSE/AVX) kan använda mer eller mindre effektivt. Går däremot inte att använda flera CPU-kärnor/trådar på något effektivt sätt.

Visst, det kan finnas benchmarks där SPARC M7 förlorar. M7 är väl inte snabbare på exakt allting, snabbare ALU, snabbare register, snabbare minne, snabbare trådar, etc. Det finns saker som M7 inte är snabbare på. Så vad ska jag ändra titeln till, tycker du? Säg nåt som du blir nöjd med, så kanske du kan sluta posta inlägg efter inlägg efter inlägg med invändning efter invändning om hur mycket snabbare x86 egentligen är, trots dessa benchmarks där M7 demolerar? "Ja, jag ser att SPARC M7 är 4.6x snabbare än x86 på hadoop men det är ju knappast imponerande om du tänker på att... så egentligen är x86 snabbare!". Post efter post med liknande innehåll: "ja, jag ser att SPARC T1 är 25x gånger snabbare än Itanium, men det är ju knappast imponerande om du betänker att... så egentligen är x86 snabbare!"

Vad vill du att jag ändrar titeln till, så slipper du posta inlägg efter inlägg i tråd efter tråd efter tråd efter tråd efter tråd om hur felaktiga mina benchmarks/länkar är, och hur mycket snabbare x86 egentligen är? Utnötningstaktik?

Citat:

Ska mäta när vi får in våra dual E5 2699 v3 servers på kontoret. Men 1,1 TFLOPS siffran för Fujitsu-maskinen är teoretisk (och den inkluderar FMA), teoretisk prestanda för Haswell och senare är:
4 (antal 64-bitars flyttal per AVX register) * 2 (antal FMA-enheter) * 2 (antal FLOPS per FMA instruktion) = 16 FLOPS per CPU-kärna och Hz.

2699v3 kan maximalt hålla 2,8 GHz när alla kärnorna jobbar så 2,8 * 18 * 16 = 806 GFLOPS

Fin beräkning. Men kan du visa några real life benchmarks? Alla benchmarks jag har sett har angivit POWER8 till strax under 400 gflops, och Intel Xeon strax däromkring. Du har påstått nån liknande Gflops siffra förrut, och jag bad dig visa benchmarks, men då kunde du inte visa några benchmarks alls som stödde ditt påstående. Det kanske du kan visa nu?

T.ex. IBM påstår POWER8 ha 230 GB/sek minnesbandbredd. Och SPARC M7 har ju 160GB/sek. Men i riktiga benchmarks så har M7 dubbelt så bra bandbredd som POWER8:
https://blogs.oracle.com/BestPerf/entry/20151025_stream_sparc...
Mao, teori säger inte så mycket. Det är praktiska benchmarks som gäller.

Men du har helt rätt i att SPARC XIfx inte är släppt än, och det är inte riktigt rättvist att blanda in den. Jag kanske ska sluta prata om den förrän den släppts? Nåt jag undrar över, är hur många gflops M7 har. Den är ju typ 75% snabbare i SPECint2006 och SPECfp2006 än x86, vilka är beräkningar. Om nu x86 gör 400 gflops, så kanske M7 uppnår 75% extra, dvs 700 gflops?

Skrivet av tolle:

Känns däremot som att SPARC tappat lite i upptag sedan Oracletiden. Kör bara POWER och Z i jobbsammanhang, men rattade lite SPARC under universitetstiden. Skulle vara skoj att se lite mer opartiska benchmarks.

Gå till inlägget

SPARC tappat sedan Oracle? Möjligt. Sun tappade massa kunder mot slutet när det gick dåligt. Det var därför Sun öppnade all kod och sänkte priserna. Skänka bort och sänka priser gör man bara när man är desperat. Sun hade 30.000 kunder. Oracle har 300.000 enterprise kunder. Om Oracle kan få endast 15% att byta till deras specialdesignade servrar för att köra databaser 10x snabbare än andra, så ligger Oracle bra till. Och om Oracle dessutom sänker priserna för licensen om du kör SPARC, så kommer Oracle sälja ganska mycket servrar. Unix marknaden är vikande, men Oracles engineered systems marknad (dvs databasservrar) ökar i mycket snabb takt, den växer mycket bra.

Angående oberoende benchmarks, så tror jag flera av dem är verifierade utav extern part. T.ex. SPECint2006 borde ha kollats av någon extern för att få det officiellt, gissar jag. Samma med databas benchmarks, SAP, etc. Mao, jag tror att flera benchmarks är opartiska. Om de tvärtom faktiskt är partiska, så borde IBM och x86 också vara partiska, så då borde de jämna ut sig, om alla kör partiska benchmarks?

Rapportera Redigera

Citera flera Citera

2015-11-05 15:37

Permalänk

MichaelJackson

Medlem

Registrerad: Sep 2014

●

Skrivet av Kr^PacMan:

Du menar alltså att Intel alltid tar det bästa beslutet för Intel? Tillåt mig tvivla. Att Intel introducerade NetBurst var på grund av ökande konkurrens från AMD och att de behövde processorer med hög klockfrekvens för att vinna "gigaherzkriget". Arkitekturen var ju extremt ineffektiv, strömhungrig och alltigenom ful, förutom några små designer.

Ser man tillbaka var ju processorerna extremt ineffektiva, även jämfört med motsvarande AMD under samma perioid. Under 2-3 år gick de ju i samma fotspår dessutom, tills de kom på att högre IPC och multicore nog är att föredra. Det bästa beslutet de kunde ha gjort var förmodligen någon sorts mellanväg mellan hyfsat hög frekvens men även en hög IPC. Då hade grunden till dagens multitrådade processorer lagts tidigare och de hade snabbare tagit igen de förlorade marknadsandelarna från AMD.

Gå till inlägget

Jag tror att Intel alltid tar det bästa beslutet för Intel - med den informationen man har just då, och med de förutsättningar man hade just då. Med facit i hand är det lätt att säga att Intel tagit fel beslut, men just då visste man inte det. Detta gäller alla, personer, företag, etc etc.

T.ex. var det en läsvärd artikel om hur stora mjukvarusystem kan vara dåligt kodade och bloatade. Och i efterhand med facit i hand, vill man bara slänga all kod och börja om från början. Och somliga gör det, men det är ett misstag. Vad får dig att tro att nästa version blir mycket bättre? Man skrev den bästa koden med de förutsättningar man hade just då. (Nu pratar jag stora mjukvarusystem. Inte några rader kod.)
http://www.joelonsoftware.com/articles/fog0000000069.html
"..."Well," [the new programmer] say, "look at this function. It is two pages long! None of this stuff belongs in there! I don't know what half of these API calls are for."

Before Borland's new spreadsheet for Windows shipped, Philippe Kahn, the colorful founder of Borland, was quoted a lot in the press bragging about how Quattro Pro would be much better than Microsoft Excel, because it was written from scratch. All new source code! As if source code rusted.

The idea that new code is better than old is patently absurd. Old code has been used. It has been tested. Lots of bugs have been found, and they've been fixed. There's nothing wrong with it. It doesn't acquire bugs just by sitting around on your hard drive. Au contraire, baby! Is software supposed to be like an old Dodge Dart, that rusts just sitting in the garage? Is software like a teddy bear that's kind of gross if it's not made out of all new material?

Back to that two page function. Yes, I know, it's just a simple function to display a window, but it has grown little hairs and stuff on it and nobody knows why. Well, I'll tell you why: those are bug fixes. One of them fixes that bug that Nancy had when she tried to install the thing on a computer that didn't have Internet Explorer. Another one fixes that bug that occurs in low memory conditions. Another one fixes that bug that occurred when the file is on a floppy disk and the user yanks out the disk in the middle. That LoadLibrary call is ugly but it makes the code work on old versions of Windows 95.

Each of these bugs took weeks of real-world usage before they were found. The programmer might have spent a couple of days reproducing the bug in the lab and fixing it. If it's like a lot of bugs, the fix might be one line of code, or it might even be a couple of characters, but a lot of work and time went into those two characters.

When you throw away code and start from scratch, you are throwing away all that knowledge. All those collected bug fixes. Years of programming work.

You are throwing away your market leadership. You are giving a gift of two or three years to your competitors, and believe me, that is a long time in software years.

....

It's important to remember that when you start from scratch there is absolutely no reason to believe that you are going to do a better job than you did the first time. First of all, you probably don't even have the same programming team that worked on version one, so you don't actually have "more experience". You're just going to make most of the old mistakes again, and introduce some new problems that weren't in the original version.

The old mantra build one to throw away is dangerous when applied to large scale commercial applications. If you are writing code experimentally, you may want to rip up the function you wrote last week when you think of a better algorithm. That's fine. You may want to refactor a class to make it easier to use. That's fine, too. But throwing away the whole program is a dangerous folly, and if Netscape actually had some adult supervision with software industry experience, they might not have shot themselves in the foot so badly..."

Rapportera Redigera

Citera flera Citera

2015-11-05 15:54

Permalänk

Tomika

Medlem

Registrerad: Feb 2003

●

Min 2699 håller 2.5-2.8GHz vid max belastning (syntetisk belastning) men större delen av tiden ser jag 3.0-3.1GHz. Men då vid vanligt desktop användande. Aldrig sett den ligga på 3.5GHz trotts att endast 4-6 kärnor effektivt användas medan resterande varit i dvala.

Visst är 2699 Intels snabbaste cpu i dagsläget men då under förutsättningen att den nyttjar sina fulla kraft, vilket är sällan. Så en traditionell i5/i7 springer ju förbi vid spelande.

Min 2699 kör ju dock 4st VMs med accelererad 3d. Så 4 instanser av borderlands 2 och fullsmetad grafik eller andra perfekta LAN spel var hela syftet. Går även köra 4st klienter med BF4 på EN processor men ett titan x orkar ju dock inte driva det på ultra i acceptabel fps precis.

Kortfattat så är processorn helt utmärkt då den besparar mig problemet med att behöva 4st stationära system, det enda som skulle behövas i dagsläget är väl kanske ett till titan x kort för att kunna få tex arma 3 att snurra på acceptabelt.

Visa signatur

.:. Expect disappointment and you won't be disappointed .-. Inaktiv/AFK sedan 2024-06-04 19:39 .:.

Rapportera Redigera

Citera flera Citera

2015-11-05 16:31

Permalänk

Yoshman

Datavetare ★

Plats: Stockholm
Registrerad: Jun 2011

●

Skrivet av MichaelJackson:

Du ser inte skillnaden om något sitter på cpun, eller om det finns varianter av moderkortet som har funktionen?

Gå till inlägget

DAX sitter inte i CPUn, den sitter i samma paket men är en separat krets som CPUn och rent tekniskt skulle den lika gärna kunna vara ett instickskort. Förklara då exakt på vilket sätt det skiljer sig från en Xeon-plattform där 89xx är integrerad i moderkortet.

Fast vad spelar det för roll i praktiken? Kör man Hadoop på Xeon och komprimering är en flaskhals lär man ju köpa till en eller flera 89xx. Hadoop (och även Cloud resultatet som hade liknande flaskhals) är därför rätt tillsägande då de jämför SPARC M7 som den i praktiken skulle vara konfigurerad mot ett Xeon konfiguration som ingen vettig människa skulle välja när komprimering är en sådan flaskhals. Varför slänga bort >100,000 kr på en server och skita i en lösning som minst dubblar kapaciteten för 6000 kr (ännu mindre om man väljer en plattform där stödet är integrerat i moderkortet)?

Har inte blandat in GPUer eller Xeon Phi, men är ju samma princip där. Om nu flaskhalsen är flyttalskapacitet och man gör massor med beräkningar så lär man i praktiken bara köpa till ett eller flera beräkningskort. Benchmark siffror utan dessa kort blir då en intressant teknisk jämförelse mellan CPU-kretsar, men helt irrelevant rent praktiskt då det som spelar roll där är hur systemet som helhet löser uppgiften den är tänkt att lösa.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Rapportera Redigera

Citera flera Citera (4)

2015-11-05 16:41

Permalänk

zxhosting

Avstängd

Plats: Götet
Registrerad: Jan 2015

●

Vad kostar dom?

Kan man göra något annat på dom tex Linux och ha någon spel server på dom eller är dom inte till för det?

Visa signatur

Server: två Intel Xeon E5-2690v2 och 128 GB ram

Min server dator: #15149189 http://i.imgur.com/BKxOmUP.jpg
zxhosting: https://www.facebook.com/pages/Zxhosting/1476037889350815

Rapportera Redigera

Citera flera Citera

2015-11-05 20:47

Permalänk

MichaelJackson

Medlem

Registrerad: Sep 2014

●

Skrivet av Yoshman:

DAX sitter inte i CPUn, den sitter i samma paket men är en separat krets som CPUn och rent tekniskt skulle den lika gärna kunna vara ett instickskort. Förklara då exakt på vilket sätt det skiljer sig från en Xeon-plattform där 89xx är integrerad i moderkortet.

Gå till inlägget

Återigen, om du blandar in externa diskreta kort för x86, så kan även SPARC göra det. Och det vill inte jag, för det är inte rättvist att jämföra Enterprise kort med extrema resurser och prestanda mot en desktop?

Om du jämför en Volvo mot en Porsche och börjar blanda in propellerplan till Volvons sida, så kan Porsche ta in en rymdskyttel i jämförelsen, eftersom Porsche har mycket mer pengar. Och det vore inte rättvist att blanda in svindyra rymdskyttlar mot små propellerplan. Vad sägs om att vi bara jämför bil mot bil istället, när vi ändå pratar om vilken bil som är snabbast? Pratar vi vilket flygplan som är snabbast, eller pratar vi vilken bil som är snabbast? Du inser väl att man kan inte dra slutsatser om bilar, om du benchar mellan flygplan? Jag förstår inte riktigt vad som är problemet rent logiskt, att när man benchar, så ska man bencha äpplen mot äpplen, och inte äpplen mot päron?

Citat:

Fast vad spelar det för roll i praktiken? Kör man Hadoop på Xeon och komprimering är en flaskhals lär man ju köpa till en eller flera 89xx. Hadoop (och även Cloud resultatet som hade liknande flaskhals) är därför rätt tillsägande då de jämför SPARC M7 som den i praktiken skulle vara konfigurerad mot ett Xeon konfiguration som ingen vettig människa skulle välja när komprimering är en sådan flaskhals. Varför slänga bort >100,000 kr på en server och skita i en lösning som minst dubblar kapaciteten för 6000 kr (ännu mindre om man väljer en plattform där stödet är integrerat i moderkortet)?

Om du nu verkligen skulle ha ett externt x86 kort som hanterar komprimering och krypto så att Xeon kan köra Hadoop i full hastighet, så räcker det ändå inte till att utprestera M7 som är 4.6x snabbare på Hadoop. M7 är snabbare hur du än gör med externt kort eller ej, men du skriver ändå inlägg efter inlägg med invändningar om att egentligen är x86 snabbare. Jag fattar inte riktigt varför du alltid ska dra saker i långbänk i tråd efter tråd efter tråd efter tråd trots att siffrorna säger emot dig varje gång? Somliga skulle säga att du är lite vinklad, lite biased. Vägrar acceptera hårda fakta. "Jamen att SPARC T1 är 25x snabbare än Itanium är ju inte vidare imponerande om du betänker att..."

Citat:

Har inte blandat in GPUer eller Xeon Phi, men är ju samma princip där. Om nu flaskhalsen är flyttalskapacitet och man gör massor med beräkningar så lär man i praktiken bara köpa till ett eller flera beräkningskort. Benchmark siffror utan dessa kort blir då en intressant teknisk jämförelse mellan CPU-kretsar, men helt irrelevant rent praktiskt då det som spelar roll där är hur systemet som helhet löser uppgiften den är tänkt att lösa.

Du har blandat in Xeon Phi i en tidigare diskussion om SPARC vs x86. Jag tyckte inte det var rättvist att jämföra ett externt diskret beräkningskort mot en cpu då, och det tycker jag inte nu heller. Om nu det finns en flaskhals så är det naturligt att man köper in ett kort för att hantera problemet, men då tycker jag inte man kan tillskriva prestandaökningen till cpun? Det vore ju falsk marknadsföring: "AMD cpuer är lika snabba som Intel !!!" - förutsatt att du väljer bara den bästa procenten av AMD cpuer som klarar av hög överklockning, använder flytande kväve för kylningen, köper special RAM minne som också tål överklockning, etc. "Men om vi bortser från alla dessa moddar, så är AMD lika snabba som Intel!!!" - låter inte riktigt rätt i mina öron?

Skrivet av zxhosting:

Vad kostar dom?

Kan man göra något annat på dom tex Linux och ha någon spel server på dom eller är dom inte till för det?

Gå till inlägget

Den billigaste SPARC T7-1 kostar 320.000 kr. Det står i en tidigare post här. De är servercpuer och de kör Unix, inte Windows. Så du kan inte köra Windows program på dem. Man kan installera Linux på dem, tror jag - men det kommer antagligen inte funka bra jämfört med Solaris som är optimerat för SPARC. Så det är bara att undvika Linux.

Rapportera Redigera

Citera flera Citera

2015-11-05 22:10

Permalänk

MichaelJackson

Medlem

Registrerad: Sep 2014

●

Skrivet av Yoshman:

DAX sitter inte i CPUn, den sitter i samma paket men är en separat krets som CPUn och rent tekniskt skulle den lika gärna kunna vara ett instickskort. Förklara då exakt på vilket sätt det skiljer sig från en Xeon-plattform där 89xx är integrerad i moderkortet.

Gå till inlägget

DAX skiljer sig på sätt att det sitter direkt på chippet:
http://chucksblog.typepad.com/.a/6a00d83451be8f69e201b8d16b81...
Taget från
http://chucksblog.typepad.com/chucks_blog/2015/10/the-amazing...

Rapportera Redigera

Citera flera Citera

2015-11-05 23:40

Permalänk

Yoshman

Datavetare ★

Plats: Stockholm
Registrerad: Jun 2011

●

Skrivet av MichaelJackson:

DAX skiljer sig på sätt att det sitter direkt på chippet:
http://chucksblog.typepad.com/.a/6a00d83451be8f69e201b8d16b81...
Taget från
http://chucksblog.typepad.com/chucks_blog/2015/10/the-amazing...

Gå till inlägget

Rätt terminologi är viktigt om man ska ha nörddiskussion om detaljer som resten av världen total skiter i

Det finns 8 st co-processorer för att accelerera databasfrågor (se sidan 29), dessa sitter i samma paket men de sitter inte i samma krets som CPUn. D.v.s. de är hur man än vrider och vänder på det, sett från CPUn, en (eller ja, åtta st) externa kretsar. Kolla in sidan 6 i det jag länkar, där finns en mycket bättre bild av det du har som länk#1, vad du ser är hela CPU-kretsen och den innehåller inte applikationsaccelerationerna då dessa är kopplade till en buss mot "on-chip network".

Så det är inte CPUn, d.v.s. den del som kör SPARC-instruktioner, som är supersnabb utan systemet som helhet är väldigt snabbt på de specifika saker där applikationsaccelerationerna kan användas, vilket knappast är "general purpose".

Jämför med AMDs APUer, total beräkningskraft i en sådan är på pappret och i rätt benchmark rejält imponerande, ändå är den ändå långsammare än Intels CPUer som har ungefär lika många transistorer i majoriteten av alla program. Varför? Jo majoriteten av alla program kan bara använda x86 CPU-delen för det få problem som lämpar sig för att köras på en GPU, det finns sådana problem och i dessa är det långt mer effektivt att köra på en GPU/APU.

Och räknar man iGPU som del av CPUn så finns de ju x86 konsumentmodeller som har GFLOPS-kapacitet i Xeon v3 / Fujitsu SPARC klass. Men det om något visar att det är skillnad på att ha en viss kapacitet i den generella delen i CPUn, d.v.s. den del som hantera plattformens "vanliga" instruktioner, och att ha kapaciteten i någon form av specialiserad krets (även kom denna krets är del av CPU-kretsen vilket är fallet för dagens iGPUer).

Så som general purpose CPU är inte SPARC M7 snabbare än vare sig POWER8 eller Xeon v3, så trådens titel är fel
M7 är fortfarande en mäkta imponerande krets och för Oracles kärnverksamhet är det antagligen helt rätt produkt!

Men vissa "världsrekord" kan det bara vara Larry som kan basunera ut utan att dra på minnen. Ta Hadoop t.ex. Vad är det egentligen TeraSort benchmarket mäter? Ju hur snabbt en visst system kan göra analys på en väldigt stor datamängd, Oracle har valt 10 TB. Enligt den som definierade detta benchmark är det "bästa" systemet det som utför uppgiften snabbast.

Ser du något i resultatet? 4 socket SPARC M7 systemet är det klart långsammaste systemet av de man jämför med, fyra gånger långsammare än det snabbaste (Dell-systemet, som för övrigt kör Ivy Bridge, d.v.s Xeon v2, snabbaste Haswell, d.v.s. Xeon v3, ca x2.5 gånger snabbare).

Hur "vinner" då M7? Jo Oracle definierar helt enkelt en egen måttstock: GB/min som sorteras per socket. Kan man ju göra, men det är inte vad "Hadoop TeraSort" har som måttstock. Och varför just per socket, varför inte per CPU-tråd (då är Ivy Bridge @ 3,1 GHz ca 3,2 gånger snabbare jämfört med M7 @ 4,13 GHz)?

Är därför det här med "världsrekord" är så löjligt. Intel och IBM har också massor med sådana rekord om man söker på deras företagssidor, t.ex. Intel, men är bara Oracle som så in-your-face skyltar med dessa "rekord".

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Rapportera Redigera

Citera flera Citera (5)

2015-11-06 00:14

Permalänk

kufra

Medlem

Plats: Göteborg
Registrerad: Dec 2004

●

Terminologin är extremt viktigt. Klassiskt exempel är väll dator/data, där data ibland används när man menar hårdvaran och inte information. Så följer man argumentarionen här vad gäller kisel/kapsel som tredje hjulet så ser de helt klart ut som att ni pratar runt varandra med olika terminologi.
Hur som, en mycket intressant tråd om ett ämne jag kan väldigt lite om, tackar för att ni delar med er

Skickades från m.sweclockers.com

Visa signatur

Gaming: Asus P8P67, Intel i5-2500k, Asus 7970 DCII, 8gb ram, 300gb velociraptor
Server: Asus Rampage II, Intel i7-980x, 6970 ref, 30gb ram, SASUC8I + 8st 2tb diskar + 1st 128gb SSD

Rapportera Redigera

Citera flera Citera (1)

2015-11-06 22:03

Permalänk

deadleus

Medlem

Plats: Sweden
Registrerad: Jul 2001

●

Tillämpningarna styr vilken plattform som presterar bäst. Personligen tycker jag Power8 och SPARC M7 är extremt nischade och knappast något som går inte större generella operativa miljöer. Vilket kanske inte är målet heller. Det är kul att debattera teknik och designbeslut, vilket är intressant då jag själv snöade in rejält på Alpha 21264 och dess efterföljare, men vid utveckling idag eller när man helt enkelt vill leverera något så får övriga plattformar ställa sig i något hörn. Vill man åt maximal prestanda för begränsade tillämpningar så varför inte använda ASIC's.

Yoshman och MichaelJackson, hatten av för teoretiska kunskaper. Blir samtidigt nyfiken på det praktiska tillämpningar ni använder eller har använt i IT produktion/utveckling? Erfarenheter?

Själv så rensade vi ut SPARC och Power och DEC, just pga. den låga prestandan, galna prissättningar och dyra driften. Kan en bra design väga upp det, jag tycker inte det. Går det att motivera oavsett? Vad tycker ni andra? Synar man allt skryt oavsett tillverkare blir det en helt annan bild.

Å andra sidan tog vi ner en (Sun Netra T1 Ultrasparc 2 500hz, 256mb ram, 2x18GB SCSI 1x PSU) efter runt 6 år kontinuerlig drift, 2635 dagar om jag kommer ihåg rätt, kanske var bättre förr.

Hyperscale med x86 och SDN är dagens melodi (cloud) pris, prestanda, möjligheterna och skalbarhet ad infinitum. Google, Amazon, Facebook har en hel del häftiga lösningar. Nyfiken vad som kommer om 5-10 år. Binärer som flyter direkt på en HAL? ... kanske?

Jag kanske lämnar ämnet en aning, men avslutar med en länk.

Som vanligt välskrivet från anandtech. Power8 och Xeon E5.

http://anandtech.com/show/9567/the-power-8-review-challenging...-

Visa signatur

Mobile Work - MacBook Pro 16 M1 Max 64GB

Rapportera Redigera

Citera flera Citera

2015-11-06 22:26

Permalänk

Yoshman

Datavetare ★

Plats: Stockholm
Registrerad: Jun 2011

●

@deadleus: jobbade för något år sedan med att designa och utveckla en nätverksplattform baserad på standard Xeon-servers och 10/40 Gbit/s Ethernet portar där det var möjligt att hantera upp till 30-40 miljoner paket per sekund per CPU-kärna, går också att hantera upp till 5 miljoner HTTP-transaktioner per CPU-kärna.

För att få till dessa hastigheter får man ha hyfsad koll på hur systemet är uppbyggt, var då jag lärde mig värdet av finesser som DDIO som gör det möjligt att köra DMA till/från L3-cache i en Xeon E5/E7 CPU.

Men har sedan jag skaffade min första dator, en VIC-20, varit fascinerad av hur en dator fungerar och började programmera i BASIC och Assembler, den senare just för att kunna pressa ur allt ur systemet.

För tillfället jobbar jag främst med ARM, så det är helt andra änden av spektrumet. Men där är det kanske än mer viktigt att kunna skriva program som absolut får ut maximalt av systemet, tillverkar du ett par miljoner enheter av något och din programvara är så effektiv att du kan spara några $ per enhet så är det helt rationellt att lägga rätt mycket krut på utveckling av programvara.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Rapportera Redigera

Citera flera Citera

2015-11-08 23:11

Permalänk

MichaelJackson

Medlem

Registrerad: Sep 2014

●

Skrivet av Yoshman:

Det finns 8 st co-processorer för att accelerera databasfrågor (se sidan 29), dessa sitter i samma paket men de sitter inte i samma krets som CPUn. D.v.s. de är hur man än vrider och vänder på det, sett från CPUn, en (eller ja, åtta st) externa kretsar.

Kolla in sidan 6 i det jag länkar, där finns en mycket bättre bild av det du har som länk#1, vad du ser är hela CPU-kretsen och den innehåller inte applikationsaccelerationerna då dessa är kopplade till en buss mot "on-chip network".

Gå till inlägget

Jag kollar på sidan 6 i länken från SICS. Sidan heter "M7 Processor" och texten lyder "32 SPARC Cores" etc. Och det är exakt samma bild som jag länkade till här:
http://chucksblog.typepad.com/.a/6a00d83451be8f69e201b8d16b81...
fast på din sid 6 ser man texten också.

Låt oss betrakta din bild. Där ser man på ömse sidor två små rektanglar, med text "ACCELERATORS / MEMORY CONTROL". Och det är på dessa små rektanglar där DAX sitter. Så du menar att dessa Rektanglar (kallad DAX-R hädanefter för att förkorta), inte sitter på chippet. Du menar nåt i stil med att Oracle etsat fram dessa små DAX-R chip separat och lagt dem på samma paket en bit ifrån chippet.

På bilden tycker jag det ser ut som att DAX-R är en bit utav chippet. Jag tycker det låter märkligt att Oracle etsar fram DAX-R chippen separat, det är ju inte så många transistorer det är fråga om. Om Oracle klämt in 10 miljarder transistorer så kan de väl klämma in 10.1 miljarder transistorer som DAX-R kanske tar upp. Att accelera t.ex. databaser tycker jag verkar effektivast att göra det rätt i chippet, att MEMORY CONTROLLER tar hand om den biten.

Jag kan förstå att ifall man ska bygga in nåt stort, typ GPU eller APU så kanske man vill etsa fram ett separat chip och sen lägga dem nära varandra på ett paket - eftersom man överskrider sin transistorbudget.

Jag tycker det ser ut som att DAX-R sitter på samma chip, och jag tycker inte det ser ut som att det är tre separata chip som lagts på samma paket, vilket du påstår: vänster DAX-R, cpu och höger DAX-R. Det låter inte vettigt ur ingenjörssynpunkt att etsa fram tre olika chipp när det är så lite yta vi pratar om.

På vad baserar du din åsikt? För det är väl en åsikt, eller har du någon information som du grundar din tro på (att det är tre olika chip)? Och det är pga din tro du tycker du att det är rättvist att börja plocka in externa diskreta komprimeringskort som 89xx och externa beräkningskort som Xeon Phi när man benchar cpu mot cpu, som du säger: "vad är skillnaden??".

Ska jag maila Oracle och fråga om DAX-R transistorerna sitter på samma cpu, eller om det är separata chip som etsats fram, som man lagt på samma paket?

Citat:

Så det är inte CPUn, d.v.s. den del som kör SPARC-instruktioner, som är supersnabb utan systemet som helhet är väldigt snabbt på de specifika saker där applikationsaccelerationerna kan användas, vilket knappast är "general purpose".

Jag tror inte jag sagt att SPARC M7 är en general purpose cpu? Men däremot har jag sagt att M7 är mer generell än de gamla cool threads SPARC T1 cpuerna på 80 watt, som faktiskt hade många klena trådar. Dessa M7 trådar är starka. Det finns folk som tror att M7 också har samma svaga trådar som SPARC T1, men det stämmer alltså inte. M7 är mer generell än T1, och det har jag alltid hävdat. Från... T4(?) cpun kan en core också dedikera alla resurser till en och samma tråd, istället för att köra flera trådar samtidigt - det gör tråden mycket starkare när den får en hel kärna för sig själv. Detta kunde inte SPARC T1. Så återigen, jag har länge hävdat att de nyare SPARC cpuerna är _generellare_, pga man kan få starka trådar om man vill det.

Citat:

Så som general purpose CPU är inte SPARC M7 snabbare än vare sig POWER8 eller Xeon v3, så trådens titel är fel

Visst, du har en poäng. SPARC M7 är ju faktiskt inte snabbaste cpun på precis allting, det finns saker som andra cpuer är snabbare på, typ, högre IPC, kanske snabbare ALU, lägre minnes latency, minneslatch, etc etc.

Vad bör jag ändra titeln till tycker du? Jag vill inte ändra titeln själv, därför att då kommer du komma med massor av invändningar i inlägg efter inlägg efter inlägg. Säg en titel, så slipper du dra det i långbänk.

Har du hört talas om Usain Bolt, världens snabbaste man? Jag fattar inte hur man kan utse honom till världens snabbaste man, enligt wikipedia "fastest person ever". Jag menar, hur snabb är han på maraton eller ultradistans? Det lär ju finnas personer som är snabbare än honom på olika distanser.

Har du hört talas om världens snabbaste bil? Eller MC? Eller flygplan? Eller snabbaste fågel, eller you name it. Jag tror knappast världens snabbaste bil är snabbast hela tiden, kanske finns det en bil som just kring 2.3 sekunder accelerar snabbare. Och det lär ju finnas bilar som har en snabbare pistong i just in motor, vid en viss tidpunkt. Hur kan man kalla en bil "världens snabbaste"??? Det är ju bluff och båg, det måste speciellt du förstå.

Hur kan man kalla någon världens bästa fotbollspelare? Dumt, det måste ju finnas någon som t.ex. skjuter med förbundna ögon bättre. Och en fotbollspelare måste ju vara bättre på exakt allting, annars kan man inte anse honom vara den bästa spelaren, eller hur?

När NVIDIA har snabbare grafikkort än AMD, hur i hela friden vet man det? Tänk om AMD har lägre latency i en speciell upplösning när man spelar just en speciell bana i ett speciellt spel? Eller, jag själv kanske har skrivit ett eget program som AMD är snabbare på i ett visst läge. Då kan man ju knappast säga att NVIDIA är snabbare, när det existerar corner cases där AMD faktiskt är snabbare.

Hur kan PS4 ha snabbare grafik än XBone??? Finns det inte ett enda spel där XBone är snabbare i ett visst läge, t.ex. på en speciell karta i ett spel - ja, då kan ju inte PS4 fanboysen hävda att PS4 har bättre grafik, därför att PS4 inte har bättre grafik i ALLA lägen. Bara i majoriteten av spelen och upplösningarna har PS4 bättre grafik - och det är ju ruffel och båg, eller hur?

Jag väntar mig alltså att du kommer gå in i alla trådar med inlägg efter inlägg efter inlägg och dra ALLTING i långbänk när någon säger t.ex. att SSD diskar är snabbare än SATA diskar: antag att man kopierar in 512 GB data till två diskar, en SSD som är just 512 GB stor, och en 8 TB SATA disk. SATA disken kommer inte bli långsammare eller ha problem, men det kommer SSD disken ha eftersom den blir full och då börjar den thrasha och bli extremt långsam.

Citat:

Men vissa "världsrekord" kan det bara vara Larry som kan basunera ut utan att dra på minnen. Ta Hadoop t.ex. Vad är det egentligen TeraSort benchmarket mäter? Ju hur snabbt en visst system kan göra analys på en väldigt stor datamängd, Oracle har valt 10 TB. Enligt den som definierade detta benchmark är det "bästa" systemet det som utför uppgiften snabbast.

Ser du något i resultatet? 4 socket SPARC M7 systemet är det klart långsammaste systemet av de man jämför med, fyra gånger långsammare än det snabbaste (Dell-systemet, som för övrigt kör Ivy Bridge, d.v.s Xeon v2, snabbaste Haswell, d.v.s. Xeon v3, ca x2.5 gånger snabbare).

Jag håller med om att Xeon klustret på 32 servrar, med totalt 64 cpuer, gör arbetet på 1000 sekunder, och en ensam SPARC M7 server med 4 cpuer gör samma arbete på 4000 sekunder. Jag hade varit glad om jag hade haft en enda av de Xeon servrarna med dubbla Xeon cpuer, med 10 core 20 trådar styck, det är ordentligt med tryck i dem tror jag.

Personligen blir jag väldigt imponerad över hur bra en ensam SPARC M7 server står sig mot ett helt x86 kluster med 32 servrar med dubbla Xeon. Jag förstår att du inte blir imponerad, och det är ok, folk blir imponerade av olika saker.

Du visar en Intel länk där en Xeon E5v3 är 2.5x snabbare än en Xeon E5v2 på TeraSort Hadoop benchmark. Och följaktligen är då SPARC M7 benchmarksen orättvis, därför att Oracle benchade mot ett gammalt kluster med v2 cpuer. Det är ditt resonemang.

Visst, låt mig analysera och bemöta ditt resonemang.
1) Antag att det nya x86 v3 klustret är 2.5x snabbare än det gamla x86 v2 klustret (genom extrapolation argumenterar du för att det nya v3 klustret borde vara 2.5x snabbare) - men isåfall är SPARC M7 ändå snabbare. En E5v2 cpu sorterar 8 GB/min, och du tror att en E5v3 borde sortera 2.5x snabbare, dvs 20 GB/min. En SPARC M7 gör 33 GB/min. Så det spelar ingen roll om E5v3 är 2.5x snabbare, x86 är ändå rejält långsammare.

2) E5v3 benchmarksen du länkar till på intels hemsida benchar 50 GB totalt. Det är ju missvisande. Hadoop använder man för Big Data, som inte lämpar sig att hantera på annat sätt än parallellt. Och Hadoop är parallellt, eftersom det är funktionellt. Funktionella språk har inga sidoeffekter -> i teorin går att parallellisera automatiskt så man slipper trådar och alla dessa race conditions och annat. Intels benchmarks använder servrar med 128 GB RAM, dvs hela datamängden på 50 GB kan köras från RAM och det är inte rättvist, det finns inte en chans att man ser 2.5x snabbare i verkligheten på riktiga big data. Oracle benchar 10 TB data, och det räknas som Big Data. Det är inte rättvist bencha 50 GB på x86, men 10 TB på SPARC M7? x86 är inte bra på att hantera massiv genomströmning, det är däremot SPARC M7 byggd för: stora mängder data och stora mängder många klienter - dvs riktiga serverlaster. Du vill ju gå ut på diskarna som man gör på riktigt, använda så mycket data att det inte får plats i RAM, etc etc för att få veta hur det funkar i produktion på riktigt. I verkligheten blir det mycket långsammare än att köra direkt från RAM. Inte nåt dröm fejkscenario som Intel gör. Samtidigt som du påstår att Oracle gör tillrättalagda benchmark så att "fel system vinner".

3) Intels benchmark som visar att Hadoop Terasort blir 2.5x snabbare med E5v3 än den gamla E5v2, den benchmarksen handlar egentligen om kryptering. I benchmarken kör Intel sin Terasort benchmark med kryptering, och den nya E5v3 sorterar 50 GB data, mer än dubbelt så snabbt när kryptering är påslaget. "As Figure 1 shows, E5-2699 v3 with encryption is more than 2.5X faster than the E5-2697".

Så benchmarken säger egentligen att E5v3 är 2.5x snabbare än E5v2 på kryptering pga nya inbyggda AES instruktioner som avlastar E5v3 cpun, men det betyder inte att E5v3 är 2.5x snabbare generellt på Hadoop. Det betyder bara att E5v3 är snabbare på kryptering.

Mao, så är det fel slutsats att ett nytt E5v3 kluster är 2.5x snabbare än det gamla E5v2 klustret på Hadoop, den korrekta slutsatsen är att krypteringen körs 2.5x snabbare. Så hur mycket snabbare blir då Hadoop på en E5v3 kluster? Vet inte, Hadoop består av mycket mer än bara kryptering, som bara är en liten del. Det är så mycket som spelar in i verkligheten när du har mycket data måste hela systemet vara snabbt, disk, I/O, ram, cpu, etc. Cpu prestanda är bara en del. Allt måste samspela. T.ex. vad händer med prestandan när man inte kan köra från RAM längre, och man måste ut till disk?

Så bara för att E5v3 är... 25%(?) snabbare än E5v2 när man kör okrypterat från RAM - så betyder det inte nödvändigtvis att Hadoop benchmarken blir 25% bättre på 10 TB big data.

Sammantaget från dessa tre punkter så är ditt resonemang felaktigt och logiken haltar igen.

Citat:

Hur "vinner" då M7? Jo Oracle definierar helt enkelt en egen måttstock: GB/min som sorteras per socket.

Är det inte vettigt att normalisera tycker du? Så att man kan jämföra äpplen mot äpplen? Om t.ex. Intel benchar ett 32 node kluster med dual cpuer varje, och IBM benchar ett 8-node kluster med 4 cpuer i varje - hur kan man jämföra resultaten? Men om man normaliserar då går det att jämföra resultaten. Det är det som är själva poängen med normalisering. Det är inte vettigt att jämföra en amerikans inkomst i dollar från 1940 mot idag rakt av - man måste räkna om valutorna och normalisera så man får samma måttstock. Så man kan jämföra äpplen mot äpplen. Det Oracle gör, är att räkna ut hur mycket en cpu presterar, då kan man faktiskt jämföra cpu mot cpu. Oracle påstår att deras cpu är mycket snabbare på Hadoop, så Oracle presenterar cpu vs cpu värden. Det är ju fel att jämföra 1000 cpuer mot 70 cpuer - därav kan ingen slutsats dras vilken cpu som är snabbast. Man måste normalisera så det blir samma måttstock, dvs 1 cpu mot 1 cpu. Eller en server mot en server (då måste man normalisera igen så de har samma antal cpuer, etc). Hur gör du dina analyser om du aldrig normaliserar data? Hur kan du tro att du drar korrekta slutsatser? T.om i högstadiet förstår de att man inte kan jämföra äpplen mot päron?

Citat:

Kan man ju göra, men det är inte vad "Hadoop TeraSort" har som måttstock.Och varför just per socket, varför inte per CPU-tråd (då är Ivy Bridge @ 3,1 GHz ca 3,2 gånger snabbare jämfört med M7 @ 4,13 GHz)?

Varför inte per CPU-tråd? Jo, därför att Oracle påstår att deras CPU är snabbast på detta. Oracle påstår inte att deras trådar, utan att deras cpuer är snabbast. Då kanske man ska jämföra cpu mot cpu? Om Oracle påstod att deras trådar var snabbast i världen, så måste de presentera siffror där de jämför tråd mot tråd, men det gör inte Oracle.

När IBM insåg för några år sen att Oracles SPARC cpuer kom ikapp och var snabbare än POWER, så lade IBM sin strategi och skiftade fokus bort från cpu till kärnor. Så IBM resonerade som att "POWER7 kärna är snabbare än SPARC kärna" (SANT på några benchmarks) så måste det betyda att "en POWER7 cpu snabbare än en SPARC cpu" (FALSKT. På alla(?) benchmarks var SPARC snabbare). Så, låter det korrekt när IBM presenterar benchmarks där en POWER7 core är snabbare, och sen presenterar slutsatsen att hela POWER7 cpun måste vara snabbare? Bencha äpplen och sen basunera ut att samma slutsats måste även gälla päron? Det låter exakt som hur du resonerar. Eller?

Citat:

Är därför det här med "världsrekord" är så löjligt. Intel och IBM har också massor med sådana rekord om man söker på deras företagssidor, t.ex. Intel, men är bara Oracle som så in-your-face skyltar med dessa "rekord".

Så det är bara Oracle som skyltar med dessa rekord? Eh? Du är tydligen inte bekant med high end enterprise världen, men det är jag. Den som skryter mest om sina resultat är väl ändå IBM. T.ex. Sun lade ned TPC-C benchmarks helt därför att Sun inte tyckte det var vettiga real life arbetslaster, men IBM insisterade och fortsatte hela tiden med TPC-C och berättade hur bra IBM var på databaser och hur dåliga SPARC var. Till slut fick IBM till det rejält med ett POWER7 kluster som nådde hela 10 miljoner tmpc. IBMs föregångare P595 en POWER6 server med 32 st 5GHz cpuer och 2TB RAM (bara servern kostade $35 miljoner listpris!!!) hade också en bra siffra på 6 miljoner tmpc.

Så kom Oracle och köpte Sun och Oracle tog upp TPC-C igen och släppte en T5 server med 8 SPARC T5 cpuer och nådde 8.5 miljoner tmpc.
http://www.serverwatch.com/server-news/ibm-strikes-back-again...
Senare släppte Oracle ett TPC-C rekord med SPARC kluster med gamla Sun T3 servrar (från Sun tiden) som nådde 40 miljoner tmpc. Efter det slutade IBM släppa och prata om hur viktiga TPC-C benchmarks är.

När Oracle släppte sina T5 sparc servrar och krossade IBM, så fick IBM ändra strategi igen. Nu började IBM börja prata om att prestanda är inte så viktigt, det var såååå 2002 att prata om cpu prestanda, ingen bryr sig om prestanda längre:
http://blogs.wsj.com/digits/2013/03/27/ibm-fires-back-at-orac...
"...Companies today, Parris argued, have different priorities than the raw speed of chips...."

Under POWER7 tiden, när Sun hade det knackigt fanns det benchmarks över hela internet om hur bäst POWER7 cpun var och basunerade ut hur en POWER7 server kunde ersätta flera 100 x86 servrar. Jag imponerades och grävde lite hur en POWER7 server kunde ersätta flera 100 x86 servrar, hur i hela friden kunde en POWER7 server vara så fantastiskt snabb??? Jag upptäckte att IBM benchade en 4-socket POWER7 mot urgamla Pentium3 med 256 MB RAM och alla P3 idlade och arbetade typ 2-3% var. Då är det inte så konstigt att du kunde lyfta bort alla 100 P3 och ersätta med en enda POWER7 server. Det är IBMs aggressiva marknadsföring i ett nötskal.

Senare släppte IBM sin POWER8 som var snabbast ett tag, och återigen var det benchmarks över hela internet, och hur viktigt det är med prestanda. Så SPARC och POWER har turats om att vara snabbast, men iom Oracle ökar nu SPARC prestandan 100% varje generation. Och det inser IBM att det går inte att konkurrera med, så i fortsättningen blir det SPARC för hela slanten, när vi pratar högst prestanda.

IBM påstår att deras POWER8 är 50x snabbare än Intel Xeon, ända upp till 1.000x snabbare. Inga invändningar från din sida? IBM backar inte upp det med några benchmarks alls, utan bara lite vaga hänvisningar "enligt våra egna tester, som vi inte tänker visa er":
https://esj.com/articles/2014/04/25/softlayer-cloud-service.a...

Här är ett annat exempel. Vi ser att en Mainframe med 64 z10 cpuer kan ersätta 1.500st x86 servrar. Jisses vad snabb en Mainframe måste vara!
http://www-03.ibm.com/press/us/en/pressrelease/23592.wss
"...Single z10 equal to nearly 1,500 x86 servers.."
Men när man betänker att en Mainframe cpu är mycket långsammare än en Intel Xeon, så börjar man ju fundera på hur 64 långsamma cpuer kan ersätta 1.500 st x86 servrar? Jo, det visar sig att alla dessa urgamla P3 idlar allihopa och knappt uträttar något arbete. Somliga skulle säga att IBM försöker lura en att en z10 cpu är snabb som flera hundra st x86 cpuer?
Man kan ju emulera en Maifnrame cpu med "TurboHercules" på en x86 och få ut hyfsade mid sized Mainframe prestanda:
https://en.wikipedia.org/wiki/Hercules_%28emulator%29#Perform...

Här ser vi att IBM påstår att deras z196 Mainframe cpu är världens snabbaste cpu. Inga invändningar från din sida?
https://www-03.ibm.com/press/us/en/pressrelease/32414.wss

Det lustiga är att IBM aldrig släppt några benchmarks på sina Mainframe cpuer. När IBM har en bra cpu så postas benchmarks över hela internet och alla konkurrenter trash talkas, och massor med falska påståenden "en POWER8 är 50x snabbare än x86, upp till 1000x snabbare". Men aldrig ser man benchmarks med IBM Mainframes, finns inte en enda benchmark mot en x86 cpu någonstans, i något benchmark. Har aldrig släppts. Varför? Det här låter lite som vår SGI UV2000 diskssion där jag berättade att SGI aldrig släppt några enterprise business benchmarks såsom SAP någon gång - är det för att UV2000 inte kan köra SAP?

Enligt wikipedia så var IBM det första företaget som började med FUD och falsk marknadsföring på systematisk skala, dvs hela företaget sysslade med det som strategi, på alla nivåer. Tidigare har enstaka individer trash talkat sina konkurrenter, men IBM var först med att hela företaget gjorde det systematiskt:
https://en.wikipedia.org/wiki/Fear,_uncertainty_and_doubt#Def...
IBM har alltid varit företaget med dåligt rykte, ända tills Microsoft tog över kronan, men MS har mjuknat på senare dagar. Under tiden har IBM aldrig upphört med sina fulspel. Varför kallas IBM "Big Blue"? Jo, det kommer att under en period hade IBM fler advokater (blå kostym) anställda än ingenjörer.

IBM har ju många patent, varför det? IBM drog in $2 miljarder årligen på patent trolling, enligt artikeln där Twitter betalade $36 miljoner till IBM:
http://arstechnica.com/business/2014/03/twitter-paid-36-milli...

En annan gång IBM hotade Sun med menlösa patent, varpå Suns advokater och ingenjörer sade att patenten är invalida att IBMs advokater borde skämmas. IBMs advokater rörde inte en min:
-Ok, ni kanske inte bryter mot dessa patent, men vi har tusentals patent. Ska vi åka hem och hitta några ni bryter emot, eller tänker ni betala $20 miljoner?
Sun betalade och IBMs advokater åkte vidare till nästa företag.
http://www.forbes.com/asap/2002/0624/044.html

Tidigt i Suns historia, så tänkte inte Sun på patent. En dag stämdes de utav IBM som hade ett patent som de inte borde fått, patentet sade att "om något är enklare, så blir det snabbare". Sun förlorade och var mycket nära konkurs. Efter det började Sun patentera allt möjligt som försvar mot IBM, berättar James Gosling, skaparen av Java:
http://nighthacks.com/roller/jag/entry/quite_the_firestorm

Så, nej, IBM har alltid haft ett mycket dåligt rykte och alltid FUDat, trashtalkat och patent trollat sina konkurrenter. Speciellt inom Mainframes, där har IBM mycket mycket dåligt rykte. IBM säljer typ 100 st Mainframes per år och ändå står Mainframes för typ 10% av IBMs enorma vinst. Mainframes är mycket mycket dyra och IBM gör allt för att behålla monopolet inom Mainframes - men alla fula metoder inom stordatorvärdlen hör inte vanliga människor som mest sitter med desktops. FUD sitter i IBMs dna. Jag jobbade med en VD som var f.d. IBM på ett stort företag en gång, som var den första att ta upp "men tänk om våra konkurrenter använder din ide för att FUDa oss då?". Ingen annan hade ens tänkt tanken, varken jag eller nån annan. Men IBM chefen var FUD första han tog upp. Och det var långsökt, kan inte berätta ideen här. FUD sitter i IBMs dna.

Oracle har sålt hårdvara i några få år och har inte hunnit posta så mycket benchmarks. Men visst, jag håller med dig om att Oracle också kör fulspel iom sina licenser. Jag tänker inte förneka det - rätt ska vara rätt. Jag vill bara att rätt infromation ska komma fram.

Skrivet av Tomika:

Min 2699 håller 2.5-2.8GHz vid max belastning (syntetisk belastning) men större delen av tiden ser jag 3.0-3.1GHz. Men då vid vanligt desktop användande. Aldrig sett den ligga på 3.5GHz trotts att endast 4-6 kärnor effektivt användas medan resterande varit i dvala.

Visst är 2699 Intels snabbaste cpu i dagsläget men då under förutsättningen att den nyttjar sina fulla kraft, vilket är sällan. Så en traditionell i5/i7 springer ju förbi vid spelande.

Min 2699 kör ju dock 4st VMs med accelererad 3d. Så 4 instanser av borderlands 2 och fullsmetad grafik eller andra perfekta LAN spel var hela syftet. Går även köra 4st klienter med BF4 på EN processor men ett titan x orkar ju dock inte driva det på ultra i acceptabel fps precis.

Kortfattat så är processorn helt utmärkt då den besparar mig problemet med att behöva 4st stationära system, det enda som skulle behövas i dagsläget är väl kanske ett till titan x kort för att kunna få tex arma 3 att snurra på acceptabelt.

Gå till inlägget

Här har vi ytterligare ett exempel på low end cpuer. Low end cpuer har en begränsad watt budget, och hela cpun kan inte överskrida den. Det var mycket prat om Apples senaste Mac Pro, den lilla svarta cylindern. Ett av problemen med dess Xeon cpu, som egentligen inte var så snabb, men den var dyr pga den kunde köra full belastning under lång tid. Xeon är byggda att belastas under lång tid. En i7 kunde utklassa Xeon under kortare tidsrymder, men under längre tid så höll Xeon högre belastning. Det var den stora skillnaden mellan i7 och Xeon. Så stod det i en intressant artikel jag läste på... anandtech(?).

En high end server cpu som M7, kan köras full belastning hela tiden, eftersom de har större watt budget och kanske vattenkyld och hela baletten. En 2699 kan inte köras under full belastning, efter ett tag börjar den slå av saker för att inte överskrida 150 watt. SPARC M7 har inte det problemet, de är byggda att köras hårt 24/7. Samma med enterprise SAS diskar, de är byggda att vara på länge, vanliga SATA diskar är inte byggda för det. Så jag undrar om inte prestanda på papperet låter bra för Xeon, men i verkligheten så finns risken att den överskrider 150 watt, och börjar slå av chipdelar - precis som du beskriver ovan (endast 4-6 kärnor används, resten i dvala). Jag har svårt att tro att endast 4-6 kärnor används effektivt på SPARC M7, och resten i dvala.

Men du har en cool setup. Vad använder du den till? Är det för att spela 4 spel samtidigt? Hur gör du det? Hur accessar du alla spelVM? Och varför?

Skrivet av deadleus:

Yoshman och MichaelJackson, hatten av för teoretiska kunskaper. Blir samtidigt nyfiken på det praktiska tillämpningar ni använder eller har använt i IT produktion/utveckling? Erfarenheter?

Gå till inlägget

Jag har erfarenhet utav extremt hög presterande kritiska servrar inom finansbranschen som alla känner till. Men idag jobbar jag med analysera finansiell data och bygga aktie tradingstrategier. Har alltid jobbat inom finans, har aldrig jobbat med eller för Sun eller Oracle. Jag är analytiker, som du kanske märker på hur jag dissekerar inlägg här och pekar ut fel. Arbetar med hur man ska göra korrekta analyser och vilka slutsatser man kan dra och vilka slutsatser man inte kan dra. Man får inte vara förhastad så man drar felaktiga slutsatser, för då blir man inte långlivad som analytiker. Jag har mest studerat matematik och matematisk statistik, men har också en civ.ing.examen i teoretisk datalogi.

Senast redigerat 2015-11-09 16:09

Rapportera Redigera

Citera flera Citera

2015-11-09 22:53

Permalänk

Yoshman

Datavetare ★

Plats: Stockholm
Registrerad: Jun 2011

●

Skrivet av MichaelJackson:

Visst, du har en poäng. SPARC M7 är ju faktiskt inte snabbaste cpun på precis allting, det finns saker som andra cpuer är snabbare på, typ, högre IPC, kanske snabbare ALU, lägre minnes latency, minneslatch, etc etc.

Gå till inlägget

Min enda invändning här är att SPARC S4 kärnan, du vet den som kör SPARC-instruktioner, i sig inte är speciellt snabb. Det betyder att program man kör på denna CPU kommer köras långsammare på M7 än vad de körs på POWER8/Xeon v3. M7 är en imponerande krets förutsatt att man skrivit sin kod så att den kan utnyttja acceleratorer.

Oavsett var dessa accelerationer sitter så är det knappast speciellt imponerande att det går väsentligt mycket snabbare att köra just de saker som råkar gå att avlasta. Microsoft har t.ex. FPGA-kretsar som PCIe-instikskort i sina Bing-servers, dessa kretsar har över x10 gånger högre prestanda/W, fast de kan bara utföra en väldigt speciell uppgift (precis som DAX och 89xx).

Skrivet av MichaelJackson:

Har du hört talas om Usain Bolt, världens snabbaste man? Jag fattar inte hur man kan utse honom till världens snabbaste man, enligt wikipedia "fastest person ever". Jag menar, hur snabb är han på maraton eller ultradistans? Det lär ju finnas personer som är snabbare än honom på olika distanser.

Gå till inlägget

Datorvärldens motsvarighet måste i alla fall vara enkeltrådprestanda. Precis som 100m är det något som intresserar en stor publik då det är enkelt att förstå resultatet, det är inget som är så svårt i processordesign som att göra designer med hög enkeltrådprestanda. Givet bredden på POWER8 är faktiskt den designen lite meh, inom detta gebit finns bara två riktigt imponerande designer idag: Intels "Core" och Apples Cyclone/Twister. Att skala med CPU-kärnor är inte trivialt, men det är långt enklare än att öka enkeltrådprestanda, många kärnor kräver "bara" många transistorer och många ledningar (bandbredd).

Precis som 100m är det också väldigt enkelt för folk att sätta sig in i fördelar det medför att vara väldigt snabb, är väldigt enkelt att se fördelarna med väldigt hög enkeltrådprestanda.

Men visst, maraton är ju också en sport så visst kan man säga att M7 är snabbast på några hörnfall.

Skrivet av MichaelJackson:

Jag håller med om att Xeon klustret på 32 servrar, med totalt 64 cpuer, gör arbetet på 1000 sekunder, och en ensam SPARC M7 server med 4 cpuer gör samma arbete på 4000 sekunder. Jag hade varit glad om jag hade haft en enda av de Xeon servrarna med dubbla Xeon cpuer, med 10 core 20 trådar styck, det är ordentligt med tryck i dem tror jag.

Personligen blir jag väldigt imponerad över hur bra en ensam SPARC M7 server står sig mot ett helt x86 kluster med 32 servrar med dubbla Xeon. Jag förstår att du inte blir imponerad, och det är ok, folk blir imponerade av olika saker.

...

2) E5v3 benchmarksen du länkar till på intels hemsida benchar 50 GB totalt. Det är ju missvisande. Hadoop använder man för Big Data, som inte lämpar sig att hantera på annat sätt än parallellt. Och Hadoop är parallellt, eftersom det är funktionellt. Funktionella språk har inga sidoeffekter -> i teorin går att parallellisera automatiskt så man slipper trådar och alla dessa race conditions och annat. Intels benchmarks använder servrar med 128 GB RAM, dvs hela datamängden på 50 GB kan köras från RAM och det är inte rättvist, det finns inte en chans att man ser 2.5x snabbare i verkligheten på riktiga big data. Oracle benchar 10 TB data, och det räknas som Big Data. Det är inte rättvist bencha 50 GB på x86, men 10 TB på SPARC M7? x86 är inte bra på att hantera massiv genomströmning, det är däremot SPARC M7 byggd för: stora mängder data och stora mängder många klienter - dvs riktiga serverlaster. Du vill ju gå ut på diskarna som man gör på riktigt, använda så mycket data att det inte får plats i RAM, etc etc för att få veta hur det funkar i produktion på riktigt. I verkligheten blir det mycket långsammare än att köra direkt från RAM. Inte nåt dröm fejkscenario som Intel gör. Samtidigt som du påstår att Oracle gör tillrättalagda benchmark så att "fel system vinner".

3) Intels benchmark som visar att Hadoop Terasort blir 2.5x snabbare med E5v3 än den gamla E5v2, den benchmarksen handlar egentligen om kryptering. I benchmarken kör Intel sin Terasort benchmark med kryptering, och den nya E5v3 sorterar 50 GB data, mer än dubbelt så snabbt när kryptering är påslaget. "As Figure 1 shows, E5-2699 v3 with encryption is more than 2.5X faster than the E5-2697".

Så benchmarken säger egentligen att E5v3 är 2.5x snabbare än E5v2 på kryptering pga nya inbyggda AES instruktioner som avlastar E5v3 cpun, men det betyder inte att E5v3 är 2.5x snabbare generellt på Hadoop. Det betyder bara att E5v3 är snabbare på kryptering.

Mao, så är det fel slutsats att ett nytt E5v3 kluster är 2.5x snabbare än det gamla E5v2 klustret på Hadoop, den korrekta slutsatsen är att krypteringen körs 2.5x snabbare. Så hur mycket snabbare blir då Hadoop på en E5v3 kluster? Vet inte, Hadoop består av mycket mer än bara kryptering, som bara är en liten del. Det är så mycket som spelar in i verkligheten när du har mycket data måste hela systemet vara snabbt, disk, I/O, ram, cpu, etc. Cpu prestanda är bara en del. Allt måste samspela. T.ex. vad händer med prestandan när man inte kan köra från RAM längre, och man måste ut till disk?

Gå till inlägget

Är det din "analys"? Hoppas de analyser du får betalt för är lite mer träffsäkra

I båda fallet utfördes krypteringen på CPUn med AES-NI, precis som "map" steget i Hadoop är detta helt CPU-bundet och skalar linjärt med total beräkningskapacitet. 2699v3 har ungefär dubbla aggregerade prestanda mot 2693v2 oavsett vad CPUn gör (prestanda per tråd är bara marginellt högre i 2699v3, mindre viktigt för Hadoop som skalar extremt väl även över kluster). Länkade detta mest för att om jag bara skrev att du enkelt kan göra den matematiken själv så hade du gissningsvis krävt en länk som visar detta (du vägra t.ex. acceptera att 2699v3 har en flyttalskapacitet på ~800 GFLOPS då jag inte har en länk till ett sådant resultat, det trots att det är trivialt att räkna ut och det finns resultat för t.ex. 4770k som har samma kärna och många flyttalsproblem är triviala att parallellisera).

Till att börja med hävdar du att du förstår "stora" system (vad nu det är). Då borde du veta att hela poängen med upplägget i Hadoop är
1. hur stora dataset man kan hantera begränsas av hur mycket RAM systemet har då det inte går att få något vettig hastighet om inte "working-set" ligger i RAM. Så man behöver ett kluster då endast IBM mainfraims har modeller med 10 TB RAM för en enskild processor...
2. Hadoop är designat kring tanken att individuella noder kommer haverera, men designen är sådan att systemet som helhet är extremt stabilt förutsatt att det består av många individuella noder.
"Rather than rely on hardware to deliver high-availability, the library itself is designed to detect and handle failures at the application layer, so delivering a highly-available service on top of a cluster of computers, each of which may be prone to failures."
3. Hela tanken med Hadoop är att data distribueras på lämpligt sätt över noder (så de kan hålla hela "working-set" i RAM) och koden för "data-analys" följer med data och körs på den nod som är "närmast" data (d.v.s. den som har det i RAM).

Visst är det intressant ur ett tekniskt perspektiv att se hur en nod prestera, men det är irrelevant för verkliga fall då Hadoop "by-design" måste vara ett kluster så det är hur saker presterar just i kluster som är intressant. Där vet ju du, som teoretisk datalog att med lägre latens i "reduce" steget så minskar man den flaskhals, den serialiseringspunkt, som finns i map-reduce system. Så man kanske undvek cluster resultat på M7 då det kanske inte skalar lika bra över ett kluster som Xeon/POWER8 då de senare har lägre latens (p.g.a. mycket högre prestanda per CPU-tråd) på den seriella delen (som inte är helt seriell i Hadoop, men den är inte alls lika parallell som "map" steget).

Vet inte riktigt vad värdet är att normalisera här, enda som spelar roll i "big-data" är hur stora dataset man kan hantera och, i fallet realtidsanalys, med hur låg latens man får varje svar. Hur man uppnår detta är relativt irrelevant.

Skrivet av MichaelJackson:

Det lustiga är att IBM aldrig släppt några benchmarks på sina Mainframe cpuer. När IBM har en bra cpu så postas benchmarks över hela internet och alla konkurrenter trash talkas, och massor med falska påståenden "en POWER8 är 50x snabbare än x86, upp till 1000x snabbare". Men aldrig ser man benchmarks med IBM Mainframes, finns inte en enda benchmark mot en x86 cpu någonstans, i något benchmark. Har aldrig släppts. Varför? Det här låter lite som vår SGI UV2000 diskssion där jag berättade att SGI aldrig släppt några enterprise business benchmarks såsom SAP någon gång - är det för att UV2000 inte kan köra SAP?

Gå till inlägget

Åter igen, med din erfarenhet av "stora system" borde du veta varför mainframe fortfarande används. Det har absolut inget med CPU-kraft att göra, en mainframe har typiskt mindre rå CPU-kraft en en "vanlig" high-end server.

Vad en mainfraim är bra på är I/O. Den har mer CPU-kraft dedikerad till att avlasta huvud CPUn från I/O än den har "generell" CPU-kraft. Ovanpå det kan dagens mainfraim ha upp till 10 TB RAM per CPU-krets! Jämför det med SPARC M7 512 GB per CPU-krets och Xeon E7 1,5 TB per krets. Mainframes är i praktiken enda rimliga lösningen för fall där man måste ha enorma mängder data lokalt (av t.ex. säkerhetsskäl eller andra skäl) och utföra massiva mängder transaktioner mot den datamängden.

Skrivet av MichaelJackson:

Här har vi ytterligare ett exempel på low end cpuer. Low end cpuer har en begränsad watt budget, och hela cpun kan inte överskrida den. Det var mycket prat om Apples senaste Mac Pro, den lilla svarta cylindern. Ett av problemen med dess Xeon cpu, som egentligen inte var så snabb, men den var dyr pga den kunde köra full belastning under lång tid. Xeon är byggda att belastas under lång tid. En i7 kunde utklassa Xeon under kortare tidsrymder, men under längre tid så höll Xeon högre belastning. Det var den stora skillnaden mellan i7 och Xeon. Så stod det i en intressant artikel jag läste på... anandtech(?).

En high end server cpu som M7, kan köras full belastning hela tiden, eftersom de har större watt budget och kanske vattenkyld och hela baletten. En 2699 kan inte köras under full belastning, efter ett tag börjar den slå av saker för att inte överskrida 150 watt. SPARC M7 har inte det problemet, de är byggda att köras hårt 24/7. Samma med enterprise SAS diskar, de är byggda att vara på länge, vanliga SATA diskar är inte byggda för det. Så jag undrar om inte prestanda på papperet låter bra för Xeon, men i verkligheten så finns risken att den överskrider 150 watt, och börjar slå av chipdelar - precis som du beskriver ovan (endast 4-6 kärnor används, resten i dvala). Jag har svårt att tro att endast 4-6 kärnor används effektivt på SPARC M7, och resten i dvala.

Gå till inlägget

Det om Xeon som "low end" p.g.a. begränsad strömbudget är en "analys" du grävt fram från någonstans solens strålar kanske inte riktigt når
Seriöst, världens datacenter är byggd på Xeon E5/E7, du kan knappast kalla det för "low end". Annat exempel är telecom-bolagen flyttar in sin utrustning, med extrema tillförlitlighets- (både fem och sex "nior") och prestandakrav, i "molnet" och detta byggs nu på Xeon-servers mot tidigare högpresternade inbyggda system (som typiskt var PowerPC baserade tidigare).

Skrivet av MichaelJackson:

Men du har en cool setup. Vad använder du den till? Är det för att spela 4 spel samtidigt? Hur gör du det? Hur accessar du alla spelVM? Och varför?

Gå till inlägget

Menar denna? Står ju i tråden, det är mitt TV-spel optimerat för högsta möjliga lägsta FPS i 1920x1080 i ett spel, det som jag för tillfället kör.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Rapportera Redigera

Citera flera Citera (3)

2015-11-11 00:22

Permalänk

MichaelJackson

Medlem

Registrerad: Sep 2014

●

Skrivet av Yoshman:

Min enda invändning här är att SPARC S4 kärnan, du vet den som kör SPARC-instruktioner, i sig inte är speciellt snabb. Det betyder att program man kör på denna CPU kommer köras långsammare på M7 än vad de körs på POWER8/Xeon v3. M7 är en imponerande krets förutsatt att man skrivit sin kod så att den kan utnyttja acceleratorer.

Gå till inlägget

Jag har inte sagt att SPARC S4 kärnan är snabbare än POWER och x86. Det har väl SPARC aldrig varit efter Coolthreads cpuerna (Fujitsu är en annan sak - de har starka kärnor eftersom de kör SPARC64). Oracle SPARC får inte sin hastighet genom kärnorna, istället satsar SPARC på massiv genomströmning, dvs uträtta så mycket arbete som möjligt på kortast tid.

Om du tänker dig en x86 som en Porsche, snabb som attan, men kan transportera två personer på X sekunder. Då skulle O-SPARC (Oracle SPARC) motsvara en buss, den åker inte alls lika snabbt som Porsche, men transporterar 100 personer på 2X sekunder. SPARC satsar på att hantera stora datamängder, betjäna så många som möjligt på kort tid. Det är alltså en typisk server cpu. x86 är mer en desktop, eftersom den kan betjäna en enda användare snabbt pga x86 klarar bara små laster - men öka arbetet mycket och x86 storknar snabbt. SPARC kommer bara tuffa på, som ett tåg. (När en SPARC T1 var 50x snabbare än x86 på webserver - så var det på stora mängder klienter. På några få klienter var x86 snabbare, men x86 stötte på sin maxgräns snart och bröt ihop medan T1 fortsatte uppåt långt vidare och kunde betjäna 50x fler klienter. T1 hade förstås också sin gräns där den bröt ihop, men den gränsen låg längre bort än 50x). Kör både M7 och x86 t.ex. 4 trådar, så blir x86 klar snabbare. Men ingen kör så små laster i verkligheten på en High End Enterprise server. Där är det tusentals användare och enorma laster utan avbrott 24/7.

Det är lite grand som GPU. Inte många (förutom du) skulle säga att en CPU är snabbare på beräkningar än en GPU. En GPU kan nå >1.000 Gflop, medan en x86 CPU typiskt når 400 Gflops. Ändå (om vi följer din logik) så är CPUn bättre på beräkningar eftersom en GPU har ganska hög latency, en CPU har lägre latency. Det tar lång tid att sparka igång en GPU, och en x86 CPU går det snabbt att få igång. T.ex. skulle man köra 4 trådar samtidigt så blir x86 CPUn klar tidigare. Men en GPU har 2048 trådar eller fler, så därför tycker de flesta att en GPU är bättre på beräkningar eftersom en GPU kan hantera stora mängder beräkningar på kortare tid än en CPU. Men i detta fall skulle du säga "jamen 1000 gflops för Nvidia är inte imponerande om du betänker att CPUn har 50(?)% lägre latency, alltså är det fel att säga att Nvidia är snabbare på beräkningar, egentligen är en x86 snabbare!" - precis som du säger om SPARC M7 vs x86.

Det är också skälet att en x86 cpu har låga beräkningsprestanda, eftersom den har så få cores och trådar. Helst ska man ha 100 tals trådar, eller 1000 tals trådar. Det är därför en HPC superdator har många många cpuer och cores. Ju fler trådar, desto mer arbete klarar en server cpu av på samma tid på en desktopcpu.

Håller du med om att SPARC M7 är byggd för genomströmning och klarar av stora mängder arbete mycket snabbare än x86? Och att x86 klarar av små mängder arbete snabbare än SPARC M7?

Citat:

Oavsett var dessa accelerationer sitter så är det knappast speciellt imponerande att det går väsentligt mycket snabbare att köra just de saker som råkar gå att avlasta. Microsoft har t.ex. FPGA-kretsar som PCIe-instikskort i sina Bing-servers, dessa kretsar har över x10 gånger högre prestanda/W, fast de kan bara utföra en väldigt speciell uppgift (precis som DAX och 89xx).

Återigen, SPARC som är en serverprocessor, är byggd för att trycka igenom enorma mängder arbete på kortast tid. Det är inte x86. Även om man inte använde acceleratorerna skulle M7 enkelt vinna alla benchmarks där det handlar om att trycka igenom stora mängder arbete på kortast tid, därför att SPARC är byggd för exakt det, den har t.ex. 256 trådar och x86 har 36 trådar. T.ex. Neurala nätverk benchmarksen som mest handlar om Linjär Algebra, tror jag inte använder någon accelerator alls, som t.ex. databas acceleratorn. Det handlar bara om att köra många trådar, precis som GPU.

Citat:

Datorvärldens motsvarighet måste i alla fall vara enkeltrådprestanda.

Jaså du tycker enkeltrådsprestanda måste vara det viktigaste? IBM tycker det viktigaste måste vara core prestanda (därför att IBM inte har en chans när man mäter cpu mot cpu mot SPARC, så IBM har slutat jämföra cpu mot cpu). Intel verkar presentera en hel del benchmarks där de mäter cpu mot andra cpuer. Så vilket mått ska man använda när vi diskuterar vilken cpu som är snabbast?

1) Om du får veta hur mycket arbete en tråd klarar av på en viss tid, vet du då hur stora SAP/databas/Hadoop/etc laster den cpun klarar av, och på vilken tid? Nej, du informationen är ofullständig - hur många trådar har cpun totalt? Har den 2 trådar, eller 2048 trådar?

2) Om du får veta hur mycket arbete en core klarar av på en viss tid, vet du då hur stora SAP/databas/Hadoop/etc laster den cpun klarar av, och på vilken tid? Nej, du behöver mer information - hur många cores har cpun totalt? Har den 2 cores, eller 32 cores?

3) Om du får veta hur mycket arbete en cpu klarar av på en viss tid, vet du då hur stora SAP/databas/Hadoop/etc laster den cpun klarar av, och på vilken tid? Japp, du behöver inte mer information.

Vilket mått tycker du är meningsfullast? En siffra, eller tvingas uppge flera siffror? Varför inte stanna där, varför inte tvingas uppge en hel drös med siffror?

Citat:

Men visst, maraton är ju också en sport så visst kan man säga att M7 är snabbast på några hörnfall.

Japp, på alla hörnfall där det gäller att trycka igenom enorma mängder arbete på kortast möjliga tid, dvs serverlaster.

Citat:

Är det din "analys"? Hoppas de analyser du får betalt för är lite mer träffsäkra

...

Citat:

I båda fallet utfördes krypteringen på CPUn med AES-NI, precis som "map" steget i Hadoop är detta helt CPU-bundet och skalar linjärt med total beräkningskapacitet. 2699v3 har ungefär dubbla aggregerade prestanda mot 2693v2 oavsett vad CPUn gör (prestanda per tråd är bara marginellt högre i 2699v3, mindre viktigt för Hadoop som skalar extremt väl även över kluster). Länkade detta mest för att om jag bara skrev att du enkelt kan göra den matematiken själv så hade du gissningsvis krävt en länk som visar detta (du vägra t.ex. acceptera att 2699v3 har en flyttalskapacitet på ~800 GFLOPS då jag inte har en länk till ett sådant resultat, det trots att det är trivialt att räkna ut och det finns resultat för t.ex. 4770k som har samma kärna och många flyttalsproblem är triviala att parallellisera).

Du är helt otrolig. Du blir sur över att jag vägrar acceptera din siffra på att 2699v3 når ~800 GFlops? Återigen, jag accepterar inte det pga siffran låter inte rimlig. Det låter inte vettigt helt enkelt. Tidigare accepterade jag något du påstod utan bevis, därför att just det påståendet lät vettigt. Men detta påstående är inte vettigt, jag är skeptisk, jag vill se en benchmark. Är det för mycket begärt att du backar upp märkliga påståenden?

Det vetenskapliga metoden är att backa upp sina påståenden med bevis, speciellt om påståendena är orimliga. Att bli sur för att någon kräver bevis - är ju ytterst ovetenskapligt. Det är bara människor utan vetenskaplig träning som kräver det, typ fanatiska religiösa människor "Ja, gud existerar, det måste du acceptera för annars blir jag sur". Låter det rimligt att tro på vad folk säger utan bevis? Du har skrivit många märkliga saker genom åren, men detta tar nog priset. Du drar så många förhastade slutsatser eftersom du läser länkar fel, så man vill gärna se bevis för alla märkliga påståenden du lägger upp, t.ex. när du tror att två st E7v3 cpuer är dubbelt så snabb på SAP - men det visade sig vara fyra st E7v3 cpuer, vilket du missade.

Istället för att spekulera och teoretisera, så bör du posta en länk, eller att @Tomika kör en benchmark. @Tomika, ställer du upp?

Eller, wtf, jag googlar lite snabbt istället så du kanske ändrar åsikt om du ser ett bevis. Ok, här är en länk i den grå rutan som säger att teoretiskt så når TVÅ st E5-2699v3 ända upp till 1324.8 GFlops, dvs 662 GFlops per cpu. Men, ifall man kan parallellisera 95% av koden - dvs man har nästan ett idealiskt dröm scenario - så når dessa båda E5-2699v3 teoretiskt 482 Gflops, dvs 241 Gflops per cpu i teorin pga Amdahls lag. I praktiken blir siffran rimligen lägre. Siffran 242 Gflops är en bra bit ifrån de 800 gflops som du kräver att jag ska acceptera för en enda E5-2699v3. Förstår du nu varför jag tycker även detta ditt påstående är orimligt? Siffran 800 gflops för en cpu låter inte rimlig, när t.ex. POWER8 ligger på 400 gflops styck. Och POWER8 är en rejäl server cpu som kanske ligger på 250 watt, dvs har mer resurser än x86. Det är inte rimligt att en 150 watt cpu är dubbelt så snabb som en POWER8.
https://www.pugetsystems.com/labs/articles/Intel-Xeon-E5-v3-H...
"...Just because your program runs almost 4 times faster with 4 cores does not mean it will run 36 times faster with a dual 18-core system...

To evaluate the new E5-2699 v3 processors under the influence of Amdahl’s Law, observe that the speedup is the “effective” core count as far as performance goes. To estimate the relative performance of the new processors we use the theoretical peak double precision floating point performance measured in GFLOPS.

performance = CPU cores * sockets * Clock speed (GHz) * AVX2 vector length and FMA3 (16)

for a dual E5-2699v3 system that would be

performance = 18 * 2 * 2.3 * 16 = 1324.8 GFLOPS

Now at a parallel fraction of .95 Amdahl’s law gives us;

effective number of cores = 1/( 1-.95) + .95/36) = 13.1

this give a performance at P = .95 of

performance(P=.95) = 13.1 * 2.3 * 16 = 482 GFLOPS"

Återigen, du får helt enkelt visa en benchmark innan jag tror dig.

Citat:

Till att börja med hävdar du att du förstår "stora" system (vad nu det är). Då borde du veta att hela poängen med upplägget i Hadoop är
1. hur stora dataset man kan hantera begränsas av hur mycket RAM systemet har då det inte går att få något vettig hastighet om inte "working-set" ligger i RAM. Så man behöver ett kluster då endast IBM mainfraims har modeller med 10 TB RAM för en enskild processor...
2. Hadoop är designat kring tanken att individuella noder kommer haverera, men designen är sådan att systemet som helhet är extremt stabilt förutsatt att det består av många individuella noder.
"Rather than rely on hardware to deliver high-availability, the library itself is designed to detect and handle failures at the application layer, so delivering a highly-available service on top of a cluster of computers, each of which may be prone to failures."
3. Hela tanken med Hadoop är att data distribueras på lämpligt sätt över noder (så de kan hålla hela "working-set" i RAM) och koden för "data-analys" följer med data och körs på den nod som är "närmast" data (d.v.s. den som har det i RAM).

Visst är det intressant ur ett tekniskt perspektiv att se hur en nod prestera, men det är irrelevant för verkliga fall då Hadoop "by-design" måste vara ett kluster så det är hur saker presterar just i kluster som är intressant. Där vet ju du, som teoretisk datalog att med lägre latens i "reduce" steget så minskar man den flaskhals, den serialiseringspunkt, som finns i map-reduce system. Så man kanske undvek cluster resultat på M7 då det kanske inte skalar lika bra över ett kluster som Xeon/POWER8 då de senare har lägre latens (p.g.a. mycket högre prestanda per CPU-tråd) på den seriella delen (som inte är helt seriell i Hadoop, men den är inte alls lika parallell som "map" steget).

Vet inte riktigt vad värdet är att normalisera här, enda som spelar roll i "big-data" är hur stora dataset man kan hantera och, i fallet realtidsanalys, med hur låg latens man får varje svar. Hur man uppnår detta är relativt irrelevant.

Du vill ha låg latency för att få realtime Big Data analyser? Fel igen. Du kan inte realtidsanalysera Big Data. Det går inte, Big Data är för mycket data, 50 GB räknas inte som Big Data. För att öka hastigheten på analysen, så kan man räkna fram vissa parametrar över natten utifrån Big Data. Mha dessa parametrar så kör man algoritmer som går snabbt att beräkna. Så man aggregerar all Big Data och kokar ned det till vissa parametrar under natten, som du sen använder i andra algoritmer.

Är detta andra eller tredje invändningen du har mot Oracles "tillrättalagda" Hadoop benchmark? Du försöker invalidera Oracles Hadoop benchmark på flera olika sätt. Du har ju inte ens börjat invända mot de andra benchmarken. Varför har du så många invändningar mot Oracles benchmarks? Jag själv, när jag såg alla POWER7 benchmarks, så gratulerade jag, och accepterade att POWER7 var snabbare än Suns cpuer då. Du verkar ha svårt att acceptera att någon cpu kan vara snabbare än x86, och du avfärdar alla Oracle benchmarks. Låter det så orimligt i dina öron att en 10 miljarder, 250 watt, 32 cores och 256 trådar cpu - är snabbare än en x86 cpu som har hälften av allt? Du vill verkligen inte tro det, så du letar och letar efter invändningar för att hitta något som låter dig ogiltigförklara Oracles alla 20 benchmarks. Det värsta är att dina invändningar är inte ens vettiga, det känns nästan som att du är oseriös och trollar? Ok om du hade vettiga invändningar, men det har du ju inte. "DAX sitter på ett separat chip" - långbänk. "Hadoop 32 node klustret med dubbla x86 cpuer är snabbare än en SPARC M7-4 server" - långbänk, "enkeltrådsprestanda är det viktigaste, alltså är x86 snabbare än SPARC M7" - långbänk, etc etc. Det är helt enkelt inte vettiga saker du försöker leda i bevis, och därför kan du inte posta benchmarks - för dina påståenden inte är sanna.

Bara när jag hör något orimligt letar jag efter invändningar för att invalidera benchmarken, men om det låter rimligt så letar jag inte för då är det antagligen sant. I detta fall låter det rimligt att en cpu som har dubbelt av allt, är dubbelt så snabb? Eller?

Citat:

Åter igen, med din erfarenhet av "stora system" borde du veta varför mainframe fortfarande används. Det har absolut inget med CPU-kraft att göra, en mainframe har typiskt mindre rå CPU-kraft en en "vanlig" high-end server.

Vad en mainfraim är bra på är I/O. Den har mer CPU-kraft dedikerad till att avlasta huvud CPUn från I/O än den har "generell" CPU-kraft. Ovanpå det kan dagens mainfraim ha upp till 10 TB RAM per CPU-krets! Jämför det med SPARC M7 512 GB per CPU-krets och Xeon E7 1,5 TB per krets. Mainframes är i praktiken enda rimliga lösningen för fall där man måste ha enorma mängder data lokalt (av t.ex. säkerhetsskäl eller andra skäl) och utföra massiva mängder transaktioner mot den datamängden.

Om en Mainframe cpu är klenare än en x86, hur kan då en Mainframe med 64 cpuer, ersätta 1.500st x86 servrar? Jo, ifall alla idlar! Tycker du detta är ett korrekt påstående utav IBM: "En Mainframe kan ersätta 1.500 st x86 servrar"? Låter det inte orimligt? Så fort jag hör ett påstående så tänker jag automatiskt "Är det rimligt? Kan det vara sant?". Ofta är det orimliga påståenden. Men du tänker inte så kritiskt?

Jag kan starta upp 5st Mainframes på min laptop mha emulatorn TurboHercules, som alla idlar. Vad tror du IBM tycker om jag påstår att min laptop kan ersätta fem st Mainframes?

En SPARC M7 kan addressera 2TB RAM, vilket jag visat dig länkar på. Oracle har valt 512 MB RAM dock i sina senaste M7 servrar, lite oklart varför. Kanske för att tvinga kunder att köra Oracles egna databas? Om du vill köra databaser med benkrossande hastighet, så måste du använda SPARC M7 servrar, de är upp till 10x snabbare än andra servrar på databaser. Och ifall du vill göra stora Big Data analyser, så måste du använda Oracles egen databas - därför att den kan komprimera gratis, så t.ex. 512 MB RAM kan hantera 5TB databas. IBMs databas DB2 kan inte komprimera data gratis (förrän den skrivs om till att utnyttja M7s nya funktioner) så då är du fast vid 512 MB RAM - vilket är för lite. Så vill du köra stora mängder data med svindlande hastighet, så måste du köra Oracles egen databas, på Oracles egen server M7. Om Oracles servrar hade tillåtit 2TB per CPU, skulle deras M7-16 hanterat 32 TB RAM (precis som Oracles föregångare M7-32) och då hade du kunnat köra IBMs databas DB2 på den. Det går inte nu.

Mainframes styrka är I/O, ja. Inte cpu. Mainframes kan ha 296.000 I/O kanaler. Men vad tror du skulle hända om man hängde på några x86 cpuer lika många I/O kanaler? Jo, x86 servern skulle krosa Mainframen i cpu och I/O. Men en Mainframe har överlägsen RAS, du kan byta allt under drift. T.ex. vissa Mainframes har tre cpuer som gör samma beräkningar, och ifall en cpu beräknar annorlunda, så stängs den av och IBM larmas. Vissa SPARC (och Mainframe cpuer) kan backa tillbaka och spela upp en cpu instruktion igen ifall det blev något fel. Såna här saker kan bara stora Unix servrar och Mainframes, och det är därför de är high end - pålitliga, dvs RAS. Det är inte så konstigt att det pålitliga ZFS kommer från Sun som gör High End servrar med hög RAS. High End = RAS. Ett desktop företag som Microsoft skulle aldrig skapat ZFS.

Angående att en Maifnrame cpu kan addressera 10 TB RAM tycker jag låter lite märkligt, och vill se en länk på. Jag har tänkt lite på detta och kommit fram till följande: föregångaren SPARC M6-32 kan hantera 32 TB RAM, och vi vet att varje M6 cpu kan hantera 1TB RAM var. Så vad händer om du har en enda M6 cpu och stoppar i 32TB RAM? Jag tycker det låter märkligt ifall en enda M6 cpu kan hantera alla 32 TB RAM? Behövs det inte 32 st cpuer för det? T.ex om du har en dual x86 moderkort som kan ta 1 TB, så brukar det vara så att första cpun hanterar 512MB och ifall du stoppar i en till cpu, så kan du stoppa i 512MB RAM igen, så du har totalt 1TB RAM. Och ifall du bara har en cpu, så stannar det vid 512 MB RAM. På samma sätt låter det rimligt att en M6 cpu, kan bara hantera 1TB RAM även om du har 32 TB RAM i servern. Därför tycker jag det låter märkligt ifall en ensam Mainframe cpu kan hantera 10 TB RAM, behövs det inte fler cpuer för det? Jag vet att IBMs största Mainframe går upp till 10 TB RAM, men jag funderade fram att det förutsätter att du stoppat i max antal cpuer, dvs, typ 24 st cpuer. Så du får nog tyvärr visa länk på detta också om du vill övertyga mig

Citat:

Det om Xeon som "low end" p.g.a. begränsad strömbudget är en "analys" du grävt fram från någonstans solens strålar kanske inte riktigt når
Seriöst, världens datacenter är byggd på Xeon E5/E7, du kan knappast kalla det för "low end". Annat exempel är telecom-bolagen flyttar in sin utrustning, med extrema tillförlitlighets- (både fem och sex "nior") och prestandakrav, i "molnet" och detta byggs nu på Xeon-servers mot tidigare högpresternade inbyggda system (som typiskt var PowerPC baserade tidigare).

Ett kluster som molnet, består av många billiga low end servrar. Det gör inget om en kraschar, det är bara att koppla in en ny. Typiskt har low end servrar upp till 4 cpuer eller 8 cpuer. Och de har ingen RAS att tala om, t.ex. kan du byta moderkortet under drift? De har väl ECC, men inte checksummor på alla beräkningar som görs, etc. De är inte pålitliga.

High end servrar har upp till 64 cpuer, och kör mjukvara som inte kan parallelliseras. Därför behöver du en enda stor och snabb server, du kan inte köra många småservrar. Typiskt körs stora affärssystem och databaser som betjänar många tusen användare. Om servern kraschar så är det mycket illa för ett företag. Så high end servrar karakterisas av mycket god RAS, dvs pålitlighet. Och det är RAS som är det dyra. Ett enterprise företag kör hellre en långsam server som är pålitlig än en snabb server som räknar fel och kraschbenägen. Vad händer om finansiella beräkningar blir fel, pga inga dubbelkontroller av beräkningar? Katastrof.

Jag tycker det är talande att du tycker Xeon småservrar är high end. Du är helt klart inte vidare bekant med den världen, det är inte så konstigt att du har fått saker om bakfoten.

Citat:

Menar denna? Står ju i tråden, det är mitt TV-spel optimerat för högsta möjliga lägsta FPS i 1920x1080 i ett spel, det som jag för tillfället kör.

Jag citerade Tomika som kör en E5-2699v3 privat.

Rapportera Redigera

Citera flera Citera

2015-11-11 09:56

Permalänk

Yoshman

Datavetare ★

Plats: Stockholm
Registrerad: Jun 2011

●

Skrivet av MichaelJackson:

Jag har inte sagt att SPARC S4 kärnan är snabbare än POWER och x86. Det har väl SPARC aldrig varit efter Coolthreads cpuerna (Fujitsu är en annan sak - de har starka kärnor eftersom de kör SPARC64). Oracle SPARC får inte sin hastighet genom kärnorna, istället satsar SPARC på massiv genomströmning, dvs uträtta så mycket arbete som möjligt på kortast tid.

Om du tänker dig en x86 som en Porsche, snabb som attan, men kan transportera två personer på X sekunder. Då skulle O-SPARC (Oracle SPARC) motsvara en buss, den åker inte alls lika snabbt som Porsche, men transporterar 100 personer på 2X sekunder. SPARC satsar på att hantera stora datamängder, betjäna så många som möjligt på kort tid. Det är alltså en typisk server cpu. x86 är mer en desktop, eftersom den kan betjäna en enda användare snabbt pga x86 klarar bara små laster - men öka arbetet mycket och x86 storknar snabbt. SPARC kommer bara tuffa på, som ett tåg. (När en SPARC T1 var 50x snabbare än x86 på webserver - så var det på stora mängder klienter. På några få klienter var x86 snabbare, men x86 stötte på sin maxgräns snart och bröt ihop medan T1 fortsatte uppåt långt vidare och kunde betjäna 50x fler klienter. T1 hade förstås också sin gräns där den bröt ihop, men den gränsen låg längre bort än 50x). Kör både M7 och x86 t.ex. 4 trådar, så blir x86 klar snabbare. Men ingen kör så små laster i verkligheten på en High End Enterprise server. Där är det tusentals användare och enorma laster utan avbrott 24/7.

Det är lite grand som GPU. Inte många (förutom du) skulle säga att en CPU är snabbare på beräkningar än en GPU. En GPU kan nå >1.000 Gflop, medan en x86 CPU typiskt når 400 Gflops. Ändå (om vi följer din logik) så är CPUn bättre på beräkningar eftersom en GPU har ganska hög latency, en CPU har lägre latency. Det tar lång tid att sparka igång en GPU, och en x86 CPU går det snabbt att få igång. T.ex. skulle man köra 4 trådar samtidigt så blir x86 CPUn klar tidigare. Men en GPU har 2048 trådar eller fler, så därför tycker de flesta att en GPU är bättre på beräkningar eftersom en GPU kan hantera stora mängder beräkningar på kortare tid än en CPU. Men i detta fall skulle du säga "jamen 1000 gflops för Nvidia är inte imponerande om du betänker att CPUn har 50(?)% lägre latency, alltså är det fel att säga att Nvidia är snabbare på beräkningar, egentligen är en x86 snabbare!" - precis som du säger om SPARC M7 vs x86.

Gå till inlägget

Har aldrig sagt att en CPU är snabbare än en GPU på dataparallella flyttalsoperationer, har därmot många gånger pekat på att bara för att GPUer har väldigt hög FLOPS-kapacitet betyder det inte att GPUer på något sätt är snabbare rent generellt, de är inte ens snabbare på flyttal om problemet inte är massivt dataparallelt eller om problet kräver en hel del vilkorad körning (t.ex. vissa typer av simuleringar).

Så vet inte vad du insinuerar ovan.

Den latens jag pratar om är tiden det tar från att en enskilld beräkning startar till dess att man har resultatet. Du som jobbar i/nära finansbranchen borde veta att vissa resultat är bara värdefulla om man får dem inom en viss tid, hela high-frequency-trading svängen bygger ju på att man kan tjäna (en väldigt liten del på varje transaktion men multiplecerat med massor med transaktioner så...) pengar bara man kan göra sin analys och lägga sin order snabbar än andra. Denna klass av problem är långt ifrån unik för HFT, kanske glider in på detta lite väl ofta själv då jag många gånger jobbat på just den typen av problem.

Har man den klassen av problem så är det inte "throughput" som spelar roll, allt hänger på hur låg transaktionslatens man kan få och där är enkeltrådprestanda kung. Väldigt många realtidsproblem hamnar i denna klass.

En GPU har inte 2048 trådar i meningen "CPU-trådar", för att göra en någorlunda korrekt jämförelse mellan GPU-trådar och en CPU måste man titta på CPUn för att se hur många flyttalsoperats ALUer den har samt vilken bredd och "throughput" SIMD-enheterna har av instruktioner. Då vi diskuterat bl.a. E5 2699 v3, som är en Haswell, så har den 2 ALU för flyttal (den har 3 men det är bara två som kan göra FMA vilket är närmast vad GPUer gör) som båda kan köra en instruktion per cykel och dessa har en bredd på 256-bitar (8 SP eller 4 DP flyttal). Så en E5 2699 v3 har 18 (kärnor) * 2 (ALU per kärna) * 8 (är typiskt SP som GPUer jobbar med) = 288 "GPU-trådar".

Kombinerar man detta med att frekvensen typiskt är högre på en CPU så kommer man ungefär till den prestandaskillnad det är mellan en GPU och CPU i de problem GPUn är specialdesignad att hantera och självklart därför är väsentligt mycket snabbar på.. Kör man istället heltalsintensiva laster med mycket vilkorad körning så kommer en Titan X vara långsammare än en Atom eller lite vassare ARM, det är vad jag pekat på när folk ibland undrat över varför man inte GPU accelererar "vanliga" program.

En CPU är en generell beräkningsenhet, en GPU är en väldigt specialiserad beräkningshet. Är också det jag pekar på i SPARC M7, råder inga tvivel om att den kretsen är snabbare än POWER8/Xeon v3 i sina "specialgrenar", i alla fall så länge man inte kompleterar POWER/Xeon system med motsvarande fix-function kretsar, vilket kanske ändå inte räcker ända fram då man typiskt har lägre latens (ser det är viktigt ) i kommunikationen mellan CPU och hjälpkretsar om de kan använda integrerade bussar/x-bars i stället för att gå via en generell buss som PCIe.

Skrivet av MichaelJackson:

Det är också skälet att en x86 cpu har låga beräkningsprestanda, eftersom den har så få cores och trådar. Helst ska man ha 100 tals trådar, eller 1000 tals trådar. Det är därför en HPC superdator har många många cpuer och cores. Ju fler trådar, desto mer arbete klarar en server cpu av på samma tid på en desktopcpu.

Håller du med om att SPARC M7 är byggd för genomströmning och klarar av stora mängder arbete mycket snabbare än x86? Och att x86 klarar av små mängder arbete snabbare än SPARC M7?

Gå till inlägget

Håller med om att SPARC M7 och POWER8 är bättre än Xeon på problem som inte är begränsade av CPU-beräkningskraft och inte utav latans mot data. Är problemen konstruerade så flaskhalsen är "throughput" och att mängden data är så stor att den normalt inte får plats i CPU-cache så kommer det väga över till de första två då de har 2-4 gånger mer bandbredd mot RAM jämfört med Xeon.

Däremot vet jag inte hur du får det till att x86 skulle ha låg beräkningsprestanda, HPC-sfären består idag nära nog uteslutatande av Xeons, allt fler modeller (men långt ifrån alrla på topp 500) kompleterar med GPUer eller beräkniningskort likt Xeon Phi. Även per CPU-chip har Xeons långt mer både heltalskapacitet och flyttalskapacitet än SPARC M7, är jämt vad det gäller heltalskapacitet mot POWER8 men Xeons har mer flyttalskapacitet. IBM verkar inte bry sig i HPC längre, deras SIMD har i princip inte utvecklas sedan man tog fram AltiVec, vilket motsvaras av SSE på x86 som har halva kapaciteten mot AVX och en fjärdedel av AVX512 (som just nu bara används i Xeon Phi men kommer finnas i Skylake baserade Xeons).

Skrivet av MichaelJackson:

Återigen, SPARC som är en serverprocessor, är byggd för att trycka igenom enorma mängder arbete på kortast tid. Det är inte x86. Även om man inte använde acceleratorerna skulle M7 enkelt vinna alla benchmarks där det handlar om att trycka igenom stora mängder arbete på kortast tid, därför att SPARC är byggd för exakt det, den har t.ex. 256 trådar och x86 har 36 trådar. T.ex. Neurala nätverk benchmarksen som mest handlar om Linjär Algebra, tror jag inte använder någon accelerator alls, som t.ex. databas acceleratorn. Det handlar bara om att köra många trådar, precis som GPU.

Gå till inlägget

Så exakt vad definierar en "server"? De saker jag jobbade på tidigar där man gjorde system för deep-packet-inspection i realtid i närmare 100 Gbit/s per maskin, är inte det en server? Även om man hantera enorma mängder data per tidsenhet där så har man ingen större nytta av massiv mängd CPU-trådar, finns ingen poäng med CPU-trådar än att varje tråd är tillräckligt snabb för att man ska hinna göra sin analys av ett enskilt paket i wire-speed. Detta problem är fortfarande väldigt skalbart då olika strömmar är helt oberoende och därmed kan hanteras av olika CPUer, men en viss ström bör analyseras av en specifik CPU-tråd (man använder speciell logik som alla high-end NICar har idag för att klassificera paket efter flöden och det är NICen som väljer CPU-tråd, inte tvärs om).

Finns ju en lång rad andra problem också där antalet samtida transaktioner inte är superhögt, men ändå väsenligt högre än ett, och där varje transaktion är relativt beräkningsintensiv. Är väl fortfarande en "server", eller? På denna typ av problem är Xeon bättre än något annat du hittar, det är en gradvis skala där POWER8 kommer bli den snabbare kretsen där mängden samtida transaktioner ökar i kombination med att mängden arbete som ska utföras per transaktion minskas.

Och det handlar inte bara om att köra många trådar. Har du ett problem där "working-set" inte är större än att det får plats i CPU-cache så kommer förutsättningarna ändras rätt mycket. I det läget får Xeon tillgång till mer bandbredd än de andra kretsarna, redan Sandy Bridge / Ivy Bridge hade massiv L1$/L2$-bandbredd och den dubblades i Haswell (Xeon v3). Om data finns i cache kommer flaskhalsen i stället bli beroenden mellan instruktioner hög mängd beroende minskar möjligheten till out-of-order execution, så om det är relativt "enkel" logik kommer problemet främst begränsas av front-end- och ALU-kapacitet.

SPARC M7: maximalt 2 SPARC instruktioner (både avkodning och exekvering) per CPU-kärna fördelat över 8 trådar
POWER8: maximalt 8 POWER (kan påbörja exekvering av upp till 12 instruktioner men flaskhalsen i ett sådant här fall blir då avkodning) instruktioner per CPU-kärna
Haswell: maximalt 5 x86 instruktioner (kan påbörja upp till 8 instruktioner av "internt" format, en x86 instruktion blir typiskt 1-3 interna instruktioner), så precis som POWER8 blir begränsningen avkodning fast en typisk x86 instruktion gör mer än en typisk POWER/SPARC instruktion, i detta fall lär multiplikatorn ändå vara under 2

Skrivet av MichaelJackson:

Jaså du tycker enkeltrådsprestanda måste vara det viktigaste? IBM tycker det viktigaste måste vara core prestanda (därför att IBM inte har en chans när man mäter cpu mot cpu mot SPARC, så IBM har slutat jämföra cpu mot cpu). Intel verkar presentera en hel del benchmarks där de mäter cpu mot andra cpuer. Så vilket mått ska man använda när vi diskuterar vilken cpu som är snabbast?

Gå till inlägget

Vad jag flera gånger pekat på är att för gemene man är enkeltrådprestanda både enklare att förstå och för de saker vi som "normala" användare gör på våra datorer är enkeltrådprestanda i princip det enda som spelar roll.

Och min invändning mot SPARC M7 som "snabbaste CPU" är att den må vara snabbast, men bara på en relativt smal nisch. Man kan ju säga att AMD Fury X också är världen snabbaste CPU, det kommer den ju vara om man använder ett fall som är extremt bandbreddskrävande och som utför massiva mängder beräkningar som är data-parallella (t.ex. aritmetik på gigantiska matriser).

Skrivet av MichaelJackson:

1) Om du får veta hur mycket arbete en tråd klarar av på en viss tid, vet du då hur stora SAP/databas/Hadoop/etc laster den cpun klarar av, och på vilken tid? Nej, du informationen är ofullständig - hur många trådar har cpun totalt? Har den 2 trådar, eller 2048 trådar?

2) Om du får veta hur mycket arbete en core klarar av på en viss tid, vet du då hur stora SAP/databas/Hadoop/etc laster den cpun klarar av, och på vilken tid? Nej, du behöver mer information - hur många cores har cpun totalt? Har den 2 cores, eller 32 cores?

3) Om du får veta hur mycket arbete en cpu klarar av på en viss tid, vet du då hur stora SAP/databas/Hadoop/etc laster den cpun klarar av, och på vilken tid? Japp, du behöver inte mer information.

Vilket mått tycker du är meningsfullast? En siffra, eller tvingas uppge flera siffror? Varför inte stanna där, varför inte tvingas uppge en hel drös med siffror?

Japp, på alla hörnfall där det gäller att trycka igenom enorma mängder arbete på kortast möjliga tid, dvs serverlaster.

Gå till inlägget

Chill out, det här är bara en diskussion på ett forum. Använder Hadoop bara för att peka på hur meningslös dessa "världsrekord" är. Har ser vi svart på vitt att SPARC M7 minsann har "världsrekord" i något som har namnet "Hadoop" i sig. Kan man då inte förvänta sig att den egenskap som är så bra faktiskt är en egenskap som är vad typiska Hadoop användare skulle vilja optimera för?

Fast det skulle inte ge "vinsten" till "rätt" CPU, så man definerar i stället något helt eget värde som man sedan med pukor och trumpeter basunerar ut att man minsann är bäst på. Och nej, jag bryr mig inte om Intels och IBMs "världsrekord" resultat heller, av samma anledning. Problemet med både SPARC och POWER är att väldigt få har idag erfarenhet av dessa, så man har ingen förstahandsinformation kring hur dessa system hanterar de problem man själv finner intressanta.

Tycker däremot det ser ut som POWER8 inte klarar sig speciellt bra mot Xeon v3 när AnandTech testade att köra en rad program och en del serverprogrammvara (t.ex. SAP) som ligger lite närmare vardagen för den stora massan. Var inte så att Xeon v3 bara hade bättre perf/W eller perf/$, den var snabbare, punkt. Så även här kan man ställa sig frågan: hur är inte Xeon en "riktig" server CPU? Ser överhuvudtaget inte hur SPARC M7 skulle klarat sig bättre i just de saker AnandTech testade, där handlar det mest om hur snabb CPU att köra "vanliga" instruktioner för arkitekturen.

Skrivet av MichaelJackson:

Du är helt otrolig. Du blir sur över att jag vägrar acceptera din siffra på att 2699v3 når ~800 GFlops? Återigen, jag accepterar inte det pga siffran låter inte rimlig. Det låter inte vettigt helt enkelt. Tidigare accepterade jag något du påstod utan bevis, därför att just det påståendet lät vettigt. Men detta påstående är inte vettigt, jag är skeptisk, jag vill se en benchmark. Är det för mycket begärt att du backar upp märkliga påståenden?

Det vetenskapliga metoden är att backa upp sina påståenden med bevis, speciellt om påståendena är orimliga. Att bli sur för att någon kräver bevis - är ju ytterst ovetenskapligt. Det är bara människor utan vetenskaplig träning som kräver det, typ fanatiska religiösa människor "Ja, gud existerar, det måste du acceptera för annars blir jag sur". Låter det rimligt att tro på vad folk säger utan bevis? Du har skrivit många märkliga saker genom åren, men detta tar nog priset. Du drar så många förhastade slutsatser eftersom du läser länkar fel, så man vill gärna se bevis för alla märkliga påståenden du lägger upp, t.ex. när du tror att två st E7v3 cpuer är dubbelt så snabb på SAP - men det visade sig vara fyra st E7v3 cpuer, vilket du missade.

Eller, wtf, jag googlar lite snabbt istället så du kanske ändrar åsikt om du ser ett bevis. Ok, här är en länk i den grå rutan som säger att teoretiskt så når TVÅ st E5-2699v3 ända upp till 1324.8 GFlops, dvs 662 GFlops per cpu. Men, ifall man kan parallellisera 95% av koden - dvs man har nästan ett idealiskt dröm scenario - så når dessa båda E5-2699v3 teoretiskt 482 Gflops, dvs 241 Gflops per cpu i teorin pga Amdahls lag. I praktiken blir siffran rimligen lägre. Siffran 242 Gflops är en bra bit ifrån de 800 gflops som du kräver att jag ska acceptera för en enda E5-2699v3. Förstår du nu varför jag tycker även detta ditt påstående är orimligt? Siffran 800 gflops för en cpu låter inte rimlig, när t.ex. POWER8 ligger på 400 gflops styck. Och POWER8 är en rejäl server cpu som kanske ligger på 250 watt, dvs har mer resurser än x86. Det är inte rimligt att en 150 watt cpu är dubbelt så snabb som en POWER8.
https://www.pugetsystems.com/labs/articles/Intel-Xeon-E5-v3-H...
"...Just because your program runs almost 4 times faster with 4 cores does not mean it will run 36 times faster with a dual 18-core system...

To evaluate the new E5-2699 v3 processors under the influence of Amdahl’s Law, observe that the speedup is the “effective” core count as far as performance goes. To estimate the relative performance of the new processors we use the theoretical peak double precision floating point performance measured in GFLOPS.

performance = CPU cores * sockets * Clock speed (GHz) * AVX2 vector length and FMA3 (16)

for a dual E5-2699v3 system that would be

performance = 18 * 2 * 2.3 * 16 = 1324.8 GFLOPS

Now at a parallel fraction of .95 Amdahl’s law gives us;

effective number of cores = 1/( 1-.95) + .95/36) = 13.1

this give a performance at P = .95 of

performance(P=.95) = 13.1 * 2.3 * 16 = 482 GFLOPS"

Återigen, du får helt enkelt visa en benchmark innan jag tror dig.

Istället för att spekulera och teoretisera, så bör du posta en länk, eller att @Tomika kör en benchmark. @Tomika, ställer du upp?

Gå till inlägget

Du behöver inte vara orolig för mitt humör, blir (nästan) aldrig sur och i detta fall är det som sagt en nörddiskussion på ett forum, vad finns det att bli sur över?

Har redan pekat på att t.ex. forskaren Agner Fog har visat att det är fullt möjligt för Haswell att hålla två FMA instruktioner per klockcykel, om du ens har grundläggande förståelse för hur en CPU fungerar och hur man räknar FLOPS så måste du också acceptera att maximal FLOPS-kapacitet då enkelt kan beräknas. Notera att det inte alls är samma sak som att du får denna siffra i t.ex. CineBench, Linpack eller någon annan benchmark, men det visar att det är möjligt att skriva något program som uppvisar denna kapacitet. Kan överhuvudtaget inte begripa vad som är märkligt här, det enda märkliga är att du inte har något som helst program att acceptera att Fujitsu system, som ännu inte är på marknaden och såldes knappast har publicerade resultat, når 1,1 TFLOPS (vilket jag utgår är dess teoretiska kapacitet och den låter fullt rimligt).

Du har Googlat, bra men beräkningen du hittade är gjord av någon som inte alls förstår vad "base-clock" är och hur "turbo boost" fungerar. Nu slog ju resultatet åt "rätt" håll, d.v.s. 2699 v3 teoretiska kapacitet blev sämre än vad den är, så förvånar mig inte att du accepterar det som sanning (frågan är om DU vet hur vad "base-clock" säger och hur "turbo-boost" fungerar?).

Intels CPUer har något som kallas peformance state, P-state. Dessa finns för att kunna minska strömförbrukningen hos CPUn i lägen där CPU-lasten är låg. Fram till Skylake (och även med Skylake om inte "speed-shift" används) så är det upp till OSet att sätta P-state. Den högsta frekvensen OSet kan sätta explicit är "base-clock", vilket man får genom att sätta P-state "P0". I läge P0 lämnar man över kontroller av frekvensen till CPUn och den använder då "turbo boost" för att köra så hög frekvens som kylningen tillåter och lasten kräver.

E5 2966v3 kan med tillräcklig kylning (vilket vi får utgå finns i ett serverrum) köra alla 18 kärnorna på 2,8 GHz (maximal frekvens är 3,6 GHz men den kan bara hålla den långsiktigt med max 2 kärnor aktiv). Så denna beräkning blir

"for a dual E5-2699v3 system that would be

performance = 18 * 2 * 2.8 * 16 = 1612.8 GFLOPS"

blir en övning för läsaren att lura ut hur många GLFOPS det är per krets