Intel lanserar 28-kärniga Xeon W-3175X för över 30 000 kronor

Permalänk
Inaktiv
Skrivet av Yoshman:

Läser man igenom AnandTechs test av Xeon W-3175X blir ändå fråga nummer #1: oavsett vad en sådana här CPU kostar, vad är poängen om valet av OS är Windows?

Räknade ut geometrisk medel på testerna för några sidor och ställde där Xeon W-3175X mot i9-9900K.

I systemtesterna är W-3175X bara 1,5 gånger snabbare i genomsnitt.
I renderingstesterna, som skalar i princip perfekt då OS:ets inverkan är obefintlig, än det ändå bara 2,3 gånger fördel för W-3175X.
Vid kodning av film drar de två modellerna helt jämt!

Det bryter riktigt ihop i fallen som egentligen består av helt oberoende uppgifter och som därför i teorin kan skala bra, men där uppgiften använder stor andel OS-tjänster i form av synkroniseringsprimitiver (mutex, semaphorer och liknande) samt filsystemet.

https://images.anandtech.com/graphs/graph13748/105889.png
Detta är kompilering av ett stor C++ projekt. Tar relativt mycket CPU-kraft per fil att kompilera C++ vilket gör det enklare att skala över kärnor. Att i9-9900K ligger i topp i detta fall här måste ses rejält underbetyg till OSet. Nog för att det inte är helt linjär skalning i Linux, men det är inte så långt ifrån på de byggservers vi har på jobbet som är utrustade med 30-40 CPU-kärnor.

Än tydligare blir det i GB4
https://images.anandtech.com/graphs/graph13748/105895.png
Finns knappt några Windows-resultat över 40,000. Så testet skalar inte?
Majoriteten av testerna skalar inte perfekt med kärnor (likt 99 % av all programvara i verkligheten), men här är det återigen OSet som är största hindret då Linux har ett gäng resultat runt 150,000.

Kikar man på GB4 MT resultat skalar Windows och Linux i princip identiskt upp till sex kärnor, efter det faller Windows efter. Upp till 12-16 kärnor är fortfarande i alla fall viss skalning, men vid ännu fler kärnor ser man fall en svag negativ trend.

Nu är inte Linux (eller MacOS för den delen) någon mirakelkur, är inte speciellt många deskoptapplikationer som en skalar på ett vettig förbi 6-8 kärnor oavsett OS.

Hyper V i Windows körs på betydligt bättre cpuer än denna. Majoriteten av de som köper denna cpu gör inte en sak i taget, det är säkert inte heller en användare i taget på datorn.

Permalänk
Datavetare
Skrivet av anon159643:

Hyper V i Windows körs på betydligt bättre cpuer än denna. Majoriteten av de som köper denna cpu gör inte en sak i taget, det är säkert inte heller en användare i taget på datorn.

Xeon W-3175X. Det är här en CPU tänkt för arbetsstationer, inte för servers/datacenter.

Så åter igen, vad är poängen att köra denna med Windows som OS?

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Permalänk
Medlem

massiv prop... 30k låter rätt billigt när man tänker intel och så här många kärnor men sen får man reda på vad moderkakan kostar och inser att det blir rätt dyrt kontra threadripper ändå

Permalänk
Inaktiv
Skrivet av Yoshman:

Xeon W-3175X. Det är här en CPU tänkt för arbetsstationer, inte för servers/datacenter.

Så åter igen, vad är poängen att köra denna med Windows som OS?

Man kan diskutera semantik. Server är en dator som servrar annan hårdvara.
I vilket fall kan man köpa en workstation som man släpper in flera användare på, detta är faktisk rätt så vanligt av olika saker som licenskostnader, uppsättning och underhåll. Det är inte alltid att arbetaren själv behöver ha en egen workstation.

Visst är detta nischat, men hela behovet av denna cpu är nischad. Och det kommer inte precis stå en sådan dator på varenda It-företag.
*edit*
En remote Desktop App lösning är populär. Man köper in säg 5st licenser av en program, slänger in den på Workstationen. Konfigurerar RDP App så att 5st samtidiga användare kan använda applikationen på sin egen dator som den fanns där. Sedan kan kanske 50st användare ha tillgång till denna lösning. Och det blir betydligt billigare än att köpa 50st licenser. Förutom det får de ut mer prestanda. Då arbetare oftast bara vill ha ut råkraft korta stunder, så om alla 5 användare ej klickar på CompileAll samtidigt så går det snabbt..

Och väldigt många mjukvarutillverkare inte bara stöder att man använder deras applikationer som jag beskriv ovanför, utan de hjälper tom till och sätta upp lösningen om det skulle strula för en.

Permalänk
Inaktiv
Skrivet av dakke:

massiv prop... 30k låter rätt billigt när man tänker intel och så här många kärnor men sen får man reda på vad moderkakan kostar och inser att det blir rätt dyrt kontra threadripper ändå

Problemet jag ser är att inget blir bättre än den svagaste länken. Köper man ett sådan cpu dyr så vill man inte köra med skit och opålitlig av resten.
Medans en billig Threadripper är något man kan bygga riktigt billigt som en Sleeper bil. Inget man kör driver sin privata kärnkraftverk med hemma, men duger alldeles fint för självstudier.
Såhär ser jag en billiknande på en Threadripper dator: https://www.youtube.com/watch?v=ZkS0bDxRK0w
Medan en schysst Xeon, med SSD SAN, high availability etc kostar någonstans strax över en halvmiljon.

Permalänk
Datavetare
Skrivet av anon159643:

Man kan diskutera semantik. Server är en dator som servrar annan hårdvara.
I vilket fall kan man köpa en workstation som man släpper in flera användare på, detta är faktisk rätt så vanligt av olika saker som licenskostnader, uppsättning och underhåll. Det är inte alltid att arbetaren själv behöver ha en egen workstation.

Visst är detta nischat, men hela behovet av denna cpu är nischad. Och det kommer inte precis stå en sådan dator på varenda It-företag.
*edit*
En remote Desktop App lösning är populär. Man köper in säg 5st licenser av en program, slänger in den på Workstationen. Konfigurerar RDP App så att 5st samtidiga användare kan använda applikationen på sin egen dator som den fanns där. Sedan kan kanske 50st användare ha tillgång till denna lösning. Och det blir betydligt billigare än att köpa 50st licenser. Förutom det får de ut mer prestanda. Då arbetare oftast bara vill ha ut råkraft korta stunder, så om alla 5 användare ej klickar på CompileAll samtidigt så går det snabbt..

Och väldigt många mjukvarutillverkare inte bara stöder att man använder deras applikationer som jag beskriv ovanför, utan de hjälper tom till och sätta upp lösningen om det skulle strula för en.

Håller med till 100 % om att arbetsstationer kan användas av flera användare, bl.a. för att spara licenskostnader men även för att få bättre utnyttjandegrad på datorkraften man investerat i.

Vad man normal menar med "workstation" är ju en väldigt kraftig dator som används för att lösa problem som typiskt inte är praktiskt lämpliga att hantera på en mer normal dator. Huvuddistinktionen mellan "server" och "workstation" går därmed vid att den senare används interaktivt av användaren medan den förra erhåller någon form av tjänst utan att mottagaren av tjänsten egentligen alls behöver känna till datorn.

Och här blir då det stora frågetecknet kring hur man rimligen skulle använda något som Xeon W-3175X ihop med Windows. Är målet att lösa riktigt stora problem måste ju användaren som jobbar med problemet ha tillgång till hela maskinvaran.

Går det hela att lösa genom att dela upp systemet i separata delar m.h.a. HyperV (som absolut är en lysande produkt som definitivt hanterar de riktigt stora system i datacentren) kan man ju lika gärna köpa 2-3 i9-9900K system i stället. Ihop med Windows är det snabbare och inköpskostnaden är lägre.

Samma sak gäller fallet där flera användare ska dela en arbetsstation. I det läget vill man ju att alla användare delar samma OS-instans då det ger varje användare potentialen att vid behov utnyttja hela kraften i maskinen. Blir också bra utnyttjandegrad på HW om flera användare samtidigt gör relativt tunga saker.

Problemet med att dela systemet på det sättet är att det ur OS-kärnans perspektiv då blir likt kompilatorfallet (om många samtidigt jobbar mot disken, för kompilering är en modern SSD inte ens nära att vara flaskhals) och GB4 MT fallet. Givet resultaten ovan har jag svårt att se hur det skulle fungera på Windows, men om någon kan dela med sig av exempel från verkligheten skulle det vara kul att höra!

På jobbet delar vi arbetsstationer just på det sätt och de anledningar du beskriver. Utnyttja licenser bättre samt ge folk tillgång till kraftiga system för att lösa stora problem samt för olika former av test. Typexemplet på en sådan maskin är dual Xeon Gold 6140 (totalt 36C/72T) som kör en instans av Ubuntu (folk kan köra egna virtuella instanser ovanpå vid behov).

Off-topic: vi kollar på alternativ till Xeon, anmälde jag mig direkt för utvärdering av framtida server HW. Xeon Gold är inte gratis... Då vi kör i princip allt på Linux kommer det bli hårdtestade av ARM-servers för att se hur mycket vi kan ersätta med det. Specifikt Ampere eMAG som tillverkas av Lenovo, ~$2000 för en 32 kärnors server med IPC på Intel/AMD nivå och basfrekves på 3,0 GHz (3,3 turbo). Nästa modell kommer under året, då med 64 kärnor.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Permalänk
Medlem

Detta är uppenbart ingen produkt för mig eller 99% av alla användare så priset speglar antagligen detta. Däremot är det intressant att Intel lanserar samma gamla trötta arkitektur som "Nya och heta" produkter.. Kan det vara så att man är rädd för AMD "Rome"?

Ni vet... alla vägar leder till Rom?

Skrivet av Ozzed:

Ha ha var det den här de visade som kördes i "5Ghz på alla kärnor", och så visar det sig att de använt en kylare för akvarievatten Att de ens vågar lansera den i så fall. Och Priset! Fy fan så dyrt... Detta är nog mer tänkt som en skrytprodukt än att någon faktiskt skall köpa den. Håller verkligen med om att det känns som konstgjord andning.

Sen finns det väl alltid folk som ska försvara intel till varje pris men hallå rent objektivt måste man ju kunna se det fåniga i detta.

Is it though? Xeon är ju en serie som inte är till för den genomsnittliga användaren. För företag och liknande så är ju denna prislapp inte i närheten av vad licenser och annan mjukvara kostar. Du vet.. de som dessa är riktade emot?

Skrivet av tvelander:

Fast alla som inte är helt okunnig vet att den inte går i 5GHz på retail eller ens under vatten för alla kan räkna ut typ värme påslag på en 28 core xeon och se att det är omöjligt den inte drar över MINST 700W
Den drar inte satan i helvete med ström i ens 4.3GHz det är i över det som Vcore skalning börjar inte bli värt vs värme / prestanda / kylning.

Deras 5GHz PR va för okunniga som ändå inte kommer ens få sen någonsin.

Alla andra som kan något om CPUr VET krävs SJUKA moderkort och kylning för få sån GHz på 28 cores.

Ja Intel gjorde något dom verkligen inte behövde göra, men CPUn oavsett va Intel sagt är fantastiskt produkt för många där ute.

"But Intel told us..."

Skrivet av DavidtheDoom:

"255 W" TDP... Undra när de ska börja med vettiga siffror.

Skickades från m.sweclockers.com

Vadå? 255W vid liten load men när den börjar köra på alla kärnor.. kors i taket vad de kommer att spränga det värdet.

Visa signatur

Fractal Design Meshify 2 Compact w/ Dark Tint | Intel i5 12600K | Asus ROG Strix B660-F | 32 GB Corsair DDR5 5600 MHz CL36 | MSI Geforce RTX 3060 TI Ventus 2X OCV1 | 512 GB Samsung Pro 850 SSD + 2TB WD Black SN850 NVME PCI-E 4.0 | Corsair RM750X |

Permalänk
Medlem

Har inte kollat upp, men om en sån här inte har allt för låg enkeltrådig prestanda så kunde den kanske passa Apple inför kommande Mac Pro 7,1. Fast om jag känner Apple rätt så vill de kliva över på nyheter som PCI Express 5, bl a. Tredjepartstillverkare i AV-branschen står och trampar med PCIe 4/5-kort. Lite tråkigt då att Intel inte kliver över tröskeln.

Visa signatur

Primär Torrent Compact, Prime 650 Platinum, Prime Z790 mATX, i5-13600K, U12A, 32GB 3200, 1080Ti, 2xNVMe + SSD, Predator X38: Time Spy 11430, GPU 10939, CPU 15340
Sekundär i5-8400, Asus B360 mATX, 16GB, Asus 1070, 970 + 860 Evo, 750W PSU

http://rec.elmor.se/review.php?user=570

Permalänk
Medlem

Jag välkomnar fler antal kärnor. Har själv vuxit ur 8 kärnor och behöver under året kliva upp på 12.

Mest av allt däremot önskar jag att Intel och AMD tittar närmare på hur Apple/Arm löst det i sina processorer med ett par riktigt snabba kärnor och så en drös långsammare "slavkärnor" / hjälpprocessorer. Säg en tre-fyra 5GHz enkeltrådade kärnor + 16st flertrådade 3GHz kärnor i en och samma fysiska CPU.

Visa signatur

Primär Torrent Compact, Prime 650 Platinum, Prime Z790 mATX, i5-13600K, U12A, 32GB 3200, 1080Ti, 2xNVMe + SSD, Predator X38: Time Spy 11430, GPU 10939, CPU 15340
Sekundär i5-8400, Asus B360 mATX, 16GB, Asus 1070, 970 + 860 Evo, 750W PSU

http://rec.elmor.se/review.php?user=570

Permalänk
Medlem
Skrivet av Yoshman:

Och här blir då det stora frågetecknet kring hur man rimligen skulle använda något som Xeon W-3175X ihop med Windows. Är målet att lösa riktigt stora problem måste ju användaren som jobbar med problemet ha tillgång till hela maskinvaran.

Jag förstår inte, varför skulle Windows inte ge tillgång till hela hårdvaran?

Jag har förvisso ingen Xeon W-3175X, men väl 2 Dual Xeon maskiner med 12C24T/128Gb och 24C48T/64Gb och jag har kört Houdini, Maxwell och Cinema4D CLI på dom i både SUSE/Ubuntu och Windows 10 och dom presterar i princip identiskt, skillnaden är försumbar.

Men du menar att dom nya Xeon presterar annorlunda under Windows?

Skickades från m.sweclockers.com

Permalänk
Datavetare
Skrivet av Xeonist:

Jag förstår inte, varför skulle Windows inte ge tillgång till hela hårdvaran?

Jag har förvisso ingen Xeon W-3175X, men väl 2 Dual Xeon maskiner med 12C24T/128Gb och 24C48T/64Gb och jag har kört Houdini, Maxwell och Cinema4D CLI på dom i både SUSE/Ubuntu och Windows 10 och dom presterar i princip identiskt, skillnaden är försumbar.

Men du menar att dom nya Xeon presterar annorlunda under Windows?

Självklart har Windows tillgång till hela maskinvaran, problemet är att Windows inte är kapabel att göra något vettigt med kraften!

Alla programvaror du räknar upp är exempel på problem där skalbarheten över CPU-kärnor är trivial och den görs på ett sätt som i praktiken inte kräver några OS-tjänster alls. Dessa programvaror skulle köra lika snabbt på Linux 2.0 som var den första versionen med SMP stöd där hela kärnan skyddes av ett enda lås, d.v.s. maximalt en kärna i taget kan köra i OS-kärnan.

Kompilering är också ett exempel på något som är trivialt att parallellisera då varje fil kan hanteras helt separat. Stora skillnaden här är att det finns väldigt många fall där olika kärnor behöver läsa samma information, men de skriver till separat utdata.

Att dela läsning är i teorin inget hinder för att skala saker över kärnor, men till skillnad från rendering så kräver jobb som kompilering, hantera nätverkstrafik, etc. hjälp från operativsystemet för att utföra dessa uppgifter.

En snabb sökning gav mig ett mätning där man kompilerar LLVM, som likt Chromium, är ett riktigt stort C++ projekt. Här är inte en i9-9900K lika snabb som en TR-2950X...

Än mer extremt blir det när man börjar jämföra Geekbench 4 resultat. Finns tyvärr inget postat W-3175X än, men det är ju i praktiken en finesskastrerad högre klockad Xeon 8180.

I AnandTechs fall får en i9-9900K 32,500 poäng, vilket är lite lågt om de körde med "ta all ström du kan svälja" läget, men låt oss använda det.

Resultat postade med dubbla Xeon 8180 (totalt 56 kärnor) körandes Windows ligger i spannet 30,000 till 35,000. Låt oss anta att de som fått resultat i det lägre spannet inte vet vad de håller på med. Inte jätteimponerande att ett system med sju gånger så många CPU-kärnor och sex gånger så många minneskanaler får rätt mycket samma prestanda!

Nu finns ju alltid möjligheten att flaskhalsen här ligger i att GB4 gör något som faktiskt inte kan skalas förbi åtta kärnor på något vettigt sätt. Det är trots allt en benchmark som primärt testar fall relevanta för skrivbordet, inte för datacenter. Värt att notera då också är att med 4-6 kärnors CPUer får Windows och Linux väldigt snarlika GB4 MT resultat för motsvarande system, så finns ingen gigantisk felkälla där.

Resultat med dubbla Xeon 8180 körandes Linux ligger i spannet 100,000 till 120,000. i9-9900K presterar bara marginellt bättre än under Windows, resultat runt 38,000 till 40,000.

Så nog är jag lite fundersam kring vad folk använder dagens HEDT CPU till på ett Windows-system. Visst rendering, men givet lanseringen av RTX-korten och hur presterar i Blender 2.8 beta:n (som inte använder RT-kärnorna, så borde finnas 4-5 gånger till prestanda att hämta) känns ju CPU-rendering rätt överspelat.

Går man efter GB4 MT resultat är bästa prestanda man kan få under Windows med i9-9980XE med strax över 40,000. TR-2950X ligger runt 38,000 medan TR-2990WX faller ihop helt och hamnar på strax över 30,000. D.v.s. en i9-9900K körandes Linux presterar lika bra eller bättre...

HEDT under Linux ser rätt mycket roligare ut. i9-9980XE och TR-2950X hoppar upp till runt 50,000. TR-2990WX går från att vara totalt meningslös till resultat på 70,000 - 80,000.

BTW: skulle gärna se SweClockers köra GB4 och ge referenser till resultaten i databasen då man får väldigt bra information genom att titta på deltesterna (Intel och AMD har divergerat rätt ordentligt i vad de är starka på!). Väldigt stor spridning på resultaten i GB4-databasen och saknas kritisk information om systemen, går t.ex. inte alltid att avgöra om de är överklocka eller ej. För Linux går det inte att se minneshastigheten (vilket är dåligt då det finns flera kommandon som kan läsa ut sådan information).

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Permalänk
Medlem
Skrivet av tvelander:

Kollar du på render farm och köpa löst / vs OEM render är detta billigaste du kan fåtag på då TR har skit ECC stöd och bara 8 RAM slots.

Jag måste missat något. Hur kan den vara "billigast" om 2990WX kostar 20k? Med 8 ram slots kan du väl ändå få in en TB RAM om man så vill? Man behöver väl inte mer än 128-256 GB / nod?

Visa signatur

Hur många datorer är för många?

Permalänk
Master of Overkill
Skrivet av kelthar:

Jag måste missat något. Hur kan den vara "billigast" om 2990WX kostar 20k? Med 8 ram slots kan du väl ändå få in en TB RAM om man så vill? Man behöver väl inte mer än 128-256 GB / nod?

128GB är tok för lite vi är uppe i 170GB i snitt och peakar på 240GB

TR stödjer bara 128GB så nej du kan inte köra över 128GB ens om du vill.

Visa signatur

CASE Caselabs SMA8-A + TH10+PED + Louqe Ghost S1 CPU 9900k @5.3GHz (No AVX) 9800X @4.8GHz GPUs RTX 3090 FE RAM 4x16GB Corsair Dominator Platinum 3533MHz CL13 + 2x16GB Corsair Dominator Platinum RGB 3000MHz PSU EVGA T2 1600W + Corsair SFF 750W SSD 905p 480GB, 4x Samsung 970 Pro M.2 Headphones Audeze Maxwell + FOSTEX TR-X00 + Audeze LCD-2 + Moon Cable DAC/AMP Chord Mojo, Schiit Magni&Modi Screen LG 48CX 4K 120Hz HDR + ASUS ROG SWIFT PG258Q 240Hz
Motherboard X299 EVGA DARK + ASUS ROG Strix Z390-I Watercooling 560+480+480+280+360. 240+240

Permalänk
Medlem

Kritiken som riktas mot processorn är rätt missvisande tycker jag, ser ut som väldigt kompetent hårdvara. Folk verkar förvirrade eftersom det verkar vara en nisch-produkt som Intel hade rätt förvirrande marknadsföring kring.

Vem/vilka exakt är målgruppen för denna processor? Jag är genuint intresserad.

Permalänk
Medlem
Skrivet av tvelander:

128GB är tok för lite vi är uppe i 170GB i snitt och peakar på 240GB

TR stödjer bara 128GB så nej du kan inte köra över 128GB ens om du vill.

Skulle du klassa ert behov som typiskt? Om jag tittar runt på farmar att hyra online så ligger dem på 64-256GB.

Visa signatur

Hur många datorer är för många?

Permalänk
Master of Overkill
Skrivet av kelthar:

Skulle du klassa ert behov som typiskt? Om jag tittar runt på farmar att hyra online så ligger dem på 64-256GB.

Vi renderar i Corona och slut renderings är det jag skrev annars runt 20-50GB men man måste ha mer sen vid slut rendering

Skickades från m.sweclockers.com

Visa signatur

CASE Caselabs SMA8-A + TH10+PED + Louqe Ghost S1 CPU 9900k @5.3GHz (No AVX) 9800X @4.8GHz GPUs RTX 3090 FE RAM 4x16GB Corsair Dominator Platinum 3533MHz CL13 + 2x16GB Corsair Dominator Platinum RGB 3000MHz PSU EVGA T2 1600W + Corsair SFF 750W SSD 905p 480GB, 4x Samsung 970 Pro M.2 Headphones Audeze Maxwell + FOSTEX TR-X00 + Audeze LCD-2 + Moon Cable DAC/AMP Chord Mojo, Schiit Magni&Modi Screen LG 48CX 4K 120Hz HDR + ASUS ROG SWIFT PG258Q 240Hz
Motherboard X299 EVGA DARK + ASUS ROG Strix Z390-I Watercooling 560+480+480+280+360. 240+240

Permalänk
Medlem

Så mycket negativitet. Intel har en CPU med 28 kärnor som klarar av 5GHz. Må hända det var med en lösning som flesta inte direkt sitter på hemma under skrivbordet. Men vad spelar det för roll ens?
Ni blir imponerade av resultat med 4 eller 8 kärnor i 6GHz+ men inte av 28(!) kärnor i 5GHz och då är det inte ens på LN2 överklockning utan något så mer simpelt som phase change kylning.

Vad gnäller ni över? "Den gör inte 5GHz på vattenkylning buhu". Nej vadå, var det NÅGON som faktiskt trodde på att en processor år 2018-2019 skulle klara det när vi sista 10 åren suttit med under 5GHz på 4 kärnor och dom där lyckliga få med 360 dual loopar faktiskt når 5GHz och precis strax över, fortfarande på 4-8 kärnor.

Ni som tycker Intel gjorde en fuling missar ju helheten. Dom demonstrerade vad som var möjligt att med dagens teknik åstadkomma i form av prestanda. Inte vad ni ska kunna sitta och spela counter-strike GO med.

Sen har vi ju några få medlemmar här som inte gör mycket annat än gnäller och kastar ur sig negativitet, host host. Dessa undrar ju jag vad ni egentligen gör här öht.

Visa signatur

Star Citizen ❤

Permalänk
Medlem
Skrivet av tvelander:

Vi renderar i Corona och slut renderings är det jag skrev annars runt 20-50GB men man måste ha mer sen vid slut rendering

Skickades från m.sweclockers.com

Tackar

Visa signatur

Hur många datorer är för många?

Permalänk
Master of Overkill
Skrivet av kelthar:

Så problemet blir att alla maskiner behöver 256GB som vi kör nu för sen när man slår på nätverksrendering mountar den hela 230GB till alla hostar runt 23 workstations så där problemet ligger.

jag vill köra amazon men dom vill köra corona och funkar rätt dåligt i molnet.

Visa signatur

CASE Caselabs SMA8-A + TH10+PED + Louqe Ghost S1 CPU 9900k @5.3GHz (No AVX) 9800X @4.8GHz GPUs RTX 3090 FE RAM 4x16GB Corsair Dominator Platinum 3533MHz CL13 + 2x16GB Corsair Dominator Platinum RGB 3000MHz PSU EVGA T2 1600W + Corsair SFF 750W SSD 905p 480GB, 4x Samsung 970 Pro M.2 Headphones Audeze Maxwell + FOSTEX TR-X00 + Audeze LCD-2 + Moon Cable DAC/AMP Chord Mojo, Schiit Magni&Modi Screen LG 48CX 4K 120Hz HDR + ASUS ROG SWIFT PG258Q 240Hz
Motherboard X299 EVGA DARK + ASUS ROG Strix Z390-I Watercooling 560+480+480+280+360. 240+240

Permalänk
Medlem
Skrivet av Yoshman:

Självklart har Windows tillgång till hela maskinvaran, problemet är att Windows inte är kapabel att göra något vettigt med kraften!

Men vadå Windows? Vad använder du Windows till? Det är klart att inte Windows kan göra något vettigt med kraften, Windows är ett skal för att starta program, precis som Linux, ingenting i Windows kräver den prestandan!

Skrivet av Yoshman:

Alla programvaror du räknar upp är exempel på problem där skalbarheten över CPU-kärnor är trivial och den görs på ett sätt som i praktiken inte kräver några OS-tjänster alls.

Så det du säger är att problemet inte ligger hos Windows, utan dom program som körs!?

Skrivet av Yoshman:

Än mer extremt blir det när man börjar jämföra Geekbench 4 resultat. Finns tyvärr inget postat W-3175X än, men det är ju i praktiken en finesskastrerad högre klockad Xeon 8180.

Så det du säger är att Geekbench är helt meningslöst att köra eftersom det inte säger något om vilken prestanda man får ut i det program man faktiskt kör? Det kanske finns en anledning till att det heter Geekbench.

Skrivet av Yoshman:

Så nog är jag lite fundersam kring vad folk använder dagens HEDT CPU till på ett Windows-system.

Jag förklarde ju just det för dig. Det är klart att dom inte använder det för att köra Geekbench.

Skrivet av Yoshman:

Visst rendering, men givet lanseringen av RTX-korten och hur presterar i Blender 2.8 beta:n (som inte använder RT-kärnorna, så borde finnas 4-5 gånger till prestanda att hämta) känns ju CPU-rendering rätt överspelat.

Du har ingen aning om vad du pratar om. Hade du lagt lite mer tid på att faktiskt göra något med din dator mer än att köra Geekbench, så hade du kanske vetat att rendering för TV och film ofta skickar >48Gb data till renderaren (inte sällan över 100-200Gb) och då räcker ditt RTX-kort inte så långt.

Skrivet av Yoshman:

Går man efter GB4 MT resultat är bästa prestanda man kan få under Windows med i9-9980XE med strax över 40,000. TR-2950X ligger runt 38,000 medan TR-2990WX faller ihop helt och hamnar på strax över 30,000. D.v.s. en i9-9900K körandes Linux presterar lika bra eller bättre...

HEDT under Linux ser rätt mycket roligare ut. i9-9980XE och TR-2950X hoppar upp till runt 50,000. TR-2990WX går från att vara totalt meningslös till resultat på 70,000 - 80,000.

Du får fortsätta och köra dina GB om du vill, men kom inte och tro att det säger något om hur datorer faktiskt används.

Permalänk
Datavetare
Skrivet av Xeonist:

Men vadå Windows? Vad använder du Windows till? Det är klart att inte Windows kan göra något vettigt med kraften, Windows är ett skal för att starta program, precis som Linux, ingenting i Windows kräver den prestandan!

???

Windows och Linux är operativsystem. Huvuduppgiften för ett OS är att ge applikationerna en bekväm abstraktion av systemets maskinvara.

Ett exempel på tjänst från OS är att lura ut hur de applikationstrådar som är aktiva på bästa sätt schemaläggs på tillgängliga CPU-kärnor. Desktop Windows fixar den uppgiften riktigt bra upp till sex CPU-kärnor, men redan vid åtta kärnor är det ett klart mätbart delta mot Linux och någonstans vid 12-16 kärnor bryter det ihop rätt rejält utanför de triviala fallen.

Skrivet av Xeonist:

Så det du säger är att problemet inte ligger hos Windows, utan dom program som körs!?

Ibland ligger problemet hos applikationerna, om så är fallet hjälper det inte att att köra på något annat OS.

Men ett uppenbart lackmustest för att problemet inte ligger i applikationen är ju om det finns minst ett OS som kan hantera applikationen riktigt väl. Om så är fallet är det en svaghet hos de andra OS:en.

Skrivet av Xeonist:

Så det du säger är att Geekbench är helt meningslöst att köra eftersom det inte säger något om vilken prestanda man får ut i det program man faktiskt kör? Det kanske finns en anledning till att det heter Geekbench.

Jag sa att det kunde vara så att problemet ligger hos GB4. Men då Linux skalar GB4 MT rätt OK upp till runt 30 CPU-kärnor är det rätt uppenbart att det finns begränsningar hos Windows som leder till att samma programkod har grava problem redan vid 12-16 kärnor (skalningen börjar som sagt falla efter Linux redan vid 8 kärnor).

Skrivet av Xeonist:

Du har ingen aning om vad du pratar om. Hade du lagt lite mer tid på att faktiskt göra något med din dator mer än att köra Geekbench, så hade du kanske vetat att rendering för TV och film ofta skickar >48Gb data till renderaren (inte sällan över 100-200Gb) och då räcker ditt RTX-kort inte så långt.

Tror du missat att redan Kepler, ihop med CUDA 6, är kapabel till att lägga till systemminnen till den adressrymd som är tillgänglig för GPUn. Problemet är dock att GPU-koden måste explicit skrivas för att hantera detta och är rätt få program utanför datacenter som designats på det sättet. Möjligen har OctaneRender stöd för detta då de alltid satsat rätt hårt på GPU-rendering.

Men i Pascal, ihop med CUDA 8, förbättrade stödet för så det blev helt transparent för GPU-programmen. Så även gratisprogram som Blender är fullt kapabel att GPU-rendera scener som är långt större än VRAM, så länge som "working-set" (de "tiles" man aktivt jobbar på) får plats i VRAM så är det fortfarande väldigt hög effektivitet.

Ett potentiellt problem i tidigare versioner av Blender var att effektivt GPU-rendering krävde rätt stora "tiles", detta är löst i version 2.8 och optimal storlek är nu samma som för CPU (d.v.s. 16x16 till 64x64, sannolikheten att den lilla biten kräver >10 GB är minimal och om så är fallet blir prestanda även på CPU horribelt).

Skrivet av Xeonist:

Du får fortsätta och köra dina GB om du vill, men kom inte och tro att det säger något om hur datorer faktiskt används.

Kan hålla med om att alla versioner av GB innan version 4 verkligen var usla på att ge en bild av faktiskt prestanda på PC. Men uppenbarligen lyssnande man på kritiken för GB4 ger en riktigt bra bild av CPU-prestanda!

Är ju inte så att GB4 tester en enda sak, som t.ex. Cinebench. Finns ett deltest som uppför sig i princip identiskt med Cinebench, men det är ett av 25 deltest!

Har man något emot just GB4 säger ju kompilatortestet exakt samma sak. Windows får problem med system som har väsentligt fler än 8 kärnor, hur kan man annars förklara att något som i teorin är exceptionellt skalbart över kärnor leder till att TR-2950X och i9-9900K presterar identiskt? Och hur kommer det sig att samma fall drar nytta av långt fler kärnor på Linux? Enda rimliga förklaringen är att problemet ligger i OS!

Att desktop Windows till och med får problem med Indigo Renderer på 2990WX, men även multi-socket Xeons, borde undanröja alla om att det inte finns OS-begränsningar. Renderingsprogram är bland de absolut enklaste program för OS att hantera då de använder väldigt få OS-tjänster. Enda OS:et egentligen behöver göra är schemalägga trådar, är ett långt svårare problem att effektivt hantera synkronisering (vilket är tjänsten GB4 använder utöver schemaläggning av trådar).

Har flera gånger skrivit "desktop Windows". Ser klart bättre ut i server versionen av Windows. Och att det är skillnad mellan desktop och server Windows borde ge en rätt stor vink om att problemet kanske ligger någon annanstans än att Microsoft inte vet vad de håller på med! Desktop Windows är primärt optimerat för "normala" PC som används interaktiv för t.ex. spel. Som OS-utvecklare måste man ibland välja mellan att optimera för låg latens eller hög kapacitet, att optimera för låg latens brukar tyvärr betyda sämre skalbarhet med CPU-kärnor.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Permalänk
Medlem
Skrivet av Yoshman:

Men ett uppenbart lackmustest för att problemet inte ligger i applikationen är ju om det finns minst ett OS som kan hantera applikationen riktigt väl. Om så är fallet är det en svaghet hos de andra OS:en.

Nej, lackmustestet ligger i om det finns minst 1 applikation som kan hantera OSet väl. Om så är fallet ligger svagheten hos dom andra applikationerna!!

Skrivet av Yoshman:

Tror du missat att redan Kepler, ihop med CUDA 6, är kapabel till att lägga till systemminnen till den adressrymd som är tillgänglig för GPUn. Problemet är dock att GPU-koden måste explicit skrivas för att hantera detta och är rätt få program utanför datacenter som designats på det sättet. Möjligen har OctaneRender stöd för detta då de alltid satsat rätt hårt på GPU-rendering.

Nej då, det har jag inte missat. Men det är som att säga att Windows (eller Linux) har tillgång till hårddisken som RAM. Det som händer när man börjar använda systemminnet med en GPU renderare är att prestandan hamnar någonstans runt 10%-20%, precis samma sak som händer när du börjar skyffla internminne till en hårddisk/SSD.

Skrivet av Yoshman:

Kan hålla med om att alla versioner av GB innan version 4 verkligen var usla på att ge en bild av faktiskt prestanda på PC. Men uppenbarligen lyssnande man på kritiken för GB4 ger en riktigt bra bild av CPU-prestanda!

Fast jag har ju bevisat för dig att så inte är fallet. Jag är ärligt talat helt ointresserad av GB, men om du säger att GB visar att Windows inte ger mig full tillgång till min hårdvaruprestanda så har jag ju bevisat för dig att det inte är sant.

Skrivet av Yoshman:

Windows får problem med system som har väsentligt fler än 8 kärnor, hur kan man annars förklara att något som i teorin är exceptionellt skalbart över kärnor leder till att TR-2950X och i9-9900K presterar identiskt? Och hur kommer det sig att samma fall drar nytta av långt fler kärnor på Linux? Enda rimliga förklaringen är att problemet ligger i OS!

Så du menar att du helt kan utesluta kompilatorn som körs? Att det är den som inte kan tillgodogöra sig all hårdvara?

Hur lång tid tar det att kompilera ett program idag? Det kanske inte är relevant att öka prestandan i kompilatorn, det kanske helt enkelt inte är relevant om det tar 20 minuter eller 40 minuter att kompilera ett program, medans det i allra högsta grad är relevant om det tar 40 dagar eller 36 dagar att rendera en filmscen. I det ena fallet är en prestandaökning på 100% ointressant eftersom kostnaden för den extra beräkningstiden är försumbar, i det andra fallet är en prestandaökning på 10% i alla högsta grad relevant eftersom kostnaden för den beräkningstiden är påtaglig.

Skrivet av Yoshman:

Att desktop Windows till och med får problem med Indigo Renderer på 2990WX, men även multi-socket Xeons, borde undanröja alla om att det inte finns OS-begränsningar. Renderingsprogram är bland de absolut enklaste program för OS att hantera då de använder väldigt få OS-tjänster. Enda OS:et egentligen behöver göra är schemalägga trådar, är ett långt svårare problem att effektivt hantera synkronisering (vilket är tjänsten GB4 använder utöver schemaläggning av trådar).

Jag säller samma fråga igen, hur kommer det sig att du helt utesluter Indigo Renderer?

Skrivet av Yoshman:

Har flera gånger skrivit "desktop Windows". Ser klart bättre ut i server versionen av Windows.

Fast att det skulle finnas några såna skillnader mellan Windows-versioner är har man ju sedan länge "debunkat" (förutom dom skillnader som dom olika licenserna innebär).

Eller menar du att dina test i Indigo Render ger olika resultat om du kör dom på Windows Pro/Enterprise eller om du kör dom på Windows Server?

Skrivet av Yoshman:

Och att det är skillnad mellan desktop och server Windows borde ge en rätt stor vink om att problemet kanske ligger någon annanstans än att Microsoft inte vet vad de håller på med!

Men vänta nu, du började med att säga att felet låg hos Microsoft Windows (din fråga var, parafraserat, "vem kör sån här hårdvara på Windows.."), nu säger du att det inte ligger hos Windows?

Permalänk
Medlem
Skrivet av Xeonist:

Hur lång tid tar det att kompilera ett program idag? Det kanske inte är relevant att öka prestandan i kompilatorn, det kanske helt enkelt inte är relevant om det tar 20 minuter eller 40 minuter att kompilera ett program, medans det i allra högsta grad är relevant om det tar 40 dagar eller 36 dagar att rendera en filmscen. I det ena fallet är en prestandaökning på 100% ointressant eftersom kostnaden för den extra beräkningstiden är försumbar, i det andra fallet är en prestandaökning på 10% i alla högsta grad relevant eftersom kostnaden för den beräkningstiden är påtaglig.

Men de flesta kompilerar nog sitt projekt mer än en gång. Jag tror inte man generellt om-rendrerar lika ofta som man om-kompilerar. För att ta ett extremt exempel så tar windows 12-16 timmar att kompilera, vilket man gör dagligen (nattligen). Jag kan tänka mig att t.ex. Facebook och Google har liknande utmaningar. Vad jag förstått av dem som livnär sig på det så är kompileringstid faktiskt ofta en begränsande faktor i utvecklingscykeln, så att korta ned den tiden är absolut intressant och = med €€€.

Skrivet av Xeonist:

Men vänta nu, du började med att säga att felet låg hos Microsoft Windows (din fråga var, parafraserat, "vem kör sån här hårdvara på Windows.."), nu säger du att det inte ligger hos Windows?

Du verkar ju vara väldigt initierad, men jag föreslår att du höjer din argumentationsnivå för att göra dig själv rättvisa. Det är tydligt vad Yoshman menar.

Permalänk
Medlem
Skrivet av Yoshman:

Går man efter GB4 MT resultat är bästa prestanda man kan få under Windows med i9-9980XE med strax över 40,000. TR-2950X ligger runt 38,000 medan TR-2990WX faller ihop helt och hamnar på strax över 30,000. D.v.s. en i9-9900K körandes Linux presterar lika bra eller bättre...

HEDT under Linux ser rätt mycket roligare ut. i9-9980XE och TR-2950X hoppar upp till runt 50,000. TR-2990WX går från att vara totalt meningslös till resultat på 70,000 - 80,000.

Gällande TR-2990WX och dess resultat i Windows, vet inte om du har missat det här:

Citat:

What was baffling was that, often, Indigo would perform worse on a 32 core 2990WX than a 16 core 2950X – and by a significant margin.

When rendering the bedroom scene with indigo, a well-tuned 2990 with fast memory will score about 3.5. The Epyc 7551 will score about 3.0 (mainly owing to the lower clock speed). At least, on Linux, that’s the score you can expect. (Note that in our video, some of the scores are a touch lower owing to OBS recording the screen.)

On Windows, something else entirely has been happening.

The score is typically 1.0 to 1.5 on both of these CPUs (EPYC always being a bit slower because of the clock speed). Even on the EPYC 7551 with a fully populated 8-channel configuration. Obviously, memory bandwidth isn’t the issue in these cases. And obviously hardware isn’t just the issue issue because it’s not happening on Linux.

I discovered that taking a single thread out of the list of available threads to run the program on (called CPU Affinity) via the windows task manager would improve performance to similar levels as I was seeing on Linux. Even more baffling was the fact that adding the CPU back (resetting the affinity back to what it was) would also cure the performance regression in most cases.

With this one weird trick, Indigo on Windows would come close or match the Linux performance.

Så får vi se när Microsoft kommer med en fix.

Permalänk
Datavetare
Skrivet av Xeonist:

Nej, lackmustestet ligger i om det finns minst 1 applikation som kan hantera OSet väl. Om så är fallet ligger svagheten hos dom andra applikationerna!!

Du missar helt poängen.

Tar man en applikation som är funktionellt identisk på alla OS och endast använder grundläggande OS-tjänster som i sig inte ger något orättvis fördel för ett specifikt OS, så måste alla skillnader i t.ex. skalbarhet med CPU-kärnor komma från skillnader i OS.

GB4 är ett sådant exempel. 7zip är ett annat sådan exempel

Sedan finns exempel på applikation som har en viss skalning med CPU-kärnor, men som i något läge faller av p.g.a. endera begränsningar i applikationen eller, som i fallet x264 är kanske mer troligt, man börjar slå i gränsen för hur mycket parallellism som finns att utnyttja. I sådana fall uppför sig applikationen rätt lika oavsett OS

Är en TR-2990WX som används i båda fallen ovan, samt det handlar om desktop Windows 10.

Skrivet av Xeonist:

Nej då, det har jag inte missat. Men det är som att säga att Windows (eller Linux) har tillgång till hårddisken som RAM. Det som händer när man börjar använda systemminnet med en GPU renderare är att prestandan hamnar någonstans runt 10%-20%, precis samma sak som händer när du börjar skyffla internminne till en hårddisk/SSD.

Det är i.o.f.s. något som tillkom med Pascal, där kan GPU precis som CPU använda disken som swap-space. Men att jämföra access mot RAM över PCIe är inte jämförbart med swap, inte ens mot swap på NVMe.

Bandbredd mot RAM är ett par heltalsfaktorer högre jämfört med bandbredd över x16 PCIe 3.0, bandbredd mot disk är mer än en tiopotens lägre.
Latens mot RAM är ungefär en tiopotens lägre jämfört med latens över PCIe, latens mot en flashbaserad NVMe som bäst lite mer än två tiopotenser högre.

Fast bandbredd är inte problemet här, vore det så skulle vi se väldigt fin prestandaskalning med RAM-bandbredd. Renderingsprogram uppvisar nästan ingen skalning alls med RAM-bandbredd!

Trolleritricket i detta fall är datalokalitet. Oavsett om man jobbar mot CPU eller GPU med datamängder som mäts i GB måste beräkningen delas upp i väsentligt mindre delproblem.

En modern CPU (eller GPU som används för GPGPU) måste ha problem små nog för att få plats i cache, annars presterar den bedrövligt.

Jensen Huang har rätt stora problem mot investerar om det är så att RTX-serien faktiskt inte är kapabel till "final rendering" av dagens Hollywood produktioner. Detta då han explicit hävdade att Quadro-serien fixar detta under höstens lansering av de korten på Siggraph.

För husbruk räcker konsumentserien av RTX-serien hur bra som helst. De är fullt kapabla att rendera scener som inte till fullo får plats i VRAM då det stödet är automatiskt sedan Pascal och CUDA 8 (man är garanterad att minst CUDA 10 används om det överhuvudtaget går att köra på RTX-korten).

Låter det vara osagt hur mycket det används (eller ens kommer användas) i renderingsprogram, men en viktig nyhet i CUDA 10 (som kommer även kommer tidigare Nvidia kort till gagn) är tillägg till programmeringsmodellen för att bättre stödja uppgiftsparallella problem (ray-tracing är i grunden uppgiftsparallellt, MIMD, medan rendering i grunden är dataparallellt, SIMD).

Turing (egentligen Volta då det är samma SMs där) har bättre HW-stöd för MIMD men även Pascal får en knuff för sådant om man utnyttjar CUDA 10 på rätt sätt.

Skrivet av Xeonist:

Fast jag har ju bevisat för dig att så inte är fallet. Jag är ärligt talat helt ointresserad av GB, men om du säger att GB visar att Windows inte ger mig full tillgång till min hårdvaruprestanda så har jag ju bevisat för dig att det inte är sant.

Har noterat ditt ointresse i GB. Tror fortfarande att poängen som jag försökte göra här helt missade målet, se första stycket.

Men har totalt missat det bevis du skulle ha för att styrka att motsatsen gäller. För någon där åldern kanske börjar ta ut sin rätt på uppmärksamheten, peka gärna ut exakt vad det beviset består i. Tack på förhand.

Skrivet av Xeonist:

Så du menar att du helt kan utesluta kompilatorn som körs? Att det är den som inte kan tillgodogöra sig all hårdvara?

My bad här! Borde självklart att förklarat att kompilatorfallet är extra intressant just då C/C++ kompilatorer är enkeltrådade.

Sättet att använda flera CPU-kärnor uppnås enbart genom att flera filer kompilerar samtidigt, vilket betyder att kompilatorn själv är helt ute ur ekvationen när det kommer till skalbarhet över kärnor och är enbart en funktion av hur väl OS kan schemalägga många samtidigt körande, helt oberoende, program. Till skillnad från t.ex. rendering så använder dock kompilatorer rätt mycket OS-tjänster, primärt i form av filsystemtjänster.

Skrivet av Xeonist:

Hur lång tid tar det att kompilera ett program idag? Det kanske inte är relevant att öka prestandan i kompilatorn, det kanske helt enkelt inte är relevant om det tar 20 minuter eller 40 minuter att kompilera ett program, medans det i allra högsta grad är relevant om det tar 40 dagar eller 36 dagar att rendera en filmscen. I det ena fallet är en prestandaökning på 100% ointressant eftersom kostnaden för den extra beräkningstiden är försumbar, i det andra fallet är en prestandaökning på 10% i alla högsta grad relevant eftersom kostnaden för den beräkningstiden är påtaglig.

Med dagens test-drivna utveckling är kompileringstiden högst relevant då man kompilerar om (delar av) sitt program väldigt många gånger under en arbetsdag. Till skillnad från rendering som går alldeles utmärkt att köra som bakgrundsjobb är det man gör som programmerar den av ens interaktiva flöde (ungefär som modellering för filmskapade).

Kompileringstider är därför mer kritiska idag än de var innan TDD blev normen. Tar man C++ (då det är språket som används i de kompilatortester som refererats här) ligger det riktigt mycket fokus på att driva standarden för språket i en riktning som ger lägre kompileringstider. Långa kompileringstider i C++ är ett jätteproblem för företag som Google, Facebook, Microsoft m.fl.

Skrivet av Xeonist:

Jag säller samma fråga igen, hur kommer det sig att du helt utesluter Indigo Renderer?

???

Tog ju specifikt upp det som ett exempel på renderingsprogram som uppvisar bättre prestanda under Linux på system med icke-uniform latens mot RAM (NUMA-system). D.v.s. trots att det är ett renderingsprogram finns en skillnad, det är "trots" då renderingsprogram är urtypen för embarrassingly parallel vilket är den klart enklaste typen av program att skala över CPU-kärnor då flaskhalsen varken är synkronisering mellan trådar (en OS-tjänst, men behövs knappt vid rendering) eller filoperationer (annat exempel på OS-tjänst som inte heller är en relevant flaskhals vid rendering).

Enda OS:et behöver göra vid rendering är att schemalägga programtrådar. Enda "elaka" Indigo Renderer verkar göra är en viss "over-commit" av OS-trådar kontra antalet CPU-trådar. Ett icke-problem för Linux (och MacOS), men finns en rätt specifik optimering i desktop-Windows (som är en väldigt bra idé för program som kräver låg latens!) som gör att OS-trådarna hoppar runt väldigt mycket mellan CPU-trådar om man har "over-commit" av trådar som alla vill ha 100 % CPU.

Skrivet av Xeonist:

Fast att det skulle finnas några såna skillnader mellan Windows-versioner är har man ju sedan länge "debunkat" (förutom dom skillnader som dom olika licenserna innebär).

Då är det svårt att förklara dels varför Microsoft Windows Internals hävdar att det finns relevanta skillnad och varför de jämförelser t.ex. Phoronix gjort visar att server-versionen ligger närmare Linux i skalbarhet jämfört med desktop Windows 10.

En uppenbar skillnad som definitivt påverkar skalbarhet över kärnor är att längden på en time-slice är tio gånger längre i server-versionen av Windows. Inte ett bra val om man behöver låg latens, men är helt klart vettigt om målet är att maximera "throughput".

Skrivet av Xeonist:

Eller menar du att dina test i Indigo Render ger olika resultat om du kör dom på Windows Pro/Enterprise eller om du kör dom på Windows Server?

Men vänta nu, du började med att säga att felet låg hos Microsoft Windows (din fråga var, parafraserat, "vem kör sån här hårdvara på Windows.."), nu säger du att det inte ligger hos Windows?

Har aldrig hävdat att det finns någon sådan skillnad mellan server/desktop-Windows. för just Indigo. Enda jag sagt om detta program är att trots att det handlar om rendering så har desktop-Windows problem med detta (vilket står i kontrast mot andra renderingsprogram jag sett, generellt fungerar rendering bra under desktop Windows).

Har aldrig sett någon köra Indigo på server-Windows. Men finns jämförelser mellan desktop-Windows och Linux, rätt stor prestandaskillnad på system med många CPU-kärnor och NUMA -> problemen under Windows är ett OS-problem, inte ett problem med Indigo, då det presterar som förväntat under Linux (och går att göra manuell handpåläggning som till stor del fixar problemet även under Windows).

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Permalänk
Datavetare
Skrivet av filbunke:

Gällande TR-2990WX och dess resultat i Windows, vet inte om du har missat det här:

Så får vi se när Microsoft kommer med en fix.

Har inte missat detta.

Vad tror du sannolikheten för en "fix" är där då man får exakt samma problem på ett multi-socket Xeon system?

Vidare är detta ingen "bug" i desktop-Windows. Det är en helt logisk följd av hur desktop-Windows är optimerat för applikationer som kräver väldigt låg latens.

Läser man boken "Windows Internals" och läser kapitlet om schemaläggaren ser man att desktop-Windows ger varje OS-tråd en "preferred core". Tanken med detta är god om målet är att optimera för låg latens, att hålla en viss tråd relativt hårt knuten till samma CPU-tråd är bra för latens.

Problemet är när alla CPU-trådar är fullt lastad. Så fort det finns fler OS-trådar än CPU-trådar som vill köra får optimeringen ovan problem då det är omöjligt att köra OS-trådarna på deras "preferred core" och samtidigt låta alla få en jämn nyttjandegrad av systemet.

Vad som händer just för Indigo är att renderingstrådarna relativt frekvent flyttals mellan CPU-trådar. Det är dåligt för prestanda oavsett CPU-design, men det är brutalt dåligt när trådarna flyttas mellan CPU-kärnor som inte delar någon CPU-cache och i fallet med 2999W/multi-socket-Xeon inte heller delar RAM-buss.

Linux är ett sämre OS för t.ex. musikproduktion än Windows då man inte gör motsvarande optimeringar. Skulle gissa att även med samma drivare (vilket i praktiken är fallet för Nvidia-kort) så skulle nog ändå Linux ofta prestera något sämre i spel då även dessa är rätt latenskänsliga.

Finns tyvärr saker som man som OS-utvecklare ibland måste välja vad som har högst prioritet. Latens och skalbarhet är två saker som inte sällan står i motsatsförhållande till varandra när det kommer till optimeringar på OS-nivå.

Realtids-latens (d.v.s. att kunna ge garantier kring maximal latens) och skalbarhet över CPU är något som står väldigt mycket i motsatsförhållande (är något jag jobbar rätt mycket med).

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Permalänk
Medlem
Skrivet av Yoshman:

Självklart har Windows tillgång till hela maskinvaran, problemet är att Windows inte är kapabel att göra något vettigt med kraften!

Alla programvaror du räknar upp är exempel på problem där skalbarheten över CPU-kärnor är trivial och den görs på ett sätt som i praktiken inte kräver några OS-tjänster alls. Dessa programvaror skulle köra lika snabbt på Linux 2.0 som var den första versionen med SMP stöd där hela kärnan skyddes av ett enda lås, d.v.s. maximalt en kärna i taget kan köra i OS-kärnan.

Kompilering är också ett exempel på något som är trivialt att parallellisera då varje fil kan hanteras helt separat. Stora skillnaden här är att det finns väldigt många fall där olika kärnor behöver läsa samma information, men de skriver till separat utdata.

Att dela läsning är i teorin inget hinder för att skala saker över kärnor, men till skillnad från rendering så kräver jobb som kompilering, hantera nätverkstrafik, etc. hjälp från operativsystemet för att utföra dessa uppgifter.

En snabb sökning gav mig ett mätning där man kompilerar LLVM, som likt Chromium, är ett riktigt stort C++ projekt. Här är inte en i9-9900K lika snabb som en TR-2950X...
https://i.imgur.com/2kYEMSg.png

Än mer extremt blir det när man börjar jämföra Geekbench 4 resultat. Finns tyvärr inget postat W-3175X än, men det är ju i praktiken en finesskastrerad högre klockad Xeon 8180.

I AnandTechs fall får en i9-9900K 32,500 poäng, vilket är lite lågt om de körde med "ta all ström du kan svälja" läget, men låt oss använda det.

Resultat postade med dubbla Xeon 8180 (totalt 56 kärnor) körandes Windows ligger i spannet 30,000 till 35,000. Låt oss anta att de som fått resultat i det lägre spannet inte vet vad de håller på med. Inte jätteimponerande att ett system med sju gånger så många CPU-kärnor och sex gånger så många minneskanaler får rätt mycket samma prestanda!

Nu finns ju alltid möjligheten att flaskhalsen här ligger i att GB4 gör något som faktiskt inte kan skalas förbi åtta kärnor på något vettigt sätt. Det är trots allt en benchmark som primärt testar fall relevanta för skrivbordet, inte för datacenter. Värt att notera då också är att med 4-6 kärnors CPUer får Windows och Linux väldigt snarlika GB4 MT resultat för motsvarande system, så finns ingen gigantisk felkälla där.

Resultat med dubbla Xeon 8180 körandes Linux ligger i spannet 100,000 till 120,000. i9-9900K presterar bara marginellt bättre än under Windows, resultat runt 38,000 till 40,000.

Så nog är jag lite fundersam kring vad folk använder dagens HEDT CPU till på ett Windows-system. Visst rendering, men givet lanseringen av RTX-korten och hur presterar i Blender 2.8 beta:n (som inte använder RT-kärnorna, så borde finnas 4-5 gånger till prestanda att hämta) känns ju CPU-rendering rätt överspelat.

Går man efter GB4 MT resultat är bästa prestanda man kan få under Windows med i9-9980XE med strax över 40,000. TR-2950X ligger runt 38,000 medan TR-2990WX faller ihop helt och hamnar på strax över 30,000. D.v.s. en i9-9900K körandes Linux presterar lika bra eller bättre...

HEDT under Linux ser rätt mycket roligare ut. i9-9980XE och TR-2950X hoppar upp till runt 50,000. TR-2990WX går från att vara totalt meningslös till resultat på 70,000 - 80,000.

BTW: skulle gärna se SweClockers köra GB4 och ge referenser till resultaten i databasen då man får väldigt bra information genom att titta på deltesterna (Intel och AMD har divergerat rätt ordentligt i vad de är starka på!). Väldigt stor spridning på resultaten i GB4-databasen och saknas kritisk information om systemen, går t.ex. inte alltid att avgöra om de är överklocka eller ej. För Linux går det inte att se minneshastigheten (vilket är dåligt då det finns flera kommandon som kan läsa ut sådan information).

Det är dags att Sweclockers anställer dig på konsult basis och låter dig skriva några artiklar i den här andan. Det skulle vara kul att se lite mer artiklar på lite djupare teknisk nivå. Potentialen finns ju hos många här på Sweclockers.

Permalänk
Medlem
Skrivet av MarkSix:

Det är dags att Sweclockers anställer dig på konsult basis och låter dig skriva några artiklar i den här andan. Det skulle vara kul att se lite mer artiklar på lite djupare teknisk nivå. Potentialen finns ju hos många här på Sweclockers.

Tyckt detta länge. Yoshman är en förebild på clockers. En av få vettiga som vet vad hen pratar om.

Visa signatur

Star Citizen ❤

Permalänk
Medlem
Skrivet av Yoshman:

Tar man en applikation som är funktionellt identisk på alla OS och endast använder grundläggande OS-tjänster som i sig inte ger något orättvis fördel för ett specifikt OS, så måste alla skillnader i t.ex. skalbarhet med CPU-kärnor komma från skillnader i OS.

Här uppvisar du så bristande logik att jag måste ta allt övrigt du skriver med en nypa salt.

Om du tar en applikation som är funktionellt identisk på alla OS (jag har inte själv kört Indigo på Linux, men jag litar på dig att den kan räknas dit, Houdini, Mantra (jag gör skillnad på Mantra och Houdini för att du ska kunna släppa stödhjulet att det enbart handlar om renderare) och Maxwell Renderer är andra exempel) som uppvisar skillnader i skalbarhet på olika OS så kan dom skillnaderna komma från 2 källor, antingen OSet, eller applikationen.

Din ideologiska blindhet gör att du helt utesluter applikationen. Du vill att svaret ska vara Windows.

Skrivet av Yoshman:

Men har totalt missat det bevis du skulle ha för att styrka att motsatsen gäller. För någon där åldern kanske börjar ta ut sin rätt på uppmärksamheten, peka gärna ut exakt vad det beviset består i. Tack på förhand.

Det är inte din ålder, du förblindas av din ideologiska övertygelse. Förstår du inte bristerna i din logik som jag förklarar ovan så kommer jag aldrig ta mig förbi dina ideologiska skygglappar.

Annars är det precis som jag förklarade förut så att om 1 applikation kan visa på att bristerna inte ligger i OSet, så bevisar man också att i dom fall där prestandaskillnader föreligger, så ligger felet hos applikationen, inte OSet.

Jag ska vara intellektuellt hederlig och säga att det finns ytterligare en möjlighet, och det är att dom programmen jag använder är precis lika dåliga under både Linux och Windows, det "motbevisas" av att dom enligt min erfarenhet skalar rätt linjärt på mina 3 (numera 2) Xeon maskiner jag har, från singel-processor 4C, till dual-processor 12C (24C totalt)