Nvidia Tesla K20 med GK110 i handeln – kostar över 30 000 kronor

Permalänk
Medlem
Skrivet av Elgot:

K20 verkar ge 3,52 TFlop/s och GTX690 2x2,8 TFlop/s med enkel precision, så om man klarar sig med sådan (vilket verkar vara fallet för seti@home) är nog inte detta något att satsa på. För dubbel precision gäller dock 1,17 TFlop/s respektive 2x0,12 TFlop/s.

Så vid singel (enkel) precision vore det mest kostnadseffektivt att köra GTX690? Och i dubbel precision tvärt om?

Skrivet av hACmAn:

Åter igen inte samma sak. Vi pratar beräkningar som aldrig får gå fel. Vi kan ta två exempel. Rälnas det fel på hålfasthetslärarn i en byggnad kan allt rasa. Räknas det fel vid medicin för folk eller blir skadade och deras nära blir skadade osv. Det får inte räknas fel. Och man kör inte en test en gång även om dett "bara är mattematiskt.
Jag tycker om det att hitta vad hårdvara klarar. Men för det vi pratar om hade jag nog valt 100 k20 med full minnesbandbredd. Och då finns inte spel på karatan. Fysik finns, men inte spel.

Edit:
Edit2:

Du har svamlat och pratar helt osammanhängade i hela tråden, dina svar har i princip aldrig något med det du citerar att göra och du förstår dessutom aldrig vad det är folk snackar om.

F@H som jag frågade om beräknar inte hållfastigheter så varför ens dra in det? Dessutom används konsument GPU setuper till F@H frekvent så uppenbart är det accepterat av Stanford, och godkända felmarginaler för att vika proteiner.

"Men för det vi pratar om hade jag nog valt 100 k20 med full minnesbandbredd. Och då finns inte spel på karatan. Fysik finns, men inte spel."

Vad svamlar du om här? Vad har det med något att göra, det vi pratar om? Du citerade mig och jag pratade om F@H och dessutom 100st k20? Vi snackade om 1st, varför klämma till med 100st helt plötsligt då? Dessutom spel? Vem har snackat om spel? Varför nämner du ens spel när ingen har snackat om spel?

Visa signatur

Hur kan syltkakor överleva i det vilda utan ögon?

Permalänk
Medlem

Du har en hel del poäng där men i F@H så räknas inte proteinernas vikningar om om inte fler system kan visa samma värden.

Om du nu pratar folding.

"Man kan ju få 4st GTX690 för samma pengar, så vilket ger mest poäng i F@H, 4st GTX690 eller 1st K20?"

Så visst, då är det inga problem. Deste mer vi foldar destå mer rådata finns. Men om man nu inte har ett sytem som har den kraft som f@h har då får man leva med andra system som t.ex de man har på sin utbilding, sitt jobb, mm. Jag trodde vi pratade om kg100 och k20. Inte om och i och med det var dessa system används till. Och det är inte främst f@h. Även om vi behöver lära os mer om hur protein viker sig. Jag har inget bra svar sry JesperA

Visa signatur

CPU: 5900x. Mem:64GB@3200 16-17-17-34-1T. (ImDIsk)
GPU: 1080 Ti@ca 6-7%OC. Sound: SB-Z -> toslink (DTS)-> old JVC. MB Realtek to Z-2300 for VOIP.

Permalänk
Hedersmedlem
Skrivet av JesperA:

Så vid singel (enkel) precision vore det mest kostnadseffektivt att köra GTX690? Och i dubbel precision tvärt om?

Förutsatt inget annat stör i alla fall. Å andra sidan är GTX 660 Ti ännu bättre (2,6 TFlop/s, 1900 kr)...

Permalänk
Medlem
Skrivet av FL3JM:

Nej. Det är inte ett kort för 3D. Det är ett kort för beräkningar. (Du tänker på Quadro-korten förmodar jag.) Detta kort är för de som håller på med simuleringar och behöver fet beräkningskraft. Funkar säkert för rendering också iofs, men inget man kan se på en skärm då den inte ens har skärmanslutningar.

Sant, my bad.

Visa signatur

Lian-li PC-011 Dynamic Corsair RM750x ROG STRIX X570-E GAMING 5950X NZXT Kraken Z73 32GB Corsair Dominator 3200MHz Gigabyte 6800XT Master Corsair MP600 1TB + Toshiba NVMe 512GB Vertex Pok3r MX Brown Acer Predator XB323UGX Logitech G502+ & Powerplay ...lagrar gör jag på Synology 920 32TB.

Permalänk
Medlem

Man kanske ska köpa ett köra PhysX på.... ; )

Visa signatur

Sugen på att spela lite äldre spel? Glid in på www.braindrainlan.nu och kolla när vi skall ha nästa LAN eller gå med vår Discord för att spela online https://www.braindrainlan.com/

Permalänk

Intressant själv är jag sugen av en server av det lite kraftigare slaget hemma, då min dator i sign duger knappt till excel... (man blir snabb bortskämt från jobbet) Fast det blir att spara pengarna till annat, dessutom kan jag ju använda datorkraft från jobbets servrar hemifrån.

Det skulle annars vara intressant med en artikel om hur man bygger ihop en schysst server för några 100papp, då många av oss bara använder dessa men inte vet så mycket mer. Vi är alltså lite som folk som köper dator på elkejdor, helt omedvetande om vad vi använder..

På tal om inget grafikkortutgång, så brukar man sitta med en slö seg burk typ som den jag har i sign och sedan använda en schysst server som driver sina miljöer, där man på serven för just detta ändamål inte behöver ha något grafikutgång. (även om det kan vara praktisk vid underhåll)

Visa signatur

[Core i7-3930K med 32GB ram, 2*256GB SSD] & [Core i7 3770K med 16 GB RAM, 256GB SSD] som tillsammans har ett [HD 5850 1GB] och 3st 24".

Permalänk
Medlem

Varför stoppar dom inte enbart in kraftfulla CPU:er, istället för att stoppa in dessa kort? Krävs bådeoch? :S

Permalänk
Medlem

duh, GPGPU... vissa kan säkert ha kul med det här, men endast utvecklare skulle jag tippa.... Blir det tillgängligt som en opencl/cuda enhet i datorn kunde man ju använda det för att accelerera lite grejer som vanlig användare också, men är det värt det :S

16 processorkärnor * >19000! Multithreading FTW!

Visa signatur

No man is free who is not master of himself

Permalänk
Entusiast
Skrivet av suffix:

Varför stoppar dom inte enbart in kraftfulla CPU:er, istället för att stoppa in dessa kort? Krävs bådeoch? :S

Prestanda per watt och prestanda per krona är väldigt mycket högre på ett grafikkort. AMD-processorerna i Titan som det pratats en del om i tråden presterar i storleksordningen 100-200 GFLOP/s styck och de har en TDP på 115 W och kostar $850. Ett av grafikkorten i samma server ger mellan 1000-3000 GFLOP/s styck med TDP på 225 W och kostar $3000. Så ett K20 ger ca 5 gånger mer prestanda per watt och mer än dubbelt så mycket prestanda per krona. Då har jag bara tittat på inköpspris på själva enheten. Det blir ju självklart mer kringkostnader med fler noder som extra nätagg, mer RAM, fler moderkort, extra kylning, rackskåp och så vidare om man bara kör CPU. Sen är ju elförbrukningen väldigt intressant här. Titan drar 8 MW vilket i runda slängar motsvarar en elräkning på 10 000 kr i timmen. Så att spara in på elen är väldigt intressant för då kan man spara väldigt mycket pengar.

Nackdelen med att köra på GPU istället är att de bara klarar vissa typer av beräkningar men de beräkningarna är de väldigt bra på. Så det är bara vissa typer av problem som går att räkna med GPU överhuvudtaget. Vidare är det krångligare att skriva kod mot GPU fortfarande även om det håller på att lösa sig sakta men säkert i takt med att kompilatorerna blir bättre och biblioteken blir mer utvecklade.

Visa signatur

Q9450, HD4850, 8 GB DDR2 800 MHz, 3x750 GB, Antec 300, Dell 2408WFP, U2410, Qnap TS-419p+ 4x2 TB Samsung F4, Asus UL30A-QX056V, Logitech Z-680, Sennheiser HD380pro, M-Audio FastTrack Pro, Ibanez sa160qm, Ibanez TB 15R, Zoom 505II, Ibanez GSR 200, Ibanez SW 35, Cort AC-15, Squier SD-3 BBL, Yamaha PSR 270, Røde NT1-A, Nikon D200, Nikkor 18-70/3,5-4,5, 70-300VR, 50/1,8, 28/2,8, Tamron 17-50/2,8, 90/2,8, Sigma 30/1,4, SB-800, SB-25, SB-24

Permalänk
Medlem

där ser man

Permalänk
Inaktiv
Skrivet av suffix:

Varför stoppar dom inte enbart in kraftfulla CPU:er, istället för att stoppa in dessa kort? Krävs bådeoch? :S

Vart ska de koppla skärmen då??

Permalänk
Medlem

[QUOTE=Yoshman;12938793]Är det verkligen ett kap? Antar att 30K betyder runt $3000, jämför vi då Tesla K20 med Xeon Phi så kostar den senare ~$2000 och har ungefär samma teoretiska flyttalsprestanda för DP (double precision), vilket är det jag utgår från att man använder i de flesta vetenskapliga beräkningar, i marknadsföringen tenderar man dock lista SP (single precision) då det värdet är högre och SP räcker oftast i spel. Tesla har dock ~3TFLOPS SP prestanda medan Xeon Phi "bara" har ~2TFLOPS SP.

Och då har vi bara tittat på den teoretiska prestandan. Vilket system tror du är lättast att programmera?

  • Ett system bestående av runt 2500 "stream processors" där man hela tiden måste mata systemet från en "vanlig" CPU

  • Ett system bestående av 60st x86-kompatibla CPU-kärnor som, om man så önskar, kan köra sitt eget OS och hantera sin egen schemaläggning av problem

Xeon Phi är precis som Tesla ett PCIe kort, men den stora skillnaden är att Xeon Phi faktiskt själv kan köra ett OS (Linux stöds officiellt) vilket definitivt förenklar designen på de program som ska köra på systemet. I system som är helt beroende av en koordinerande CPU som i detta fall sitter på andra sidan en PCIe buss kommer det vara extremt svårt att nå den teoretiska prestandan i praktiken, jämför det med flyttalsberäkningar som utförs direkt på CPUn med SSE/AVX där det definitivt är praktiskt möjligt att nå >95% av den teoretiska prestandan då kostnaden för kommunikation är i praktiken noll.[/QUOTE]

[QUOTE=Yoshman;12939065]Många långsamma kärnor är alltid MYCKET svårare att hantera än färre snabba kärnor, så skulle vara väldigt intressant att veta hur nära den teoretiskt prestandan man faktiskt når med ett typiskt CUDA-program. Enda fördelen med många svaga kärnor är att man normalt sett kan nå en betydligt mycket högre aggregerad prestanda med många svaga kärnor jämfört med några få starka kärnor givet en viss ström- och transistor-budget. I detta fall så verkar skillnaden väl liten för att det ska vara värt huvudvärken.

Framförallt så måste CUDA vara ett rejält gissel då det är väldigt likt C medan Fortran fortfarande är väldigt populärt då det är en mycket bättre match vid bl.a. matris-beräkningar jämfört med C. Till Xeon Phi, som i praktiken kör något som är väldigt likt AVX, finns ju redan Fortran-kompilatorer (Intel har en egen sådan). Sedan har Intels C++ kompilator (ICC) har stöd för Xeon Phi + att det finns ett tillägg som kallas Cilk+ som ingår i ICC, Cilk+ lägger till några saker till C/C++ som gör det möjligt för programmeraren att uttrycka vektorer och matris som språk-primitiver (direkt kopierat från Fortran) som i sin tur gör det trivialt för kompilatorn att inse hur den kan köra den koden med SIMD-instruktioner.

Tesla har ju en till svaghet jämfört med Xeon Phi i det att en GPU kan i praktiken bara hantera problem som är data-parallella (vilket t.ex. matris-beräkningar är och det är den form av parallellism som SSE/AVX/NEON/AltiVec är designade för). Men det är bara en form av parallellism som finns, den andra är instruktions-parallella system som är den form av parallellism som de flesta kanske tänker på då det är vad man har i multitrådade program som kör på "vanliga" CPU:er. Skulle tro att Xeon Phi får rejält med stryk av en "vanlig" CPU på instruktions-parallella problem, men det är i alla fall möjligt att hantera sådant med en rimlig effektivitet.[/QUOTE]

[QUOTE=Yoshman;12939138]Men tror du inte det är lättare att hitta programmerare som kan hantera relativt gamla och etablerade språk som C och Fortran än att hitta programmerare som kan hantera CUDA eller OpenCL? Fördelen med att skriva för etablerade språk är ju att man inte blir låst till en specifik leverantör på samma sätt som om man skriver allt för CUDA. Nu tror jag inte det är ett problem för superdatorer, då man tydligen är ganska "van" i de kretsarna att få skriva om rätt stora delar av sin programvara för att hantera de ganska radikala HW-designerna man jobbar med. Men för lite mer "vanlig" användning blir det en väldigt stor kostnad att vara tvungen att skriva om stora delar av systemet i det läget att man vill/måste byta HW-leveratör.

Vad det gäller Fortran blev jag själv ganska överraskad över hur mycket det används inom vissa specifika områden. Framförallt hade jag lite svårt att se varför Intel lägger ner rätt mycket resurser på sin Fortran-kompilator, men inser nu att det just inom vissa typer av beräkningsintensiva områden som Fortran fortfarande är det bästa (mest effektiva) språk man har just p.g.a. att det är lätt att extrahera data-parallellism ur sådan kod.[/QUOTE]

Som jag har förstått det så är de största problemen inom HPC energibudgeten. Att flytta data inom en normal CPU är mycket dyrare än att göra det samma på en GPU. När man sedan har med saker som spekulativ exekvering och liknande saker så blir CPUn vansinnigt dyr i drift (energi per operation).

Parallellisering verkar vara den väg framåt som finns på prestandaplanet. I och för sig så fungerar säkert saker som Xeon Phi bra när det gäller att snabba på vissa saker i en arbetsstation, men den kommer inte fungera i större skala. Dessutom så är det väl inte vettigt att välja bort prestanda för att vissa utvecklare har svårt att tänka parallellt? Det behövs helt klart bättre verktyg för att få området att flyta på, men också att man är villig att lära sig tänka på ett nytt sätt.

När det gäller att inte låsa sig till hårdvaruleverantör så löser C++ AMP en del problem (mot en viss prestanda förlust har jag för mig).

Bill Dally höll årets Celsiusföreläsning om det här kortet och dess släktingar. Han pratade också en del om vilka nya verktyg som behövs för att kunna flytta många av de tunga CPU-funktionerna från hårdvara till mjukvara. Mycket intressant och går att se på UUs hemsida.

Visa signatur

.<

Permalänk
Entusiast
Skrivet av oelrich:

Som jag har förstått det så är de största problemen inom HPC energibudgeten. Att flytta data inom en normal CPU är mycket dyrare än att göra det samma på en GPU. När man sedan har med saker som spekulativ exekvering och liknande saker så blir CPUn vansinnigt dyr i drift (energi per operation).

Parallellisering verkar vara den väg framåt som finns på prestandaplanet. I och för sig så fungerar säkert saker som Xeon Phi bra när det gäller att snabba på vissa saker i en arbetsstation, men den kommer inte fungera i större skala. Dessutom så är det väl inte vettigt att välja bort prestanda för att vissa utvecklare har svårt att tänka parallellt? Det behövs helt klart bättre verktyg för att få området att flyta på, men också att man är villig att lära sig tänka på ett nytt sätt.

När det gäller att inte låsa sig till hårdvaruleverantör så löser C++ AMP en del problem (mot en viss prestanda förlust har jag för mig).

Bill Dally höll årets Celsiusföreläsning om det här kortet och dess släktingar. Han pratade också en del om vilka nya verktyg som behövs för att kunna flytta många av de tunga CPU-funktionerna från hårdvara till mjukvara. Mycket intressant och går att se på UUs hemsida.

Fast det är rätt få laster som går att parallellisera så extremt så att det är lönt att köra på grafikkort. Det är i princip bara sakers om klassas som embarrassingly parallel (http://en.wikipedia.org/wiki/Embarrassingly_parallel) som är lönt att dela på på grafikkort och de är relativt få.

Mycket går att ljuda in lite parallellt till några trådar men att ta steget från en tråd till fyra är inte samma sak som att gå från fyra till 2000 som krävs för att ett grafikkort ska vara relevant.

Värt att notera är att en Xeon Phi i många lägen ska kunna köra gammal kod rakt av utan att ens behöva kompilera om den. Kör man ett varv i en ny kompilator, Intel har lagt in stöd i sin kompilator för FORTRAN som är en av de bästa på markanden, så får du automagiskt bättre prestanda. Till Tesla måste du skriva om massa kod för att då det att fungera. Det kostar också pengar. Det är svårt att komma ifrån att Tesla i grunden är ett grafikkort som Nvidia har försökt bygga om till något annat medan Phi är ett kort designat för parallella beräkningar.

Ett trevligt exempel som jag har lite insyn i och som är något av det mest prestandakrävande man kan hålla på med är Computational Fluid Dynamics (CFD). En av de största mjukvarorna där är Ansys Fluent och det skalar ganska linjärt upp till 100 kärnor. När du är uppe på 1000 kärnor får du "bara" 450 gånger mer prestanda än en kärna. CFD-beräkningar är extremt tunga och som du ser så kan man bara mata ungefär ett halvt grafikkort parallellt med en tyngre CFD-beräkning. Där skulle ett Xeon Phi vara bättre än ett Tesla men inget slår kraftiga processorer. Det forskas mycket på CFD och tekniken skulle kunna användas till hur mycket som helst. Det enda som begränsar är idag processorkraften som inte på långe vägar räcker till för att göra det man vill.

Visa signatur

Q9450, HD4850, 8 GB DDR2 800 MHz, 3x750 GB, Antec 300, Dell 2408WFP, U2410, Qnap TS-419p+ 4x2 TB Samsung F4, Asus UL30A-QX056V, Logitech Z-680, Sennheiser HD380pro, M-Audio FastTrack Pro, Ibanez sa160qm, Ibanez TB 15R, Zoom 505II, Ibanez GSR 200, Ibanez SW 35, Cort AC-15, Squier SD-3 BBL, Yamaha PSR 270, Røde NT1-A, Nikon D200, Nikkor 18-70/3,5-4,5, 70-300VR, 50/1,8, 28/2,8, Tamron 17-50/2,8, 90/2,8, Sigma 30/1,4, SB-800, SB-25, SB-24