Hjälp med val av hårdvara till beräkningskluster, budget 200 000:-

Permalänk
Medlem

Hjälp med val av hårdvara till beräkningskluster, budget 200 000:-

Som rubriken lyder så har jag fått ansvaret att ge lite förslag på inköp av ett mindre beräkningskluster. Beräkningarna som kommer att utföras är uteslutande CFD-simuleringar, främst med NIST FDS samt Ansys CFX, men även lite andra så som fireFOAM (openFOAM) och ISIS. Dessa program är främst tunga för processor samt RAM, skrivning sker till hårddisk men jag skulle gissa på att skillnaden mellan en 15k RPM-disk och en 7200 RPM disk är liten (har sett siffror kring 5 %), men har någon annan mer erfarenhet uppskattas kommentarer.

Noderna kommer att utbyta data under simuleringarna (mellan varje tidssteg med FDS, de övriga är jag osäker) men ett 1 Gbps-nätverk ska räcka, så några speciallösningar/interface för kommunikation mellan noderna krävs ej. De kommer att prata med varandra via OpenMPI alternativt MPICH-2 och eventuellt kommer arbetsfördelningen inom varje nod ske via OpenMP (mer experimentellt i nuläget).

Maskinerna kommer inte användas till att hantera utdata så kraven på grafikkort är minimala, kommer endast att krävas vid installation som inte går att göra via fjärrkörningar.

Operativsystem lutar åt Ubuntu i nuläget, främst för att jag inte är någon stjärna på linuxsystem och tycker det är bekvämt med ett GUI, men även då andra skall kunna handha systemet (främst studenter med olika nivå på förkunskaper). Andra förslag mottages gärna!

RAM-minne skall vara minst 2 GB/kärna, hårddisk räcker med 500 GB/nod (eventuellt kommer en nod ha ett par TB där alla simuleringar lagras/körs ifrån), är även öppen för en lösning utan diskar på slav-noder och istället OS på USB-minne eller liknande.

Budget ligger väl kring max 200 000:-, smidigast för er är väl att sätta ihop en nod alternativt pris/kärna sen får man se vad som ryms innanför budgeten

Själv har jag spånat på dessa två varianter (allt i från Komplett.se, men det spelar ingen roll var inköpet sker) :

i7-baserad, totalpris ca 3200:-/kärna:

439503 ASUS P6T SE, X58, Socket-1366 DDR3, ATX, Firewire, GbLAN, 3xPCI-Ex(2.0)x16
318259 Chieftec 19" 4U UNC-410F-B-500, 500W ATX/EPS PSU, Till EATX Motherboards
478999 Corsair Value S. DDR3 1333MHz 2GB CL9 Unbuffered, CL9-9-9-24, 240pin, 1.5V
586108 Intel Core™ i7 Quad Processor i7-930 Quad Core, 2.8Ghz, Socket 1366, 8MB, 130W, Boxed w/fan
494479 Lite-On DVD+RW burner IHAS124-19 SuperAllWrite, 24x8x16DVD+RW, SATA, Black
434121 Sapphire Radeon HD 4350 512MB DDR2 PCI-Express 2.0, DVI-I, HDMI, HDCP, Heatsink, w/LP bracket, Lite-Retail
331024 Western Digital Caviar SE16 500GB SATA2 16MB 7200RPM

Xeon-baserad, totalpris ca 3630:-/kärna:
448676 ASUS Z8PE-D12X, Intel 5520 2xSocket-1366, 12xDDR3, 2xGbLAN, PCI-Ex(2.0)x16, E-ATX
318259 Chieftec 19" 4U UNC-410F-B-500, 500W ATX/EPS PSU, Till EATX Motherboards
445228 Crucial DDR3 1333MHz 12GB KIT REG/ECC Kit w/3x DDR3 4GB, 240pin, CL9, 1.5V, 512x72
486176 Intel Xeon™ E5520 2,26GHz LGA 1366, 8MB, 5,8 GT/sec, without FAN
494479 Lite-On DVD+RW burner IHAS124-19 SuperAllWrite, 24x8x16DVD+RW, SATA, Black
331024 Western Digital Caviar SE16 500GB SATA2 16MB 7200RPM

Fördelen med att köra Xeon är att man kan ha 2 processorer i varje nod vilket sparar plats, dock så är jag ganska säker på att i7-930 är snabbare än Xeon E5520. Prisskillnaden mellan de olika systemen blir inte heller så stor då i7-systemet kräver dubbelt så många chassin, hårddiskar, dvd-läsare, grafikkort samt moderkort.

Alla tips mottages, även AMD-system, dock verkar de inte vara så aktuella då maximal CPU-prestanda är högst på listan. Kommer nog även att bli lite överklockning för att få mer prestanda för pengarna

Permalänk
Medlem

hmm

200 000 kr verkar vara lite saftigt?

Visa signatur

5800x3D . 6900 XT . 16gb ddr4 . NR200p

Permalänk
Medlem

Ja det är inte jag som kommer att betala ur egen ficka, så se det absolut inte som någon skryttråd

Permalänk
Medlem
Skrivet av edzy:

200 000 kr verkar vara lite saftigt?

verkar ju som personen fått ansvaret från en högskola/universitet

Permalänk
Medlem

Ja om det är av intresse så är jag doktorand vid LTH inom brandteknik med inriktning på just CFD-beräkningar, så detta kommer vara ett verktyg för avdelningen och studenter. Vi har även tillgång till LUNARC (Welcome to Lunarc — Lunarc) men där kan stundtals vara långa kötider så ett mindre system som vi alltid har tillgång till hade varit trevligt. Dessutom kan man i större utsträckning påverka programvaran som är tillgänglig.

Permalänk

eftersom du sammanställer pris/kärna så verkar det vara antalet kärnor som är intressant, alltså den parallella beräkningskraften. men du tittar inte på cpu med fler än 4 kärnor. sen verkar de valda minnena vara lite knas också, såvida vi inte ser antal paket. hur stort krav har ni på minnesbandbredd? dvs. dual channel vs. tripple channel.

om du väljer den enklare 6-kärniga från AMD kan du komma ner under 1500 kr/kärna med 2,67 GB ram/kärna. dock utan 19" case och nätagg. hur ser kravet ut på hastighet för varje kärna?

om du hade någon rankning av vilka krav som är viktigast eller i vilken ordning som specen bör uppfyllas blir det enklare och ni gör ett bättre köp.

Visa signatur

i5 750, asrock p55 extreme, corsair 4 gb 1600 mhz, hd5850, spinpoint f3, chieftec 750 w modulärt, fd define r2, 2 x 22"
hp nc8430 - asus eeepc 901 - mediaserver 2.4 GHz

Permalänk
Medlem

Nja, det var mer ett enkelt sätt att få ett jämförbart pris mellan olika system, kanske lite missledande Tyvärr är det främst använda programmet (FDS) rätt dåligt på skalbarhet, dvs tiden minskar inte linjärt med antalet kärnor på långa vägar, efter 12-16 kärnor blir det tveksam vinst. Fördelen med fler kärnor är att man kan köra flera olika fall samtidigt eller allokera mer totalt RAM. Fördelningen av arbetet till varje kärna sker dessutom manuellt av användaren, dvs fler kärnor jobbigare indelning av beräkningsdomänen. Av denna anledning så spelar nog CPU-hastighet störst roll. Det var därför jag tänkte att ett i7-system skulle vara bättre än ett Xeon-system i samma prisklass även om det tar mer plats. För en quad Xeon-processor i 2.8 GHz är ju bra mycket dyrare än en i7. Men samtidigt kanske skulle man kunna slippa viss inormationsbyte via nätverk då det finns 8 kärnor i samma burk med ett Xeon system. Därför hade det varit kul om någon annan har lite fler erfarenheter av samma typ/liknande av beräkningar.

Ja antalet minnesstickor kom inte alls med i listorna ovan, men jag har för mig att det slutade på 3 GB/kärna på båda två systemen, det var mest för att visa vilka komponenter jag spånat på. Vad gäller minnesbandbredd har den viss betydelse men tror inte det är avgörande. Har läst runt lite och hittat att minnesbandbredden kan kanske bli en flaskahls då många kärnor skall dela på samma bandbredd, dvs detta skulle kunna vara aktuellt med ett Xeon-system, jag är dock inte säker. All information i varje iteration/tidssteg lagras i RAM-minnet och skrivs på hårddisk samt skickas mellan noder (via nätverk) med järman mellanrum, båda dom två är långsammare än RAM. Det är viktigare med stor mängd då 20-30 GB kan användas vid en större beräkning.

Permalänk
Medlem

Du borde ta en titt på Itanium. Eller kanske använda GPU som beräkningskraft om ni ska programmera beräkningarna själva så kanske ni kan utnyttja det?

Kruxet när man bygger paralelldatorer brukar vara höghastighetsbussen mellan moderkorten/enheterna.

Ta också en titt på hur man konstruerar blade-system.

Visa signatur

/ Q9550 / HD5870 Vapor-X / 2x80GB SSD / 4GB Corsair 800MHz / Gigabyte EP45-DS3L / Cougar CM 700W modular / Compucase 6A21 / HP L2245w / Logitech Illuminated / Logitech G5 v2 /

Permalänk
Medlem

CUDA eller OpenCL lämpar sig nog inte till denna typen av beräkningar, främst för att inget av programmen är skrivna på det sättet i dagsläget (och det verkar inte vara på gång inom det nämsta heller).

Som sagt, ett 1000 Mbps-nätverk fungerar tillfredställande enligt tidigare artiklar/rapporter. Har sett jämförelser med "superdatorer" med, som du nämner, särskilda interface för kommunikation mellan noderna, och det är inte värt pengarna i vårt fall, om det tar 12 eller 14 dagar kan ofta kvitta.

Det kluster som jag använder mig utav nu består av Intel Xeon E5520 @ 2.26 Ghz (2 per nod) samt 24 GB RAM/nod. Detta fungerar tillfredställande, men nu när man har möjligheten att konfigurera själv så är det lika bra att undersöka om det kan bli bättre.

Någon som vet mer exakt skillnad mellan Xeon 55XX och i7-9XX (förutom ECC-minnen, möjlighet att ha två processorer på ett moderkort)? Är en högre klockad i7 alla gånger snabbare än en Xeon? Har sett lite benchmarks som indikerar detta, men mottar gärna mer detaljerad information.

Permalänk

det skulle i så fall vara någon instruktionsuppsättning, men har inte koll.

då har vi kommit ner till att varje testsystem bör ha max 12-16 kärnor som var för sig är snabba. då är frågan hur många testsystem/fall som är reellt? kommer det köras 2 parallella simuleringar/fall eller 6? hur många orkar du administrera parallellt?

du nämner att klustret kommer användas av elever. hur många kärnor klarar de av att konfigurera? fler än 4? kan ni köra 2 olika fall på samma nod? om inte så ligger 4 kärnor oanvända i noden när elever använder klustret om ni kör på dubbla xeon.

socket 1366 verkar passande inte minst för att det finns plats för 6 ram-minnen så ni får upp mängden minne och även breddar minnesbussen.

där har du några fler frågor att svara på som ger mer precis information om var avvägningen mellan antal kärnor och hastighet på kärnorna bör ligga.

Visa signatur

i5 750, asrock p55 extreme, corsair 4 gb 1600 mhz, hd5850, spinpoint f3, chieftec 750 w modulärt, fd define r2, 2 x 22"
hp nc8430 - asus eeepc 901 - mediaserver 2.4 GHz

Permalänk
Medlem

När jag jämförde CPU:er för DAW så upptäckte jag att 8 kärnor Xeon var lika snabbt som 6 kärnor i7, det finns Xeon med 6 kärnor med som kostar och presterar ungefär lika med 6-kärnig i7. (Och 6 kärnor X6 presterar ungefär lika med 4 kärnor i7.)

EDIT: Jag räknar på ren beräkningskapacitet och förutsätter att koden är optimerad.

Den enda skillnaden jag vet om mellan Xeon och i7 är ECC och att man kan ha två på ett moderkort.

EDIT2: Jag skulle säga att det är prisvärdast att vänta på billigare 6-kärniga i7/Xeon om det inte tar för lång tid. Kan man vänta länge kan man ju vänta på AMD Bulldozer.

Visa signatur

/ Q9550 / HD5870 Vapor-X / 2x80GB SSD / 4GB Corsair 800MHz / Gigabyte EP45-DS3L / Cougar CM 700W modular / Compucase 6A21 / HP L2245w / Logitech Illuminated / Logitech G5 v2 /

Permalänk
Medlem
Skrivet av foxanimal:

det skulle i så fall vara någon instruktionsuppsättning, men har inte koll.

då har vi kommit ner till att varje testsystem bör ha max 12-16 kärnor som var för sig är snabba. då är frågan hur många testsystem/fall som är reellt? kommer det köras 2 parallella simuleringar/fall eller 6? hur många orkar du administrera parallellt?

du nämner att klustret kommer användas av elever. hur många kärnor klarar de av att konfigurera? fler än 4? kan ni köra 2 olika fall på samma nod? om inte så ligger 4 kärnor oanvända i noden när elever använder klustret om ni kör på dubbla xeon.

socket 1366 verkar passande inte minst för att det finns plats för 6 ram-minnen så ni får upp mängden minne och även breddar minnesbussen.

där har du några fler frågor att svara på som ger mer precis information om var avvägningen mellan antal kärnor och hastighet på kärnorna bör ligga.

Som sagt så blir det nog så många som budgeten klarar, reellt innebär detta väl mellan 16-48 kärnor totalt (tom 64 skulle nog rymmas med ett i7-system, men rummet som sakerna kommer placeras i är inget dedikerat serverrum så det kan bli lite väl varmt, är dock bättre ventilation/kylning än i normal kontorsmiljö).

Det är inte särskilt jobbigt att administrera flera körningar, det vanligaste kommer vara att ett jobb startas med mpirun eller mpiexec och en scriptfil som specificerar vad som skall köras. Hade dock varit skönt med en programvara som själv väljer vilka kärnor som är lediga (så fungerar LUNARC), så som jag använt det innan specificerar man antalet kärnor som skall användas på varje nod, dvs enkelt och lätt att hålla reda på med få noder, jobbigare med många jobb igång. Förslag på sådan programvara uppskattas, just nu lutar det åt TORQUE Resource Manager.

Det beror väldigt mycket på geometrin som används, men maximalt 8-12 är ett rimligt antagande. Jag ser inga större problem med att 3 kärnor kan användas till ett jobb och en kärna till ett annat på samma nod, om man verkligen vill ha maximal prestanda så kan man kräva det i batch systemet (TORQUE). Så inga kärnor kommer att bli tvingade till vila Antalet jobb som kommer köras samtidigt styrs endast av tillgång, ju fler desto bättre.

Ja det är väl i princip därför jag också är inne på i7, klarar mer RAM än AMD Phenom II X6 1090T Black Edition (har bara sett moderkort med 4 DIMM-slots, beror väl på Dual Channel), minnesbandbredd bör inte bli ett problem (som det eventuellt skulle kunna bli med ett dual Xeon-system), och en i7 har bättre prestanda för samma pengar jämfört med Xeon (då frekvensen är lägre vid samma priser) och AMD Phenom II.

@stabilt: Ja det skulle kunna vara ett alternativ att vänta på sexkärniga i7, det skulle ju dra ner antalet fysiska rack/burkar man måste ha stående. Har du sett några tester eller förhandstittar på dessa som man kan läsa?

Permalänk
Medlem
Skrivet av rufio:

@stabilt: Ja det skulle kunna vara ett alternativ att vänta på sexkärniga i7, det skulle ju dra ner antalet fysiska rack/burkar man måste ha stående. Har du sett några tester eller förhandstittar på dessa som man kan läsa?

Nej jag har inte sett några tester, jag bara antar att de kommer hålla jämna steg med 980X som har högre beräkningskapacitet per kärna vid samma frekvens än 4-kärniga i7. Enligt de benchmarks jag sett. Det kanske är ett felaktigt antagande? Jag hoppas att den 6-kärniga instegsmodellen kommer vara konkurenskraftig i pris mot 930.

Visa signatur

/ Q9550 / HD5870 Vapor-X / 2x80GB SSD / 4GB Corsair 800MHz / Gigabyte EP45-DS3L / Cougar CM 700W modular / Compucase 6A21 / HP L2245w / Logitech Illuminated / Logitech G5 v2 /