Citat:
Ursprungligen inskrivet av oelrich
Som jag har förstått det så är de största problemen inom HPC energibudgeten. Att flytta data inom en normal CPU är mycket dyrare än att göra det samma på en GPU. När man sedan har med saker som spekulativ exekvering och liknande saker så blir CPUn vansinnigt dyr i drift (energi per operation).
Parallellisering verkar vara den väg framåt som finns på prestandaplanet. I och för sig så fungerar säkert saker som Xeon Phi bra när det gäller att snabba på vissa saker i en arbetsstation, men den kommer inte fungera i större skala. Dessutom så är det väl inte vettigt att välja bort prestanda för att vissa utvecklare har svårt att tänka parallellt? Det behövs helt klart bättre verktyg för att få området att flyta på, men också att man är villig att lära sig tänka på ett nytt sätt.
När det gäller att inte låsa sig till hårdvaruleverantör så löser C++ AMP en del problem (mot en viss prestanda förlust har jag för mig).
Bill Dally höll årets Celsiusföreläsning om det här kortet och dess släktingar. Han pratade också en del om vilka nya verktyg som behövs för att kunna flytta många av de tunga CPU-funktionerna från hårdvara till mjukvara. Mycket intressant och går att se på UUs hemsida.
Fast det är rätt få laster som går att parallellisera så extremt så att det är lönt att köra på grafikkort. Det är i princip bara sakers om klassas som embarrassingly parallel ( http://en.wikipedia.org/wiki/Embarrassingly_parallel) som är lönt att dela på på grafikkort och de är relativt få.
Mycket går att ljuda in lite parallellt till några trådar men att ta steget från en tråd till fyra är inte samma sak som att gå från fyra till 2000 som krävs för att ett grafikkort ska vara relevant.
Värt att notera är att en Xeon Phi i många lägen ska kunna köra gammal kod rakt av utan att ens behöva kompilera om den. Kör man ett varv i en ny kompilator, Intel har lagt in stöd i sin kompilator för FORTRAN som är en av de bästa på markanden, så får du automagiskt bättre prestanda. Till Tesla måste du skriva om massa kod för att då det att fungera. Det kostar också pengar. Det är svårt att komma ifrån att Tesla i grunden är ett grafikkort som Nvidia har försökt bygga om till något annat medan Phi är ett kort designat för parallella beräkningar.
Ett trevligt exempel som jag har lite insyn i och som är något av det mest prestandakrävande man kan hålla på med är Computational Fluid Dynamics (CFD). En av de största mjukvarorna där är Ansys Fluent och det skalar ganska linjärt upp till 100 kärnor. När du är uppe på 1000 kärnor får du "bara" 450 gånger mer prestanda än en kärna. CFD-beräkningar är extremt tunga och som du ser så kan man bara mata ungefär ett halvt grafikkort parallellt med en tyngre CFD-beräkning. Där skulle ett Xeon Phi vara bättre än ett Tesla men inget slår kraftiga processorer. Det forskas mycket på CFD och tekniken skulle kunna användas till hur mycket som helst. Det enda som begränsar är idag processorkraften som inte på långe vägar räcker till för att göra det man vill.
__________________
Q9450, HD4850, 8 GB DDR2 800 MHz, 3x750 GB, Antec 300, Dell 2408WFP, U2410, Qnap TS-419p+ 4x2 TB Samsung F4, Asus UL30A-QX056V, Logitech Z-680, Sennheiser HD380pro, M-Audio FastTrack Pro, Ibanez sa160qm, Ibanez TB 15R, Zoom 505II, Ibanez GSR 200, Ibanez SW 35, Cort AC-15, Squier SD-3 BBL, Yamaha PSR 270, Røde NT1-A, Nikon D200, Nikkor 18-70/3,5-4,5, 70-300VR, 50/1,8, 28/2,8, Tamron 17-50/2,8, 90/2,8, Sigma 30/1,4, SB-800, SB-25, SB-24
|