Inom datacenter och superdatorer är rejäl kapacitet för flyttalsberäkningar av yttersta vikt idag. Dessa används för beräkningar inom maskininlärning, artificiell intelligens, vetenskapliga beräkningar och mer därtill. Av denna anledning har företag som Intel och Nvidia investerat stort på just detta, där Nvidias datacenterkortet A100 och Intels kommande konkurrent Xe-HP fokuserar till stor del på just flyttalsberäkningar.

Manitcore_678x452-1.png

Manticore från Hot Chips 2020-mässan.

ManticoraTHoFFB1607.png

Manticore från fablernas värld.

Utvecklingen inom flyttalsberäkningar sker huvudsakligen för X86 och i mindre utsträckning ARM på processorsidan, och är ett fokusområde i nya grafikkortsgenerationer för datacenter från företag som Nvidia och AMD. Under teknikmässan Hot Chips demonstrerar forskare vid universitet ETH Zurich processorn Manticore. Den bygger på instruktionsuppsättningen RISC-V och ämnar visa att denna lämpar sig väl för att bygga prestandaeffektiva processorer för flyttalsberäkningar.

Namnet Manticore kommer dels från en best i fablernas värld som består av en spretig samling skräckinjagande delar, och dels anspelar det på manycore-konceptet med stora mängder kärnor på en och samma processor. Namngivningen är passande då processorkonceptet som beskrivs består av 4 096 processorkärnor vilka huserar på fyra separata kretsar.

Manticore_678x452-2.jpg
Manticore_678x452-3.jpg
Manticore_678x452-4.jpg

Dessa de fyra kretsarna är 222 mm² stora vardera och ansluts till varandra via kommunikationslänkar som jobbar över flera kanaler, där deras arbete kan synkroniseras sinsemellan. Varje individuell krets bestyckas med 8 GB HBM2-minne och är designade för att tillverkas på Globalfoundries 22-nanometersteknik.

Det stora antalet kärnor delas in i 32 kluster, vilka i sig tar plats på de fyra kretsarna som kallas kvadranter. Totalt sett kan de utföra 16 beräkningar med dubbelprecision per klockcykel, och 32 beräkningar med enkelprecision per klockcykel. Processorklustren körs i klockfrekvensen 1 GHz och samtliga kvadranter ansluter till ett gemensamt L2-cacheminne på 27 MB, och varje individuell kvadrant delar också ett gemensamt L1-cache.

Manticore_678x452-5.jpg
Manticore_678x452-6.jpg
Manticore_678x452-7.jpg
Manticore_678x452-8.jpg

När klustren av kärnor kommunicerar med varandra över kommunikationslagret på den lägsta nivån i processorns hierarki uppnås bandbredd om 64 TB/s mellan kvadranterna. På en högre nivå där kvadranterna ska kommunicera med HBM2-minnet uppnås bandbredd om 1 TB/s. Varje individuell kärna är utrustad med en SIMD-enhet som kan hantera flera olika dataformat, och stöd för flyttalsberäkningar med reducerad precision (FP8) stöds också.

Sett till kärnornas struktur är de förhållandevis enkla och avskalade, där funktioner för flyttalsberäkningar (FPU) upptar en större del av kärnans totala transistorbudget än i konventionella processorkärnor. Syftet med detta är att uppnå en högt parallelliserad beräkningskapacitet, utan att tumma på kapaciteten för beräkningar av flyttal. Kärnorna kan även hantera hel- och flyttalsberäkningar samtidigt (eng. dual issue).

Möjligheten att utföra båda dessa typer av beräkningar innebär att det blir mindre sannolikt att kärnorna är inaktiva, då de kan tilldelas hel- eller flyttalsuppgifter beroende på vilken uppsättning uppgifter processorn bearbetar för tillfället. Enligt forskarnas uppgifter ska detta leda till resursutnyttjande om 80 procent för minnesintensiva uppgifter, och 90 procent utnyttjande för generella uppgifter (eng. compute).

Manticore_678x452-10.jpg
Manticore_678x452-11.jpg
Manticore_678x452-12.jpg

Allt detta ger en processor som i teorin kan prestera 27 teraflops i dubbelprecision, något som står sig väl mot de 9,7 teraflops Nvidias Ampere-baserade datacenterkort A100 presterar. Manticore representerar dock i dagsläget en teoretisk design, men den är inte utan praktiskt bevis. Forskarna har producerat en prototyp som kombinerar tre kluster med åtta kärnor vardera med en enklare kommunikationsväv som ger 2,5 GB/s bandbredd mellan klustren.

I en frågestund efter presentationen under Hot Chips förklarar forskarna bakom Manticore att de inte ämnat att skapa kommersiella produkter som implementerar den fullständiga kapaciteten med 4 096 kärnor. Syftet har istället varit att demonstrera att det är möjligt att skapa stora uppsättningar RISC-V-kärnor med god och energieffektiv kapacitet för flyttalsberäkningar.

Läs mer om RISC-V: