Det vi vanligen får höra är att AI baserad på så kallade stora språkmodeller kräver enorma datacenter för att tränas. Även att köra dem kräver normalt en dator med kraftfullt grafikkort eller en modern NPU. Men det är vanskligt att dra alla modeller över en kam.
Forskare på organisationen EXO Labs har nämligen lyckats köra en chattbot baserad på Metas öppna källkod-modell Llama-2 på en dator med Pentium 2-processor på 350 MHz, 128 MB arbetsminne och Windows 98.
Modellen i fråga bygger på Andrej Karpathys Llama2.c, och forskarna använde en modell med 260 000 parametrar, rapporterar Techspot. Det kan jämföras med till exempel GPT-4 som har över en biljon parametrar.
Efter att ha tampats med att få den moderna koden att köra på det gamla operativsystemet tuffade modellen på med 39,31 token per sekund. Med en modell med 15 miljoner parametrar sjönk hastigheten till 1,03 token per sekund. En modell med 7 miljarder parametrar blev dock betydligt långsammare och hasade sig fram med 0,0093 token per sekund.
I ett blogginlägg skriver forskarna om hur de gick till väga. Att det alls är möjligt beror på utvecklingen av en teknik som kallas Bitnet. Det är en typ av transformer som istället för flyttalsvärden för vikter använder värdena 1, 0 eller −1. Det innebär att matrismultiplikation förvandlas till addition och subtraktion, vilket även äldre processorer kan göra relativt snabbt.
På en dator med en modern processor kan en Bitnet-baserad modell med 100 miljarder parametrar som körs på CPU:n hålla en hastighet på 5–7 token per sekund, vilket räcker för att hålla en konversation med en chattbot.