Hur bra är egentligen Chat GPT på att koda? Den frågan ställde sig forskarna bakom en studie vars resultat nyligen publicerades i tidskriften IEEE Transactions on Software Engineering.

I studien fick GPT-3.5 sätta tänderna i 728 kodningsproblem i olika svårighetsgrader från Leetcode-plattformen i fem programmeringsspråk: C, C++, Java, Javascript och Python.

Vad beträffar de enklare problemen löste Chat GPT dem 89 procent av gångerna. För medelsvåra och svåra problem var siffrorna 71 respektive 40 procent. Det gällde dock bara problem som fanns på Leetcode före 2021. När Chat GPT försökte lösa problemen som tillkommit på Leetcode efter 2021 gick det desto sämre – de svåra problemen löstes bara i 0,66 procent av försöken.

Den enklaste förklaringen till detta är att Chat GPT ursprungligen tränades på data fram till 2021 och att kunskapsbasen inte utökades förrän i slutet av 2023. Problemen från 2021 och tidigare har alltså förekommit oftare bland den data som Chat GPT tränat på.

Forskarna noterade också att Chat GPT var bättre på att rätta mänskliga fel än sina egna, fastän den Chat GPT-genererade koden inte sällan innehöll sårbarheter, som avsaknad av null-test.