Programmerare besegrar Chat GPT i kodmaraton

Permalänk
Melding Plague

Programmerare besegrar Chat GPT i kodmaraton

Tävlingen hölls i Tokyo och Przemysław Dębiak vann efter 10 slitiga timmar.

Läs hela artikeln här

Visa signatur

Observera att samma trivselregler gäller i kommentarstrådarna som i övriga forumet och att brott mot dessa kan leda till avstängning. Kontakta redaktionen om du vill uppmärksamma fel i artikeln eller framföra andra synpunkter.

Permalänk
Medlem

Skönt se en AI bli slagen av en människa

Permalänk
Medlem
Skrivet av HazZarD:

Skönt se en AI bli slagen av en människa

Don’t get used to it

Visa signatur

Krusidullen är stulen

Permalänk
99:e percentilen

Men också: ChatGPT besegrade elva av tolv elitprogrammerare i kodmaraton. ¯\_(ツ)_/¯

Visa signatur

Skrivet med hjälp av Better SweClockers

Permalänk

Det här påminner om Kasparov på 90-talet.

Permalänk
Medlem

Undrar vad energiförbrukningen landade på.

Przemysław 2 kWh - AI-modellen några hushålls årsförbrukning?

Oavsett imponerande att det har kommit så långt

Visa signatur

Solen i africa! Hjälp snabbt. Tävling i klassen!
Det var High noon.
Om solen i Africa en truckförare kommer från East till Weast på huvudvägen. och exact vid eqvatorn vid Africa. Landskapet är totalt slät. På en tidpunkt var solen så ett par telestolpar gjorde så att det blev skugga.
3 gissar jag på, men kan inte förklara?

Permalänk
Skrivet av HazZarD:

Skönt se en AI bli slagen av en människa

Den känner sig inte alls trött och kan fortsätta många timnar till.

Permalänk
Medlem
Skrivet av glemmy:

Undrar vad energiförbrukningen landade på.

Przemysław 2 kWh - AI-modellen några hushålls årsförbrukning?

Oavsett imponerande att det har kommit så långt

Du får räkna med 10 timmars energibehov för Przemysław också. Gemene man behöver 2 700 kalorier per dag enligt Livsmedelsverket. Det blir 1,3 kWh för 10 timmar. Totalt alltså 3,3 kWh. Inte så stor skillnad men ändå!

Enligt MIT Technology Review verkar ChatGPT dra 1 kJ per svar.

Enligt dessa beräkningar motsvarar Przemysławs 10 timmar ungefär 12 000 frågor till ChatGPT.

Säkert helt fel

Permalänk
Medlem

"The contest echoes the American folk tale of John Henry, the steel-driving man who raced against a steam-powered drilling machine in the 1870s."

Kände inte till den myten men tar tröst i att det är rätt många människor på järnvägsbyggen fortfarande och inga ångdrivna borrmaskiner.

Permalänk
Medlem

Människor >> AI, fortfarande.

Tom. i mjukvarudesign och implementering, härligt att se.

Visa signatur

|[●▪▪●]| #Monster Battle Station(tm)#: Ryzen 3700X >-< GB-X570-AE >-< 32GB RAM >-< RTX 4070S >-< Crucial 2TB SSD |[●▪▪●]|

Permalänk
Medlem
Skrivet av RHWarrior:

Människor >> AI, fortfarande.

Tom. i mjukvarudesign och implementering, härligt att se.

Du menar 1 människa utav 12 av de högst rankade programmerarna i Atcoders slog en AI medans resten blev utslagna?
Och det faktum att AIn kan fortsätta oändligt jämfört med den enda människa som lyckades var "”helt utmattad, knappt vid liv”, "

Permalänk
Medlem

Här jobbat som programmerare i 19 år och det mesta man gör är ändå att debugga gammal kod och merga. Det roligaste är ju att få skriva kod, optimera och designa system. "AI" hade hellre fått ta den första biten istället för den roliga delen.

Visa signatur

Perl - Made by Idiots, Java - Made for Idiots, C++ - Envied by Idiots

Permalänk
Medlem
Skrivet av glemmy:

Undrar vad energiförbrukningen landade på.

Przemysław 2 kWh - AI-modellen några hushålls årsförbrukning?

Bra poäng, grundfrågan är ju om ett dagsverk från människor är billigare än att köra chatGPT så länge som det krävs att göra motsvarande jobb.

Permalänk
Medlem

"Open AI sponsrade tävlingen och ställde upp med en speciellt framtagen variant av språkmodellen O3."

Varför kan de inte använda den vanliga? För att den inte kan klara det eller? Måste de skräddarsy modellerna varje gång och hur många miljarder kostar den träningen?

Hade varit kul med detaljer om vad det innebar så att detta inte är ännu ett PR-trick. Skulle vi inte ha AGI redan eller?

Skulle inte alla utvecklare förlora sin jobb om 6 månader? De senaste två åren?

Edit: Varför använder de inte o4, det är väl den senaste? För dyr att träna om? Är den sämre? För slö för att hinna inom 600 minuter?

Visa signatur

Hur många datorer är för många?

Permalänk
Hedersmedlem
Skrivet av kelthar:

Varför kan de inte använda den vanliga? För att den inte kan klara det eller? Måste de skräddarsy modellerna varje gång och hur många miljarder kostar den träningen?

Det kan väl handla om något trist, som att den här varianten skulle vara för dyr/krävande att köra i stor skala, snarare än om några fundamentala begränsningar?

Permalänk
Medlem
Skrivet av Elgot:

Det kan väl handla om något trist, som att den här varianten skulle vara för dyr/krävande att köra i stor skala, snarare än om några fundamentala begränsningar?

För dyr att köra i 10h för ett företag som är värderat så högt?

Visa signatur

Hur många datorer är för många?

Permalänk
Medlem
Skrivet av Nivity:

Du menar 1 människa utav 12 av de högst rankade programmerarna i Atcoders slog en AI medans resten blev utslagna?
Och det faktum att AIn kan fortsätta oändligt jämfört med den enda människa som lyckades var "”helt utmattad, knappt vid liv”, "

Ja, ett perfekt resultat, precis som det ska vara. AI får gärna nyttjas till att automatisera överdrivet detaljerade, repetetiva sysslor. I ett riktigt scenario hade all kritiskt design / målsättning gjorts av människor.

Vill se mer material där AI inte promotas som nån slags optimal generallösning utan människor står kvar i centrum.

Visa signatur

|[●▪▪●]| #Monster Battle Station(tm)#: Ryzen 3700X >-< GB-X570-AE >-< 32GB RAM >-< RTX 4070S >-< Crucial 2TB SSD |[●▪▪●]|

Permalänk
Hedersmedlem
Skrivet av kelthar:

För dyr att köra i 10h för ett företag som är värderat så högt?

Nej jag menar att de kanske kan kosta på sig här men att låta hela världen använda den kanske skulle fungera dåligt. De påstås väl satsa mycket på effektivitet för nyare modeller?

Skrivet av RHWarrior:

Ja, ett perfekt resultat, precis som det ska vara. AI får gärna nyttjas till att automatisera överdrivet detaljerade, repetetiva sysslor. I ett riktigt scenario hade all kritiskt design / målsättning gjorts av människor.

Vill se mer material där AI inte promotas som nån slags optimal generallösning utan människor står kvar i centrum.

”Problemet” är väl att ai kanske visar sig vara rätt bra även på det där vi anser vara vår grej?

Permalänk
Medlem

Det är märkligt att en tekniksajt inte går in djupare på vad problemlösningen faktiskt bestod av, hur LLM:en anpassades, vilka verktyg som fick användas, hur flödet såg ut, m,m.

Jag har inte hunnit sätta mig in helt i hur upplägget såg ut, men av det jag läst får man intrycket att resultatet lätt kan ge en missvisande bild. LLM:en klarade inte detta på egen hand, det krävdes en specialanpassad modell för just den här typen av problem. Med andra ord visar tävlingen inte att en LLM kan ersätta en utvecklare, utan snarare att den kan vara ganska effektiv på att lösa ett specifikt problem när den är anpassad för det. Det är inte häller tydligt om tävlingen i sig gjorde vissa anpassningar för LMM:en.

Oavsett, grymt jobbat av utvecklaren att finna ett nytt och effektivt vis att lösa problemet på.

Visa signatur

CPU : AMD Ryzen 5 5600X Moderkort : ASUS ROG Strix B550-F GAMING Grafikkort :EVGA GeForce GTX 1080 Ti FTW3 iCX Gaming HDMI 3xDP 11GBMinne : Corsair 16GB Chassi :Fractal Design Define 7 Compact Nätdel : Corsair RM750x Skärm #1 : Asus VG349Q Ultrawide Skärm #2 : Acer X34 Ultrawide

Permalänk
Medlem
Skrivet av Elgot:

Nej jag menar att de kanske kan kosta på sig här men att låta hela världen använda den kanske skulle fungera dåligt. De påstås väl satsa mycket på effektivitet för nyare modeller?

Så du säger att man inte hade kunnat uppnå resultatet i tävlingen rent praktiskt med "AI".

Visa signatur

Hur många datorer är för många?

Permalänk
Hedersmedlem
Skrivet av kelthar:

Så du säger att man inte hade kunnat uppnå resultatet i tävlingen rent praktiskt med "AI".

Det gjorde man väl uppenbarligen, men det kanske inte går till de priser man tar av vanligt folk? Däremot kanske det visar vart vi är på väg (och redan kanske de kan tillhandahålla det till enskilda kunder).

Permalänk
Medlem
Skrivet av Saddl3r:

Du får räkna med 10 timmars energibehov för Przemysław också. Gemene man behöver 2 700 kalorier per dag enligt Livsmedelsverket. Det blir 1,3 kWh för 10 timmar. Totalt alltså 3,3 kWh. Inte så stor skillnad men ändå!

Enligt MIT Technology Review verkar ChatGPT dra 1 kJ per svar.

Enligt dessa beräkningar motsvarar Przemysławs 10 timmar ungefär 12 000 frågor till ChatGPT.

Säkert helt fel

Skrivet av 0cool:

Bra poäng, grundfrågan är ju om ett dagsverk från människor är billigare än att köra chatGPT så länge som det krävs att göra motsvarande jobb.

Jag frågade chatgpt

Citat:

the energy consumption of an AI model like ChatGPT (e.g., GPT-4) during a long, high-load event such as the Tokyo Code Marathon

[...]
So:
Estimated energy consumption: ~2,000 to 5,000 kWh

Så snarare ett litet hushåll (lägenhet eller energieffektivt radhus typ).
Det var inte så illa som jag killgissade, även om det är liknande storleksordning.

Visa signatur

Solen i africa! Hjälp snabbt. Tävling i klassen!
Det var High noon.
Om solen i Africa en truckförare kommer från East till Weast på huvudvägen. och exact vid eqvatorn vid Africa. Landskapet är totalt slät. På en tidpunkt var solen så ett par telestolpar gjorde så att det blev skugga.
3 gissar jag på, men kan inte förklara?

Permalänk
Medlem
Skrivet av Alling:

Men också: ChatGPT besegrade elva av tolv elitprogrammerare i kodmaraton. ¯\_(ツ)_/¯

Skrivet av Nivity:

Du menar 1 människa utav 12 av de högst rankade programmerarna i Atcoders slog en AI medans resten blev utslagna?

Ja, det känns som att det är den viktigare slutsatsen.
Sedan är det ju en tävlingsform som är lite speciell jämfört verkliga uppgifter, men imponerande inte desto mindre.

Skrivet av Nivity:

Och det faktum att AIn kan fortsätta oändligt jämfört med den enda människa som lyckades var "”helt utmattad, knappt vid liv”, "

Ja, det kan den förstås, så om man har ett problem som passar för upplägget så blir det ju en intressant möjlighet att bara kunna slänga mer pengar på ett sådant problem.
Sedan når man väl oavsett angreppssätt en punkt där man inte hittar förbättringar längre, även med mer tid.

Dock läggs ju citatet fram här taget ur sitt faktiska sammanhang:

"Humanity has prevailed (for now!)," wrote Dębiak on X, noting he had little sleep while competing in several competitions across three days. "I'm completely exhausted. ... I'm barely alive."

Dvs, det handlar ju inte specifikt om "uppvisningsmatchen" där OpenAI var med, utan ett mer generellt konstaterande efter tre dagars tävlande.

Slutsatsen i stort blir ju dock densamma, någon sådan automatiserad lösning blir inte utmattad, den behöver bara mer tid och el för att kunna fortsätta på samma sätt kontinuerligt. Sedan hur länge resultatet fortsätter att ha en trend av förbättring är ju fortfarande avgörande.

Visa signatur

Desktop spel m.m.: Ryzen 9800X3D || MSI X870 Tomahawk Wifi || MSI Ventus 3x 5080 || Gskill FlareX 6000 64GB || Kingston KC3000 2TB || Samsung 970 EVO Plus 2TB || Samsung 960 Pro 1TB || Fractal Torrent || Asus PG42UQ 4K OLED
Arbetsstation: Ryzen 7945HX || Minisforum BD790i || Asus Proart 4070 Ti Super || Kingston Fury Impact 5600 65 GB || WD SN850 2TB || Samsung 990 Pro 2TB || Fractal Ridge
Proxmox server: Ryzen 5900X || Asrock Rack X570D4I-2T || Kingston 64GB ECC || WD Red SN700 1TB || Blandning av WD Red / Seagate Ironwolf för lagring || Fractal Node 304

Permalänk
Medlem

Det står att det var en chat bot, men inte hur den användes.
Texten nämner inte om den fick något mer input än själva problemet.

Väldigt fluffigt skrivet.

Permalänk
Medlem
Skrivet av kelthar:

"Open AI sponsrade tävlingen och ställde upp med en speciellt framtagen variant av språkmodellen O3."

Varför kan de inte använda den vanliga? För att den inte kan klara det eller? Måste de skräddarsy modellerna varje gång och hur många miljarder kostar den träningen?

Hade varit kul med detaljer om vad det innebar så att detta inte är ännu ett PR-trick. Skulle vi inte ha AGI redan eller?

Skulle inte alla utvecklare förlora sin jobb om 6 månader? De senaste två åren?

Edit: Varför använder de inte o4, det är väl den senaste? För dyr att träna om? Är den sämre? För slö för att hinna inom 600 minuter?

Har bara spekulativa svar, men några tankar:

  • Enligt artikeln så skulle den ju köra på samma hårdvara som alla andra använde, så det kan ha varit begränsande:
    "All competitors, including OpenAI, were limited to identical hardware provided by AtCoder, ensuring a level playing field between human and AI contestants."

  • De kanske redan hade själva "tävlingsramverket" byggt runt omkring o3 klart sedan tidigare och att det inte fungerar att bara byta ut o3 mot något annat än o3-liknande modeller

  • De kanske har bättre förståelse för hur man får bra resultat ur o3-liknande modeller och har fortsatt att finslipa o3-varianter för just denna typ av applikation

Visa signatur

Desktop spel m.m.: Ryzen 9800X3D || MSI X870 Tomahawk Wifi || MSI Ventus 3x 5080 || Gskill FlareX 6000 64GB || Kingston KC3000 2TB || Samsung 970 EVO Plus 2TB || Samsung 960 Pro 1TB || Fractal Torrent || Asus PG42UQ 4K OLED
Arbetsstation: Ryzen 7945HX || Minisforum BD790i || Asus Proart 4070 Ti Super || Kingston Fury Impact 5600 65 GB || WD SN850 2TB || Samsung 990 Pro 2TB || Fractal Ridge
Proxmox server: Ryzen 5900X || Asrock Rack X570D4I-2T || Kingston 64GB ECC || WD Red SN700 1TB || Blandning av WD Red / Seagate Ironwolf för lagring || Fractal Node 304

Permalänk
Medlem
Skrivet av 0xbad:

Det står att det var en chat bot, men inte hur den användes.
Texten nämner inte om den fick något mer input än själva problemet.

Väldigt fluffigt skrivet.

Jag är rätt skeptisk till att det var någon faktisk chatbot inblandad. Däremot att OpenAIs mjukvarubaserade tävlingsdeltagare använde en variant av o3-modellen, en av modellerna som OpenAI även använder i chatbotten ChatGPT.

Visa signatur

Desktop spel m.m.: Ryzen 9800X3D || MSI X870 Tomahawk Wifi || MSI Ventus 3x 5080 || Gskill FlareX 6000 64GB || Kingston KC3000 2TB || Samsung 970 EVO Plus 2TB || Samsung 960 Pro 1TB || Fractal Torrent || Asus PG42UQ 4K OLED
Arbetsstation: Ryzen 7945HX || Minisforum BD790i || Asus Proart 4070 Ti Super || Kingston Fury Impact 5600 65 GB || WD SN850 2TB || Samsung 990 Pro 2TB || Fractal Ridge
Proxmox server: Ryzen 5900X || Asrock Rack X570D4I-2T || Kingston 64GB ECC || WD Red SN700 1TB || Blandning av WD Red / Seagate Ironwolf för lagring || Fractal Node 304

Permalänk
Medlem
Skrivet av Elgot:

Det gjorde man väl uppenbarligen, men det kanske inte går till de priser man tar av vanligt folk? Däremot kanske det visar vart vi är på väg (och redan kanske de kan tillhandahålla det till enskilda kunder).

Vad säger det egentligen om hur långt vi har kommit? Jag vet inget om uppgiften som de har löst.

Skogshuggaren som hugger ner trädet snabbast, gör han också den bästa stolen av trät?

Visa signatur

Hur många datorer är för många?

Permalänk
Medlem
Skrivet av evil penguin:

Har bara spekulativa svar, men några tankar:

  • Enligt artikeln så skulle den ju köra på samma hårdvara som alla andra använde, så det kan ha varit begränsande:
    "All competitors, including OpenAI, were limited to identical hardware provided by AtCoder, ensuring a level playing field between human and AI contestants."

Det är en viktig poäng. Jag undrar vad det var för hårdvara.

Jag vet inte om det är rättvist på ett sätt. LLMen borde få köra på hårdvara som den presterar bättre på. Det hade varit ett mer verkligt scenario.

Eller fick alla 4st 5090 i datorn?

Visa signatur

Hur många datorer är för många?

Permalänk
Medlem
Skrivet av Nyhet:

Tävlingen hölls i Tokyo och Przemysław Dębiak vann efter 10 slitiga timmar.

Läs hela artikeln här

Precis i linje med hur man vinklar nyheter om AI på sweclockers. Här är alternativet:

I en prestigefylld 10‑timmars programmeringstävling i Tokyo tävlade världens bästa programmerare mot en AI-modell från OpenAI. Polske Przemysław Dębiak (alias Psyho) vann, med drygt 1,8 biljoner poäng, medan AI:n hamnade på andra plats med 1,65 biljoner. AI:n slog dock alla andra mänskliga deltagare och visade att AI nu kan konkurrera på toppnivå i avancerad problemlösning.

OpenAIs vd Sam Altman gratulerade vinnaren och konstaterade att kampen mellan människa och AI fortsätter. Resultatet visar att AI snabbt närmar sig mänsklig nivå, men att kreativitet och envishet fortfarande kan göra skillnad.

Open AI crushes coding legends in 10 hour programming contest

Permalänk

Folk på datorforum år 2025 är lika anti AI som folk på lanparty år 1995 var anti internet.
Det korfattade åsikten var är att dessa saker ej duger till seriöst arbete.

Jag tycker det är intresserat att AI utvecklas så fort framåt ändå. Sedan tar saker tid, de flesta prylarna tar lite tid på sig. Ge AI 50år till och se vad den då kan.

Angående AIn som blev besegrad av en världsmästare, så undrar jag hur slutkörd AIn nu är och om den behöver vila upp sig ett par månader innan nästa match? -Jag är ironisk.