Har du bevittnat AI-snedsteg på jobbet?

Permalänk
Medlem

Har du bevittnat AI-snedsteg på jobbet?

Läste denna nyhet AI I klassrummet och tänkte på att det här kommer ta säkert 10-20 år att få till.

Under tiden använder anställda och elever redan AI för att göra skolan och arbetet enklare. Men ingen av dem förstår hur många fel dom faktiskt får till svar. Ofta verkar man ju komma undan med det, varför det fortsätter.

Men har ni sett något fatalt faktafel som lett till riktigt jobbiga konsekvenser i på arbetsplatsen?

Visa signatur

Whales are nice!

Permalänk
Skrivet av kyre:

Läste denna nyhet AI I klassrummet och tänkte på att det här kommer ta säkert 10-20 år att få till.

Under tiden använder anställda och elever redan AI för att göra skolan och arbetet enklare. Men ingen av dem förstår hur många fel dom faktiskt får till svar. Ofta verkar man ju komma undan med det, varför det fortsätter.

Men har ni sett något fatalt faktafel som lett till riktigt jobbiga konsekvenser i på arbetsplatsen?

Jag är för försiktig för att inte validera vad jag får ut, men jag fick personligen tips om ett powershellscript som hade raderat all information om alla namnservrar på alla subnät i en Windowsdomän när jag bad om hjälp med ett script för att städa bort information om två servrar vi pensionerat. Det hade blivit en kul fredag.

Annars har du väl det gamla vanliga med företag som får betala ersättning till kunder för att deras supportbot ljugit, eller som förargar eller tappar en hel massa kunder av samma orsak.

Jag kände en (relativt kortlivad) chef i en angränsande avdelning som genererade stora mängder högst tvivelaktig projektdokumentation som turligt nog för oss andra bara blev nergrävd och glömdes bort.

Permalänk

Detta har inget med AI att göra, men autokorrigering på mobiltelefon har funnits otroligt länge. Har det funnits 20år?
I vilket fall så vem har inte skickat ett meddelande där denna jävla korrigeringsmakapär ändrar ett ord så det kan bli något dumt? Det har hänt mig flertalet gånger, lite överallt. Det kan vara så att jag använder ett ord som ej finns med i dens ordlista, då ändrar skiten till ett ord som har ungefär samma bokstäver i sig, som om dessa ord med liknande stavning alltid ungefär betyder samma sak.
Och det har inget med AI att göra. När AI är inne och gör exakt samma sak i ens meddelande, så kan AI göra exakt samma fel.

När det gäller AI så är det för tidigt, det används knappt. Man testar LLM inser ofta att de är dåliga och sedan går tillbaka till sökmotorn Google. Viss information söker man på olika sätt och kombinerar resultaten från en LLM.
Det får till några år innan LLM används mer flitigt för problemen ska komma. Koden man får idag från LLM om det är något avancerat är ofta inte ens körbar, man får lägga mycket tid på att få den funka och då har man ju automatisk granskat den lite.
Men jag ser problemet lite som folk som copy & pastar från internet det kan också bli galet.

Jag ser dock AI kan rädda en. Denna autokorrigeringfunktionen som i princip alla använder idag och kan ändra texten till dumheter, så skulle en AI kunna inse att man nog inte alls ville ha vissa ord i en mening.

*edit*
Jag ser egentligen inte problemet med AI utan det är ett generellt problem som har funnits hur länge som helst.
T.ex. jag köpte överspänningsskydd till en bekant för 20år sedan när denna hade luftströmledningar utanför bostaden, jag skrev en etikett med en märkmaskin på överspänningsskyddet att den skyddar ej emot åska bara överspänning. Jag sa till personen X antal gånger att den ej skyddar emot åska.
Sedan gick en pryl efter överspänningsskyddet sönder och då säger såklart personen att den har ett åskskydd som jag hade köpt åt denna, så att den inte ansåg sig behöva dra ur prylarna vid åska.

Poängen är folk är lata, fungerar något halvbra så kan de för fullt lita på denna. Det är dock inte på något sätt ett nytt problem som har uppstått med AI.

Permalänk

LLM:er kan inte göra "snedsteg"

Jag vill på ett semantikpedantiskt vis lyfta ordet "faktafel" i sammanhanget LLM:er. Det är verkligen att lyfta "LLM:er till skyarna" att föreslå att de ens skulle kunna generera "fakta(fel)" från första början som om det vore någon emergent effekt av all träningsdata och sedan finjusteringarna efteråt som om det fanns någon slags omvärldsförståelse från LLM:ens sida vilket det inte gör. Enklaste exemplet är klisterförslaget för pizzaingredienser.

LLM:er genererar endast nästa statistiskt sannolika ord baserat på finjusterat träningsdata i kombination med ens prompt. Även uppdaterade modeller som nu kan emulera vad som kan verka som "fakta" (t.ex. fråga om faktamässigt talat något lands huvudstad är en huvudstad som det inte är och den då svarar i stil med, "Nej, Stockholm är inte Tysklands huvudstad") så är det ändå bara finjusterad träningsdata vilket får LLM:en att prioritera ordföljder vilket emulerar när någon rättar någon annans sakpåstående.

Varför jag ens lyfter detta till synes sidospår är för att sprida budskapet att LLM:er fortfarande inte är "levande", "självmedvetna" eller har någon tillfällig "agens" oavsett hur mycket deras mycket "mänskliga" ordföljder kan få en för ett ögonblick att ibland tycka det om dem. De är bara supereffektiva (kanske inte energieffektiva dock) på att generera ordföljder vilket påminner om människors ordföljder. Och det är ju inte förvånande för vart finns det massor av ordföljder skapade av människor? På internet och i flera terabytes av e-böcker *host* Meta *host*.

Detta innebär att fatala faktafel på arbetsplatser är egentligen 100 % slutanvändarens ansvar eftersom LLM:er har i princip samma nivå av "vilja att ge en fakta" som när du kastar tärningar med olika ord på varje tärnings olika sidor för att bygga en "faktamässig mening". LLM:er är självfallet mer komplexa men har minst lika hög "mänsklighetsnivå" som tärningar med olika ord på deras sidor.

Hm, jag börjar nästan glömma bort vad jag egentligen ville ha sagt! TLDR; Personligen talat tycker jag att det är lite ansvarsfriskrivning av att säga att LLM:er kan göra "snedsteg" som om de ens "försökte göra rätt från första början". Lite som att säga att tärningarna i Yatzy "gjorde snedsteg och gav mig inte sex sexor som jag angav när jag kastade dem!". LLM:er producerar statistiskt sannolika mänskliga ordföljder.

Det är vi människor som sedan gör bedömningar huruvida något är "faktamässigt (in)korrekt". Även "hallucinationer" är en alldeles för generös antropomorfisering av LLM:er. Det är vi människor som gör bedömningen att "Nu hallucinerar den!", inte att LLM:en "gjorde sitt bästa men blev hög och började svamla!".

Btw, det här är inte riktat mot någon person eller så utan endast sprida budskapet att inte antropomorfisera LLM:er. Det är oerhörda användbara verktyg när de används med förståelse för deras begränsningar, men endast det. Jag har också på senast tid stört mig på uttrycket, "AI kanske snor våra jobb" medan det korrekta uttrycket vore, "Vi kanske sparkas för någon ovanför oss tror att AI kan göra jobbet kostnadseffektivare!" (så tillvida inte LLM:en faktiskt kan göra det via konfigurerad MCP).

Jag önskar Dig fortsatt trevlig helg!

Mvh,
WKF.

Visa signatur

"Den säkraste koden är den som aldrig skrivs"
"Visste du förresten att det är ett mångmiljardbolag?"
"Jag lever inte för att koda utan kodar för att sen kunna leva"

Permalänk
Skrivet av WebbkodsFrilansaren:

Jag vill på ett semantikpedantiskt vis lyfta ordet "faktafel" i sammanhanget LLM:er. Det är verkligen att lyfta "LLM:er till skyarna" att föreslå att de ens skulle kunna generera "fakta(fel)" från första början som om det vore någon emergent effekt av all träningsdata och sedan finjusteringarna efteråt som om det fanns någon slags omvärldsförståelse från LLM:ens sida vilket det inte gör. Enklaste exemplet är klisterförslaget för pizzaingredienser.

LLM:er genererar endast nästa statistiskt sannolika ord baserat på finjusterat träningsdata i kombination med ens prompt. Även uppdaterade modeller som nu kan emulera vad som kan verka som "fakta" (t.ex. fråga om faktamässigt talat något lands huvudstad är en huvudstad som det inte är och den då svarar i stil med, "Nej, Stockholm är inte Tysklands huvudstad") så är det ändå bara finjusterad träningsdata vilket får LLM:en att prioritera ordföljder vilket emulerar när någon rättar någon annans sakpåstående.

Varför jag ens lyfter detta till synes sidospår är för att sprida budskapet att LLM:er fortfarande inte är "levande", "självmedvetna" eller har någon tillfällig "agens" oavsett hur mycket deras mycket "mänskliga" ordföljder kan få en för ett ögonblick att ibland tycka det om dem. De är bara supereffektiva (kanske inte energieffektiva dock) på att generera ordföljder vilket påminner om människors ordföljder. Och det är ju inte förvånande för vart finns det massor av ordföljder skapade av människor? På internet och i flera terabytes av e-böcker *host* Meta *host*.

Detta innebär att fatala faktafel på arbetsplatser är egentligen 100 % slutanvändarens ansvar eftersom LLM:er har i princip samma nivå av "vilja att ge en fakta" som när du kastar tärningar med olika ord på varje tärnings olika sidor för att bygga en "faktamässig mening". LLM:er är självfallet mer komplexa men har minst lika hög "mänsklighetsnivå" som tärningar med olika ord på deras sidor.

Hm, jag börjar nästan glömma bort vad jag egentligen ville ha sagt! TLDR; Personligen talat tycker jag att det är lite ansvarsfriskrivning av att säga att LLM:er kan göra "snedsteg" som om de ens "försökte göra rätt från första början". Lite som att säga att tärningarna i Yatzy "gjorde snedsteg och gav mig inte sex sexor som jag angav när jag kastade dem!". LLM:er producerar statistiskt sannolika mänskliga ordföljder.

Det är vi människor som sedan gör bedömningar huruvida något är "faktamässigt (in)korrekt". Även "hallucinationer" är en alldeles för generös antropomorfisering av LLM:er. Det är vi människor som gör bedömningen att "Nu hallucinerar den!", inte att LLM:en "gjorde sitt bästa men blev hög och började svamla!".

Btw, det här är inte riktat mot någon person eller så utan endast sprida budskapet att inte antropomorfisera LLM:er. Det är oerhörda användbara verktyg när de används med förståelse för deras begränsningar, men endast det. Jag har också på senast tid stört mig på uttrycket, "AI kanske snor våra jobb" medan det korrekta uttrycket vore, "Vi kanske sparkas för någon ovanför oss tror att AI kan göra jobbet kostnadseffektivare!" (så tillvida inte LLM:en faktiskt kan göra det via konfigurerad MCP).

Jag önskar Dig fortsatt trevlig helg!

Mvh,
WKF.

Bra skrivet!
Jag tycker man idag ska fundera på hur många tabbar en AI/LLM kan upptäcka så man inte begår, detta emot de fel de kan skapa.
Min åsikt är att LLM just idag håller så låg nivå så det de spottar ur sig ändå inte är körbar kod för en mer avancerad fråga. Detta är dock en ren tidsfråga, utvecklingen går snabbt framåt.

Ska man prata om risker nu med AI så är det att folk ger dem data, denna data kan läckas, ofta står det tom varning att datan man ger till en LLM kan granskas av personer.
Det är just detta som är en anledningen till varför jag inte imponeras på dagens LLM, man lägger ner en massa tid på att formulera en generell fråga, man får ett dåligt svar tillbaka. Hade man lagt ner samma tid på sökmotorn Google, så hade man varit klar för länge sedan.

Sedan hör man folk säga att de ger LLM all information, de ser det inte som mer riskfyllt att de köper begagnade datorer av helt okända och de brukar låta postpaket ligga utanför deras ytterdörr. De har nog rätt i att det inte är mer riskfyllt, men..

Nå allt fler företag skaffar lokala LLM och då kan de får mer data och då tar LLM ett jätteskutt framåt. Och som sagt LLM kan rädda folk för att begå misstag, den kan användas som något som snabbt kollar igenom något.

Permalänk
Medlem

Datorer är värdelösa, de kan bara ge dig svar.

Permalänk
Skrivet av Phiphler:

Datorer är värdelösa, de kan bara ge dig svar.

Skillnaden mellan detta påstående och LLM:er är att i det senare fallet kan du inte garantera att det svar du får ut är korrekt eller tillämpligt oavsett kvalitet på den data du matat in.

Permalänk
Medlem

Jag använder ChatGPT nästan dagligen och tycker den är helt sjukt bra på att skriva små skript eller funktioner för att göra saker. Det funkar naturligtvis inte alltid, men jag är van vid att läsa kod och jag vet på förhand vad jag vill skriva och använder den bara för att slippa sitta och googla på hur exakt APIer ser ut och skriva banal kod osv. Man får en väldigt bra känsla efter ett tag på vad den kommer klara och inte klara. Sparar otroligt med tid och det är mycket roligare att jobba på en "högre nivå" enligt min mening.

Iaf, jag ville ha en unix "one-liner" för att flytta en stor mängd filer som låg i samma katalog till underkataloger med namn YYYY-MM (t ex 2024-04 om last-modified för filen var i april 2024). Den genererade någonting och jag tyckte det såg vettigt ut (nåja, unix-kommandon ser ju sällan vettiga ut, men jag såg inget uppenbart fel) och körde det utan att testa. Filerna försvann... Den flyttade varje fil till en existerande fil 2024-04 etc eller något i den stilen, kommer inte ihåg exakt.

Det här var dock privat, inte på jobbet. Jag har backup på det mesta, men inte orkat återställa från backup:en eftersom de ligger utspridda på flera USB-diskar.

Det är iaf min största tabbe som jag kan komma på vad gäller AI.

Har inte sett någon sådan tabbe på jobbet, men det är ju svårt att veta hur buggar uppkommer. Man stöter ju även på personer som låter precis som nidbilden av ChatGPT i verkligheten (killgissar för jämnan och har jättelånga utlägg som låter troligt men är totalt fel).

Permalänk
Medlem

Har inte sett något som fått allvarliga konsekvenser än då mina kollegor är hyfsat bra på att faktiskt testa främmande kod - oavsett vem eller vad som har skrivit den - och att vi är rätt skapliga på kodgranskning (och framför allt har en atmosfär som tillåter att man slår bort AI-slafs för vad det är). Men, jag kan svära på att den dagen kommer där någon skit trillar genom och slår ner någon produktionsmiljö i någon utsträckning, eftersom det händer även med människoalstrad kod.

Problemet är inte vad eller vem som genererar koden - det är en fråga om hur rigorös testning och granskning är - och att vissa blint kan börja förlita sig på AI utan att ha någon förståelse för vad den faktiskt kastar ur sig och börjar spamma skiten ur de som granskar, eller - gud förbjude - börjar implementera AI i automatiserade flöden rätt ut i produktion.

Visa signatur

Desktop: AMD 3950X, 64 GB RAM, Nvidia 4070 ... (Ubuntu 24.04)
Serverdesktop: AMD 5600G, 96 GB RAM (Proxmox)
Labbmiljö: Supermicro SC825 X9DRi-F 2xE5-2667v2 64GB RAM
Kamera: Canon R5, Canon RF 100-500, Laowa 100mm f/2.8, Canon RF 24-70 f/2,8