Nja, man kan väl inte riktigt säga att en AI betraktar en korrelation som det ena eller det andra, kausalitet är inte ett begrepp som någon AI kan begripa (ännu). Men det skulle kunna tänkas att människor med en övertro på vad AI kan komma fram till tolkar AIns slutsatser som att de säger något om kausalitet, fast de inte gör det. Det är väl lite det som är risken, de flesta vet att statistiska modeller bara ger oss korrelationer, men AI-branschen jobbar hårt på att säga att AI är något mer avancerat. Och det är det ofta, men inte så avancerat att det är en kvalitativ skillnad i vad det kan göra. Jag tror att åtminstone en del av problemet här är att AIns funktion inte är transparent för användaren, och då är det viktigare att AIn själv inte hittar de orimligaste mönstren.
Jag såg någon forskare (som ej forskar på AI om jag minns rätt, men använder det till annan forskning) på Twitter uttrycka det ganska bra: "När vi söker finansiärer, då heter det AI. När vi anställer, då säger vi maskininlärning, och när vi gör jobbet då är det logistisk regression". Det sista är alltså en vanlig och användbar statistisk metod som funnits under hela 1900-talet. Lite tillspetsat, men ofta börjar man nog med enkla modeller och bygger uppåt.
Mönstermatchning kan egentligen bara ge oss korrelationer, det spelar ingen roll hur mycket data vi har. Men mer data kan, rätt tolkat, ge oss bättre gissningar, åtminstone för den människa som ska tolka det AIn presenterar. För att vara säker på kausalitet måste vi i regel ändra något ute i världen och sen se vad som händer. Om vi ser en korrelation mellan något vi mäter och något vi själva gjorde, då kan vi vara ganska säkra på att det var handlingen vi gjorde som orsakade att något annat ändrades. T.ex. när vi vaccinerar en grupp och låter en kontrollgrupp vara ovaccinerade (för att ta ett aktuellt exempel). I princip skulle robotar kunna testa sig fram genom att ändra verkligheten, men de AI som finns i expertsystem är ju mest mönsterletare.
Precis! Detta är ett vanligt problem i statistisk modellering generellt, inte bara AI. Då är det egentligen två problem, att veta vad som är orsak och verkan kan aldrig statistiken eller AIn tala om för oss ensamt. Men det andra problemet, att någon variabel vi inte mätt kan vara den intressanta variabeln, händer ofta. I ditt exempel kan det bli precis så, att man i en regressionsmodell finner en korrelation mellan inkomst och sjukdom och antar att inkomsten är den viktiga faktorn. Lösningen då är enkel, har man med rökning i modellen så kan den upptäcka t.ex. att de personer som har låg inkomst men inte röker är lika friska som andra som inte röker, och att personer med hög inkomst som röker är lika sjuka som andra som röker. Detta är jättevanligt i "vanlig" statistik, t.ex. för den frågeställningen hade en logistisk regression varit en lämplig metod, den hade haft just det problemet och den lösningen som jag just nämnde. De AI-system vi pratar om här har samma problem, vilket verkar vara just det diskuterade jämställdhetsprojektets poäng: det gäller att träna på data som ger det utfall vi har mest nytta av.
Det är det som är grejen, fördomar är sannolikhet. Men precis som en AI inte har tillgång till all relevant information så har inte våra hjärnor det heller. Ett delproblem här är att för det mesta leder våra fördomar oss rätt, men de kallas bara för fördomar när de leder till något dåligt. I de fall när våra fördomar leder oss fel, t.ex. jag försöker köra till jobbet fastän det är julafton (baserat på min statistiska kunskap att på nästan alla tidigare torsdagar har jag kört till jobbet), så upptäcker jag oftast det innan någon skada är skedd. Just eftersom människor också har förmågan att tänka efter och fråga sig om det verkligen är så att den information jag agerar på nu, är det den relevanta informationen, eller behöver jag ta reda på mer?
En AI däremot har ingenting av detta. Därför är det relevant att tänka extra på vilken data den tränas på, t.ex. om den tränats på tidningsartiklar (som speglar vad journalister vill sälja klick med) eller på en mer korrekt representation av världen.
Det är egentligen inget magiskt med detta, jag tolkar projektet i artikeln mest som en omformulering av principen "dålig data in, dålig data ut". Men genom att relatera till "heta" och engagerande ämnen som "AI" och "jämställdhet" så blev det en sexigare nyhet