Open AI tränade GPT-4 med Youtube – i över en miljon timmar

Sedan 2021 har Open AI utmanats av en unik brist. I tre år nu har det inte funnits tillräckligt med träningsdata för deras AI-modeller att lära sig från. En lösning på det problemet har kommit i bolagets transkriberingsmjukvara Whisper. Programvaran har transkriberat över en miljon timmar av innehåll från Youtube för att användas för att träna GPT-4 – bolagets mest avancerade modell.

Rapporten från New York Times säger även att andra källor har använts för GPT-4:s maskininlärning, som podcasts och ljudböcker. Open AI påstår att de visste att beslutet var i en upphovsrättslig gråzon men trodde sig agera under tillåten användning.

OpenAIs talesperson Lindsay Held säger att bolaget skapar unika databanker för att modellerna ska förstå världen och upprätthålla sin konkurrenskraft. Held förklarar att bolaget har "ett flertal källor med offentlig data såväl som ickeoffentlig och att ett mål för språkmodellerna är att de ska kunna generera sin egna data.

I jakten på mer data

Google och Youtube säger att den här typen av datainsamling inte är tillåten. Teknikjätten kan vidta tekniska och även rättsliga åtgärder "när vi har en tydlig juridisk och teknisk grund för att göra det" enligt Googles talesperson Matt Bryant. Däremot har Google själva sagt att de använt Youtube för att träna deras egna AI-modeller.

Enligt New York Times ska bolaget ha gjort det enklare för att samla in data för maskininlärning förra sommaren genom att ändra på användarvilkoren samtidigt som firandena den fjärde juli. Även Meta har visat sig agera emot upphovsrätten i jakten på träningsdata och hade enligt New York Times gått igenom "varje bok, essä, dikt och nyhetsartikel i det engelska språket på nätet".

Det handlar om att suga upp befintlig data som för nya språkmodellers masknininlärning. Men enligt The Wall Street Journal kommer behovet för data att överstiga det befintliga utbudet till år 2028.