Google DeepMind har lanserat Genie 3, den senaste versionen av företagets så kallade världsmodeller - AI-system som kan simulera och generera interaktiva miljöer utifrån en textbeskrivning ("prompt"). Den nya modellen kan skapa världar med hög detaljrikedom och fysisk kontinuitet, som användaren kan utforska i realtid med 24 bildrutor per sekund i 720p-upplösning.

Genie 3 är den första modellen i serien som möjliggör direkt användarinteraktion i realtid. AI:n genererar miljöer baserat på en prompt och uppdaterar världen responsivt i takt med att användaren rör sig eller agerar i den. Varje bildruta skapas en i taget, med hänsyn till tidigare händelser, vilket gör att modellen kan bibehålla visuell och fysisk kontinuitet i flera minuter.

kontinuitet.png

Över tid minns Genie 3 trädens placering, utseende och antal.

Med Genie 3 ser företaget potential inom utbildning och träning, där miljöer skräddarsys för att stödja lärande och färdighetsträning. Inom robotik och AI kan modellen användas för att testa och träna AI-agenter i varierade simulerade världar. Modellen har dock vissa hinder att överkomma. Användarens handlingsutrymme är fortfarande begränsat, och komplexa interaktioner mellan flera agenter i samma miljö är ännu inte fullt utvecklade. Modellen kan inte heller återskapa verkliga platser med geografisk exakthet, och textinnehåll i miljöerna blir sällan läsbart om det inte specificeras i prompten. Dessutom är längden på en interaktiv session för närvarande begränsad till några minuter.

comparison.png

Genie 3 ställd mot tidigare iterationer.

Genie 3 lanseras som en begränsad forskningsförhandsvisning. Ett mindre antal forskare och kreatörer har fått tidig tillgång för att ge feedback och hjälpa till att identifiera risker. Google DeepMind betonar att ny teknik med öppen och dynamisk kapacitet kräver ett genomtänkt och ansvarsfullt förhållningssätt. Därför utvecklas modellen i samarbete med företagets interna team för ansvarsfull innovation. Målet är att tekniken ska utvecklas på ett sätt som gynnar forskning, kreativitet och lärande.