Att få digitala karaktärer att se trovärdiga ut när de pratar är ett av de svåraste momenten i spel- och filmproduktion. Ansiktsanimationer kräver ofta dyr motion capture och ett stort antal arbetstimmar från specialiserade animatörer. Nu släpper Nvidia sin AI-baserade lösning Audio2Face som öppen källkod - en teknik som kan översätta ljud till ansiktsrörelser och känslouttryck i realtid.

Modellen analyserar fonem, tonfall och rytm i rösten och genererar animationer som kopplas till en karaktärs mimik. Resultatet blir synkroniserade läpprörelser och uttryck som är tillräckligt övertygande för att användas både i färdiginspelade scener och dynamiska spelkaraktärer. På pappret innebär det att även små utvecklare kan skapa animationer som tidigare varit reserverade för storbudgetproduktioner.

Audio2Face-diagram-png.webp

Audio2Face analyserar ljudfilen och konverterar resultatet till ett matchande ansiktsuttryck.

Att koden är öppen betyder inte automatiskt att tekniken är lättillgänglig. Att implementera och träna modeller kräver både datorkraft och viss teknisk kompetens. Vidare stärker Nvidia sin position genom att fler utvecklare knyts till företagets ekosystem av verktyg och ramverk. Open source här är lika mycket en strategi för spridning som en gåva till spelentusiaster.

För spelvärlden kan det ändå innebära en stor förändring. Om även indiestudios kan producera karaktärer med trovärdig mimik, utan att lägga allt för mycket resurser på animation, kan kvalitetsnivån i spelbranschen jämnas ut.

Hjälper eller stjälper Nvidias initiativ för spelindustrin? Gör din röst hörd i tråden!