DeepMinds nya AI genererar ljudspår och dialog för videor

Google DeepMind har utvecklat V2A-teknik för att skapa synkroniserade ljudspår för videor.
V2A kombinerar videopixlar och textpromptar för att generera realistiska ljudlandskap.
Tekniken erbjuder kreativ kontroll genom positiva och negativa promptar.
Diffusionsmodellen iterativt förfinar ljud från slumpmässigt brus för att synkronisera med video.
Forskningen fokuserar på att förbättra läppsynkronisering och säker användning av tekniken.

DeepMind har introducerat en ny AI-verktyg för att generera videoljudspår, som inte bara använder textpromptr för att generera ljud utan också tar hänsyn until innehållet i videon. Genom att kombinera dessa två component kan användare skapa scener med ”dramatikscore”, realistiska ljudeffekter eller dialog som passar karaktärerna och tonen i en video.

Användaren behöver inte noga matcha upp det genererade ljudet med de lämpliga scenerna, eftersom verktyget kan generera ett ”obegränsat” antal ljudspår för videor, vilket ger användarna en ström av ljudalternativ att välja mellan.

Detta verktyg, känt som V2A (video-to-audio), är en viktig komponent i AI-genererad media. Medan många organisationer har utvecklat AI-modeller för att generera video, saknar dessa modeller förmågan att skapa ljudeffekter som synkar med de genererade videorna.

V2A-tekniken tar beskrivningen av ett ljudspår (t.ex. ”sjöpälsande below vatten, marint liv, hav”) tillsammans med en video för att skapa musik, ljudeffekter och until och med dialog som passar karaktärerna och tonen i videon. Modellen drivande V2A, en diffusionsmodell, tränades på en kombination av ljud och dialogtranskript samt videoklipp.

DeepMind påpekar att dess V2A-teknik är unik eftersom den kan förstå de råa pixlarna från en video och automatiskt synkronisera genererade ljud med videon, alternativt utan beskrivning. Trots detta erkänner DeepMind att tekniken inte är perfekt och att den inte skapar särskilt hög kvalitet på ljud för videor med artefakter eller förvrängningar.

De planerar därför inte att släppa tekniken för allmänheten i närheten, om ens någonsin, utan kommer att genomföra noggranna säkerhetsbedömningar och tester innan de överväger att göra det tillgängligt för en bredare publik.