DeepMind di Google ha recentemente presentato V2A, la sua nuova tecnologia progettata per generare colonne sonore e dialoghi per video creati dall’IA. Questo sviluppo rappresenta un passo avanti significativo nel campo della generazione multimediale automatizzata, consentendo di sincronizzare automaticamente suoni e musiche con i video prodotti.
Secondo quanto riportato nel blog ufficiale di DeepMind, la tecnologia V2A (ovvero Video-to-Audio) è stata concepita per colmare una lacuna esistente nei modelli attuali di generazione video, in quanto spesso sono limitati alla produzione di contenuti senza audio. Questo nuovo strumento utilizza un modello di IA avanzato e addestrato su una vasta gamma di suoni e trascrizioni di dialoghi per interpretare e associare in modo intelligente eventi audio specifici a scene visive, utilizzando anche la tecnologia SynthID di DeepMind per prevenire deepfake.
Nonostante i progressi, DeepMind riconosce che ci sono ancora sfide da affrontare. L’audio generato attualmente non raggiunge sempre una qualità ottimale, come rilevato da alcuni esperti nel settore. Natasha Lomas, in particolare, ha descritto l’output come “un mix di suoni stereotipati”, evidenziando la necessità di ulteriori miglioramenti prima di un potenziale rilascio pubblico.
Inoltre, DeepMind ha espresso preoccupazioni riguardo all’uso improprio della tecnologia e ha chiarito che non è ancora pronto a renderla disponibile al grande pubblico.
Leggi l’articolo completo: DeepMind’s new AI generates soundtracks and dialogue for videos su techcrunch.com.

Foto di Hardeep Singh su Pexels.

