Cover Image for La nueva inteligencia artificial de DeepMind crea bandas sonoras y diálogos para videos

La nueva inteligencia artificial de DeepMind crea bandas sonoras y diálogos para videos

Una nueva tecnología generativa de IA de DeepMind puede tomar un video y crear efectos de sonido, música e incluso diálogo.

DeepMind, el laboratorio de investigación de inteligencia artificial de Google, ha anunciado que está desarrollando tecnología de inteligencia artificial para generar bandas sonoras para videos. En una publicación en su blog oficial, DeepMind menciona que considera que la tecnología, llamada V2A (abreviatura para "video-audio"), es una pieza esencial del rompecabezas de medios generados por IA. A pesar de que muchas organizaciones, incluyendo DeepMind, han desarrollado modelos de IA para generar videos, estos modelos no pueden crear efectos de sonido sincronizados con los videos que generan. "Los modelos para la generación de videos están avanzando a un ritmo increíble, pero muchos sistemas actuales solo pueden producir contenido silencioso", escribe DeepMind. "La tecnología V2A podría convertirse en un enfoque prometedor para dar vida a las películas generadas".

La tecnología V2A de DeepMind utiliza la descripción de una banda sonora (por ejemplo, "medusas pulsando bajo el agua, vida marina, océano") combinada con un video para crear música, efectos de sonido e incluso diálogos que se ajustan a los personajes y al tono del video, todo ello marcado con la tecnología SynthID de DeepMind para combatir los deepfakes. El modelo de IA que impulsa V2A, un modelo de difusión, fue entrenado con una combinación de sonidos, transcripciones de diálogos y clips de video, según DeepMind. "Al entrenar con video, audio y las anotaciones adicionales, nuestra tecnología aprende a asociar eventos de audio específicos con diversas escenas visuales, respondiendo a la información proporcionada en las anotaciones o transcripciones", explica DeepMind. Se desconoce si alguno de los datos de entrenamiento estaba protegido por derechos de autor, ni si los creadores de esos datos fueron informados del trabajo de DeepMind.

Herramientas de generación de sonido alimentadas por IA no son nuevas. La startup Stability AI lanzó una la semana pasada, y ElevenLabs lanzó una en mayo. Tampoco lo son los modelos para crear efectos de sonido en videos. Un proyecto de Microsoft puede generar videos de habla y canto a partir de una imagen fija, y plataformas como Pika y GenreX han entrenado modelos para tomar un video y hacer una suposición sobre qué música o efectos son apropiados en una escena determinada. Sin embargo, DeepMind afirma que su tecnología V2A es única, ya que puede entender los píxeles crudos de un video y sincronizar automáticamente los sonidos generados con el video, opcionalmente sin descripción.

A pesar de que V2A no es perfecta y DeepMind reconoce este hecho, pues el modelo subyacente no fue entrenado con muchos videos que tuvieran artefactos o distorsiones, lo que resulta en una calidad de audio no especialmente alta para estos. En general, el audio generado no es muy convincente; mi colega Natasha Lomas lo describió como "una mezcla de sonidos estereotipados", y no puedo estar más de acuerdo. Por estas razones, y para prevenir el uso incorrecto, DeepMind ha afirmado que no lanzará la tecnología al público pronto, si es que lo hace. "Para asegurarnos de que nuestra tecnología V2A pueda tener un impacto positivo en la comunidad creativa, estamos recopilando diversas perspectivas y opiniones de creadores y cineastas líderes, y utilizando esta valiosa retroalimentación para informar nuestra investigación y desarrollo continuos", escribe DeepMind. "Antes de considerar abrir el acceso a esta tecnología al público en general, someteremos a nuestra tecnología V2A a rigurosas evaluaciones de seguridad y pruebas".

DeepMind presenta su tecnología V2A como una herramienta especialmente útil para archivistas y personas que trabajan con material de archivo histórico. Sin embargo, la IA generativa en esta línea también amenaza con transformar la industria cinematográfica y televisiva. Se necesitarán protecciones laborales sólidas para garantizar que las herramientas de medios generativos no eliminen empleos, o incluso profesiones enteras.