DeepMind, el laboratorio de investigación en IA de Google, está desarrollando tecnología de IA para generar bandas sonoras para videos
DeepMind, el laboratorio de investigación en IA de Google, está dando un paso adelante en el desarrollo de tecnología de IA para generar bandas sonoras para videos. Según una publicación en su blog oficial, DeepMind afirma que esta tecnología, conocida como V2A (abreviatura de "video-to-audio"), es una pieza esencial del rompecabezas de medios generados por IA. Aunque muchas organizaciones, incluida DeepMind, han desarrollado modelos de IA para generar videos, estos modelos no pueden crear efectos de sonido para sincronizar con los videos que generan.
“Los modelos de generación de video están avanzando a un ritmo increíble, pero muchos sistemas actuales solo pueden generar resultados en silencio”, escribe DeepMind. “La tecnología V2A podría convertirse en un enfoque prometedor para dar vida a las películas generadas”
La tecnología V2A de DeepMind toma una descripción de una banda sonora (por ejemplo, "medusas pulsando bajo el agua, vida marina, océano") emparejada con un video para crear música, efectos de sonido e incluso diálogos que se ajustan a los personajes y al tono del video, marcados con la tecnología SynthID de DeepMind para combatir deepfakes. El modelo de IA que impulsa V2A, un modelo de difusión, fue entrenado en una combinación de sonidos, transcripciones de diálogos y clips de video, según DeepMind.
"Al entrenar con video, audio y las anotaciones adicionales, nuestra tecnología aprende a asociar eventos de audio específicos con diversas escenas visuales, respondiendo a la información proporcionada en las anotaciones o transcripciones", escribe DeepMind.
Sin embargo, DeepMind no ha revelado si alguno de los datos de entrenamiento estaba protegido por derechos de autor, ni si los creadores de los datos fueron informados del trabajo de DeepMind. Hemos contactado a DeepMind para obtener aclaraciones y actualizaremos esta publicación si recibimos respuesta.
Las herramientas de generación de sonido alimentadas por IA no son novedosas. La startup Stability AI lanzó una la semana pasada, y ElevenLabs lanzó una en mayo. Tampoco lo son los modelos para crear efectos de sonido en video. Un proyecto de Microsoft puede generar videos de habla y canto a partir de una imagen fija, y plataformas como Pika y GenreX han entrenado modelos para tomar un video y hacer una suposición sobre qué música o efectos son apropiados en una escena determinada.
A pesar de las limitaciones de V2A, DeepMind afirma que su tecnología es única en el sentido de que puede entender los píxeles crudos de un video y sincronizar automáticamente los sonidos generados con el video, opcionalmente sin descripción. Sin embargo, el audio generado no es especialmente convincente y no es de alta calidad para videos con artefactos o distorsiones, según DeepMind.
"Para garantizar que nuestra tecnología V2A pueda tener un impacto positivo en la comunidad creativa, estamos recopilando diversas perspectivas e ideas de creadores y cineastas líderes, y utilizando estos valiosos comentarios para informar nuestra investigación y desarrollo continuos", escribe DeepMind. "Antes de considerar abrir el acceso al público en general, nuestra tecnología V2A se someterá a rigurosas evaluaciones de seguridad y pruebas".
DeepMind presenta su tecnología V2A como una herramienta especialmente útil para archiveros y personas que trabajan con metraje histórico. Sin embargo, como se menciona en un artículo de esta mañana, la IA generativa de este tipo también amenaza con trastornar la industria cinematográfica y televisiva. Será necesario contar con protecciones laborales sólidas para garantizar que las herramientas de medios generativos no eliminen empleos, o incluso profesiones enteras.
Otras noticias • IA
Dudas sobre Sam Altman y la ética en OpenAI
La comparecencia de Sam Altman ante el Congreso ha generado dudas sobre su relación con OpenAI, especialmente tras revelaciones sobre su participación a través de...
Boon revoluciona la logística con inteligencia artificial y financiación
Boon, una startup fundada por Deepti Yenireddy, busca transformar la logística mediante inteligencia artificial, optimizando procesos y aumentando la eficiencia. Con 20,5 millones de dólares...
Stem AI busca alinear inteligencia artificial con ética humana
Stem AI, cofundada por Emmett Shear, busca alinear la inteligencia artificial con el comportamiento humano y la ética. Con el respaldo de Andreessen Horowitz, la...
TuSimple se convierte en CreateAI y se enfoca en videojuegos
TuSimple se transforma en CreateAI, abandonando el desarrollo de camiones autónomos para centrarse en la animación y videojuegos. A pesar de controversias sobre prácticas de...
Anysphere recauda 100 millones y alcanza valoración de 2.600 millones
Anysphere, creador de Cursor, ha recaudado 100 millones de dólares en financiación, alcanzando una valoración de 2.600 millones. Su modelo freemium y asociaciones con empresas...
Instagram introduce herramientas de edición de vídeo con IA
Instagram lanzará nuevas herramientas de edición impulsadas por inteligencia artificial que permitirán a los creadores personalizar sus vídeos mediante comandos de texto. Estas innovaciones buscan...
Google lanza Gemini 2.0 para revolucionar la inteligencia artificial
Google ha presentado el modelo Gemini 2.0 Flash Thinking Experimental, que promete avanzar en el razonamiento y la comprensión multimodal de la IA. Aunque enfrenta...
BlueQubit revoluciona la computación cuántica con su plataforma QSaaS
BlueQubit, una startup de San Francisco, lidera la integración de la computación cuántica en aplicaciones reales a través de su plataforma QSaaS. Fundada por alumni...
Lo más reciente
- 1
PearAI demuestra resiliencia y éxito en el emprendimiento tecnológico
- 2
Startups se adaptan a sostenibilidad y cambios en financiación
- 3
NHTSA propone marco para vehículos autónomos, ¿seguridad garantizada?
- 4
Google Gemini se expande a 40 idiomas para investigadores globales
- 5
Inteligencia artificial impulsa oportunidades y diversidad en startups
- 6
ERV impulsa tecnologías limpias y sostenibles en el sector energético
- 7
Uzbekistán lidera la banca digital con innovación y tecnología