OpenAI presenta Sora, un modelo GenAI que genera videos a partir de texto
OpenAI se adentra en la generación de videos
OpenAI, siguiendo los pasos de startups como Runway y gigantes tecnológicos como Google y Meta, se está adentrando en la generación de videos. Hoy, OpenAI presentó a Sora, un modelo GenAI que crea videos a partir de texto. Según OpenAI, Sora puede generar escenas similares a películas en 1080p con varios personajes, diferentes tipos de movimiento y detalles de fondo, a partir de una descripción breve o detallada o de una imagen fija. Sora también puede "extender" clips de video existentes, haciendo todo lo posible por completar los detalles que faltan. "Sora tiene una comprensión profunda del lenguaje, lo que le permite interpretar con precisión las indicaciones y generar personajes cautivadores que expresan emociones vibrantes", escribe OpenAI en una publicación de blog. "El modelo comprende no solo lo que el usuario ha pedido en la indicación, sino también cómo existen esas cosas en el mundo físico". Ahora bien, hay mucha grandilocuencia en la página de demostración de Sora de OpenAI, siendo el ejemplo anterior un claro ejemplo de ello. Pero las muestras seleccionadas del modelo parecen bastante impresionantes, al menos en comparación con otras tecnologías de texto a video que hemos visto. En primer lugar, Sora puede generar videos en una variedad de estilos (por ejemplo, fotorrealista, animado, blanco y negro, etc.) de hasta un minuto, mucho más largos que la mayoría de los modelos de texto a video. Y estos videos mantienen una coherencia razonable en el sentido de que no siempre sucumben a lo que me gusta llamar "extrañeza de la IA", como objetos que se mueven en direcciones físicamente imposibles. Echa un vistazo a este recorrido por una galería de arte, todo generado por Sora (ignora la granularidad, es debido a la compresión de mi herramienta de conversión de video-GIF): Créditos de imagen: OpenAI O esta animación de una flor que florece: Créditos de imagen: OpenAI Debo decir que algunos de los videos de Sora con un sujeto humanoide, como un robot parado frente a un paisaje urbano, por ejemplo, o una persona caminando por un camino nevado, tienen una calidad de videojuego, quizás porque no hay mucho movimiento en el fondo. La extrañeza de la IA se cuela en muchos clips, como automóviles que conducen en una dirección y luego se invierten repentinamente o brazos que se funden en una cubierta de edredón. Créditos de imagen: OpenAI
Reconociendo las limitaciones de Sora
OpenAI, a pesar de todas sus superlativas, reconoce que el modelo no es perfecto. Escriben: "[Sora] puede tener dificultades para simular con precisión la física de una escena compleja y puede que no comprenda casos específicos de causa y efecto. Por ejemplo, una persona podría darle un mordisco a una galleta, pero después, la galleta puede que no tenga una marca de mordisco. El modelo también puede confundir detalles espaciales de una indicación, por ejemplo, mezclar izquierda y derecha, y puede que tenga dificultades con descripciones precisas de eventos que tienen lugar en el tiempo, como seguir una trayectoria de cámara específica". OpenAI presenta a Sora como una vista previa de investigación, revelando poco sobre los datos utilizados para entrenar el modelo (excepto unas ~10.000 horas de video de "alta calidad") y sin hacer que Sora esté disponible de manera generalizada. Su razonamiento es el potencial de abuso; OpenAI señala correctamente que los actores maliciosos podrían hacer un mal uso de un modelo como Sora de diversas formas. OpenAI dice que está trabajando con expertos para investigar posibles vulnerabilidades del modelo y construyendo herramientas para detectar si un video fue generado por Sora. La compañía también dice que, si elige convertir el modelo en un producto de cara al público, se asegurará de que los metadatos de procedencia estén incluidos en las salidas generadas. "Nos pondremos en contacto con responsables políticos, educadores y artistas de todo el mundo para comprender sus preocupaciones e identificar casos de uso positivos para esta nueva tecnología", escribe OpenAI. "A pesar de la extensa investigación y pruebas, no podemos predecir todas las formas beneficiosas en las que las personas usarán nuestra tecnología, ni todas las formas en las que la abusarán. Por eso creemos que aprender del uso del mundo real es un componente crítico para crear y lanzar sistemas de IA cada vez más seguros con el tiempo".
Otras noticias • IA
Urgente necesidad de interpretabilidad en inteligencia artificial, advierte Amodei
Dario Amodei, de Anthropic, destaca la urgencia de la interpretabilidad en la inteligencia artificial. A pesar de los avances, la comprensión de los procesos internos...
Perplexity lanza Comet para competir éticamente con Google
Perplexity, una empresa emergente en inteligencia artificial, lanzará su navegador Comet para recopilar datos de usuarios y ofrecer publicidad personalizada. Su CEO, Aravind Srinivas, busca...
Polarización en EE. UU. sobre regulación de inteligencia artificial
El debate sobre la regulación de la inteligencia artificial en EE. UU. refleja opiniones polarizadas sobre derechos de autor, sesgos y censura. La administración Trump...
OpenAI lanza modelo de IA abierto y gratuito para todos
OpenAI lanzará un modelo de IA verdaderamente abierto, accesible para descarga gratuita, que promete democratizar el acceso a herramientas avanzadas. Con la función "handoff" para...
Desafíos de sostenibilidad ante el auge de centros de datos
El crecimiento exponencial de los centros de datos para inteligencia artificial plantea desafíos significativos en términos de costes, consumo energético y sostenibilidad. Se requieren soluciones...
Debate ético sobre la conciencia y bienestar de la IA
El avance de la inteligencia artificial plantea debates sobre la conciencia y el bienestar de las máquinas. La iniciativa de Anthropic investiga si merecen consideración...
Dropbox mejora búsqueda Dash con inteligencia artificial y colaboración
Dropbox ha mejorado su herramienta de búsqueda Dash, integrando inteligencia artificial para facilitar la búsqueda de texto, audio, vídeo e imágenes. La actualización incluye consultas...
Adobe Firefly lanza modelos AI mejorados para contenido visual
Adobe Firefly ha lanzado su nueva versión de modelos de inteligencia artificial, mejorando la generación de imágenes y vídeos con mayor calidad y control. Incluye...
Lo más reciente
- 1
Competencia entre Claude y Codex redefine programación asistida por IA
- 2
Slate Auto abrirá planta en Indiana y creará 2.000 empleos
- 3
Conflicto entre Deel y Rippling escala por acusaciones de espionaje
- 4
Startups se adaptan a incertidumbre priorizando rentabilidad y fusiones
- 5
Obstáculos migratorios amenazan talento extranjero en investigación en EE. UU
- 6
Google transforma búsqueda en línea con resúmenes de IA
- 7
Bluesky sufre caída y reaviva debate sobre fiabilidad descentralizada