La asistente de inteligencia artificial generativa ChatGPT, una de las grandes victorias tecnológicas de los últimos tiempos, está evolucionando para incorporar funciones de voz e imagen a sus capacidades, según anunció OpenAI. Hasta ahora, ChatGPT ha permitido a los usuarios generar ensayos, poemas y resúmenes a partir de simples comandos de texto. Sin embargo, pronto será posible tener una conversación de voz con el chatbot, haciendo que la interacción sea aún más dinámica.
La guerra de la IA generativa
El anuncio llega el mismo día en que Amazon se compromete a invertir hasta 4.000 millones de dólares en Anthropic, rival de OpenAI. Esta decisión forma parte de una batalla más amplia en el ámbito de la inteligencia artificial generativa, en la que participan gigantes tecnológicos como Google con su chatbot Bard, Meta adoptando una firme filosofía de código abierto para ganar ventaja, y Microsoft estrechando lazos con OpenAI.
Avance en la conversación
Hoy marca una evolución notable para el movimiento de la IA generativa, con OpenAI combinando el mundo familiar de los asistentes de voz con sus potentes modelos de lenguaje grande (LLM).
Por ejemplo, un usuario podrá pedir verbalmente a ChatGPT que invente un cuento para dormir al instante, con algunos comandos de voz para guiar la narrativa. O simplemente, el usuario puede hacerle una pregunta, obteniendo la respuesta de ChatGPT en forma hablada.
Además, los usuarios de ChatGPT podrán buscar respuestas usando imágenes, subiendo una foto de algo y pidiendo a ChatGPT que explique qué es, o que proporcione instrucciones para alcanzar un objetivo.
Nuevas voces para ChatGPT
La función de voz se alimenta de un nuevo modelo de texto a voz que puede generar voces humanas a partir de texto y algunos segundos de voz muestreada. OpenAI ha trabajado con actores de voz profesionales para crear cinco voces diferentes, utilizando su sistema de reconocimiento de voz de código abierto Whisper para transcribir las expresiones verbales en texto.
Spotify también se reveló como un socio de lanzamiento, introduciendo una nueva característica para los podcasters que les permite muestrear su voz y traducir sus programas del inglés al español, francés o alemán, manteniendo su propia voz original. Sin embargo, OpenAI está siendo cautelosa para evitar críticas, ya que no está poniendo esta tecnología a disposición de cualquiera. Ha trabajado específicamente con podcasters como Dax Shepard, Monica Padman, Lex Fridman, Bill Simmons y Steven Bartlett para el lanzamiento.
"La nueva tecnología de voz, capaz de crear voces sintéticas realistas a partir de unos pocos segundos de habla real, abre puertas a muchas aplicaciones creativas y centradas en la accesibilidad", escribió la empresa en una entrada de blog. "Sin embargo, estas capacidades también presentan nuevos riesgos, como la posibilidad de que actores malintencionados suplanten a figuras públicas o cometan fraudes".
Las nuevas funciones comenzarán a desplegarse para los suscriptores de pago Plus y Enterprise en las próximas dos semanas. Para activar las funciones de voz, los usuarios deben ir al menú "configuración" en la aplicación, luego a "nuevas funciones" y optar por las conversaciones de voz. Luego deben tocar el botón de auriculares en la esquina superior derecha y seleccionar la voz que desean.
La función de voz estará limitada inicialmente a las aplicaciones ChatGPT para Android e iOS en una base de beta opt-in, mientras que la búsqueda de imágenes se implementará en todas las plataformas por defecto.
Otras noticias • IA
OpenAI mejora IA tras incidentes de respuestas inapropiadas
OpenAI ha decidido implementar cambios significativos en sus modelos de IA tras incidentes de respuestas inapropiadas de ChatGPT. Se introducirán fases de prueba, mayor transparencia...
Airbnb lanza bot de IA que reduce consultas humanas un 15%
Airbnb ha implementado un bot de servicio al cliente basado en inteligencia artificial en EE. UU., con un 50% de usuarios utilizándolo. Esto ha reducido...
Reddit lanza chatbot para satisfacer a Seekers y aumentar compromiso
Reddit ha identificado dos tipos de usuarios: Scrollers, que buscan interacción comunitaria, y Seekers, que buscan respuestas. Para estos últimos, ha lanzado Reddit Answers, un...
Amazon presenta Alexa+ con IA generativa para interacciones mejoradas
Amazon ha lanzado Alexa+, un asistente digital mejorado con IA generativa, que busca ofrecer interacciones más naturales. Aunque enfrenta retos tecnológicos y limitaciones actuales, la...
Inteligencia artificial revoluciona ciencia, pero genera escepticismo persistente
La inteligencia artificial está transformando la investigación científica, con herramientas como las de FutureHouse que prometen acelerar descubrimientos. Sin embargo, persisten limitaciones y escepticismo entre...
Olmo 2 1B democratiza la IA con un billón de parámetros
Olmo 2 1B, lanzado por Ai2, es un modelo de inteligencia artificial con un billón de parámetros, diseñado para ser accesible y eficiente en dispositivos...
Claude de Anthropic se actualiza con nuevas integraciones avanzadas
Anthropic ha actualizado su chatbot Claude con nuevas integraciones que mejoran su conectividad y capacidad de investigación profunda. Asociaciones con empresas como Atlassian y Zapier...
Google elimina lista de espera y lanza AI Mode para todos
Google ha eliminado la lista de espera para su función AI Mode, permitiendo a todos los usuarios mayores de 18 años en EE. UU. acceder...
Lo más reciente
- 1
Gemini 2.5 Pro de Google completa Pokémon Blue, un hito
- 2
Plataformas de segunda mano se adaptan y crecen en crisis
- 3
Inteligencia artificial prioriza compromiso y descuida calidad en interacciones
- 4
Gemini 2.5 de Google genera más contenido inapropiado y preocupaciones
- 5
Filtración en Raw expone datos sensibles y genera alarma
- 6
Startups innovan en tecnología legal moda y salud a pesar desafíos
- 7
NotebookLM de Google transforma la toma de notas móviles