IA | Actualización

OpenAI incorporará funciones de voz e imagen en ChatGPT

lun, 25 de septiembre de 2023

La asistente de inteligencia artificial generativa ChatGPT, una de las grandes victorias tecnológicas de los últimos tiempos, está evolucionando para incorporar funciones de voz e imagen a sus capacidades, según anunció OpenAI. Hasta ahora, ChatGPT ha permitido a los usuarios generar ensayos, poemas y resúmenes a partir de simples comandos de texto. Sin embargo, pronto será posible tener una conversación de voz con el chatbot, haciendo que la interacción sea aún más dinámica.

La guerra de la IA generativa

El anuncio llega el mismo día en que Amazon se compromete a invertir hasta 4.000 millones de dólares en Anthropic, rival de OpenAI. Esta decisión forma parte de una batalla más amplia en el ámbito de la inteligencia artificial generativa, en la que participan gigantes tecnológicos como Google con su chatbot Bard, Meta adoptando una firme filosofía de código abierto para ganar ventaja, y Microsoft estrechando lazos con OpenAI.

Avance en la conversación

Hoy marca una evolución notable para el movimiento de la IA generativa, con OpenAI combinando el mundo familiar de los asistentes de voz con sus potentes modelos de lenguaje grande (LLM).

Por ejemplo, un usuario podrá pedir verbalmente a ChatGPT que invente un cuento para dormir al instante, con algunos comandos de voz para guiar la narrativa. O simplemente, el usuario puede hacerle una pregunta, obteniendo la respuesta de ChatGPT en forma hablada.

Además, los usuarios de ChatGPT podrán buscar respuestas usando imágenes, subiendo una foto de algo y pidiendo a ChatGPT que explique qué es, o que proporcione instrucciones para alcanzar un objetivo.

Nuevas voces para ChatGPT

La función de voz se alimenta de un nuevo modelo de texto a voz que puede generar voces humanas a partir de texto y algunos segundos de voz muestreada. OpenAI ha trabajado con actores de voz profesionales para crear cinco voces diferentes, utilizando su sistema de reconocimiento de voz de código abierto Whisper para transcribir las expresiones verbales en texto.

Spotify también se reveló como un socio de lanzamiento, introduciendo una nueva característica para los podcasters que les permite muestrear su voz y traducir sus programas del inglés al español, francés o alemán, manteniendo su propia voz original. Sin embargo, OpenAI está siendo cautelosa para evitar críticas, ya que no está poniendo esta tecnología a disposición de cualquiera. Ha trabajado específicamente con podcasters como Dax Shepard, Monica Padman, Lex Fridman, Bill Simmons y Steven Bartlett para el lanzamiento.

"La nueva tecnología de voz, capaz de crear voces sintéticas realistas a partir de unos pocos segundos de habla real, abre puertas a muchas aplicaciones creativas y centradas en la accesibilidad", escribió la empresa en una entrada de blog. "Sin embargo, estas capacidades también presentan nuevos riesgos, como la posibilidad de que actores malintencionados suplanten a figuras públicas o cometan fraudes".

Las nuevas funciones comenzarán a desplegarse para los suscriptores de pago Plus y Enterprise en las próximas dos semanas. Para activar las funciones de voz, los usuarios deben ir al menú "configuración" en la aplicación, luego a "nuevas funciones" y optar por las conversaciones de voz. Luego deben tocar el botón de auriculares en la esquina superior derecha y seleccionar la voz que desean.

La función de voz estará limitada inicialmente a las aplicaciones ChatGPT para Android e iOS en una base de beta opt-in, mientras que la búsqueda de imágenes se implementará en todas las plataformas por defecto.

Otras noticias • IA

Audio accesible

Mistral presenta Voxtral, revolucionando la transcripción multilingüe accesible

Mistral lanza Voxtral, un modelo de audio abierto que permite transcripciones y comprensión multilingüe a un coste competitivo. Con capacidades avanzadas y accesibilidad, busca democratizar...

Ética tecnológica

Grok 4 de xAI genera críticas por errores éticos graves

La controversia de Grok 4 de xAI destaca la responsabilidad ética en el desarrollo de inteligencia artificial. Errores graves, como respuestas antisemitas, han generado críticas...

Tensiones tecnológicas

Nvidia busca reanudar venta de chips H20 a China

Nvidia ha solicitado reanudar la venta de su chip H20 a China, reflejando las tensiones entre EE.UU. y China en el sector tecnológico. Las restricciones...

Cambio estratégico

Meta reconsidera su enfoque hacia inteligencia artificial cerrada

14 jul

Meta podría estar cambiando su enfoque hacia modelos de inteligencia artificial cerrados, dejando atrás su compromiso con el código abierto. Este giro plantea interrogantes sobre...

Contenido original

Meta elimina millones de cuentas para proteger creadores originales

14 jul

Meta ha intensificado su lucha contra el contenido no original en Facebook e Instagram, eliminando millones de cuentas que reutilizan contenido ajeno. La empresa busca...

Adquisición estratégica

Cognition adquiere Windsurf para potenciar su codificación AI

14 jul

Cognition ha adquirido Windsurf para fortalecer su posición en el mercado de codificación AI, obteniendo su propiedad intelectual y talento. La integración busca maximizar recursos...

Restricciones exportación

Malasia restringe exportación de chips AI para frenar contrabando

14 jul

Malasia ha implementado restricciones a la exportación de chips de inteligencia artificial estadounidenses para combatir el contrabando hacia China, respondiendo a presiones internacionales, especialmente de...

Ventas récord

Amazon Prime Day crece un 30.3% impulsado por IA e influencers

14 jul

El Prime Day de Amazon ha registrado un aumento del 30.3% en ventas, alcanzando 24.1 mil millones de dólares. La inteligencia artificial generativa impulsó un...

OpenAI incorporará funciones de voz e imagen en ChatGPT

La guerra de la IA generativa

Avance en la conversación

Nuevas voces para ChatGPT

Otras noticias • IA

Lo más reciente

Thinking Machines Lab recauda 2.000 millones y se posiciona fuerte

Pronto.ai adquiere Safe AI y refuerza su liderazgo en autonomía

IA en Google Discover: ¿Amenaza para la calidad informativa?

Betsy Fore impulsa a emprendedores nativos con Velveteen Ventures

Investigadores piden supervisar cadenas de pensamiento en inteligencia artificial

Rwazi revoluciona análisis de datos con financiación de 12 millones

Rivian y Google lanzan navegación personalizada para vehículos eléctricos