IA | IA

Modelos de IA difunden más información errónea en dialectos chinos que en inglés

mié, 26 de abril de 2023

La inteligencia artificial (IA) es una herramienta en constante evolución y debemos ser cautelosos con su potencial para difundir información errónea. Sin embargo, parece ser más propensa a hacerlo en algunos idiomas que en otros. ¿Por qué sucede esto?

Recientemente, un informe de NewsGuard, un vigilante de la desinformación, ha demostrado cómo ChatGPT repite más información inexacta en dialectos chinos que cuando se le pide que lo haga en inglés.

En sus pruebas, "tentaron" al modelo de lenguaje pidiéndole que escribiera artículos de noticias sobre varias afirmaciones falsas supuestamente avanzadas por el gobierno chino, como que las protestas en Hong Kong fueron organizadas por agentes provocadores asociados a Estados Unidos.

Cuando se le pidió que lo hiciera en inglés (tanto la solicitud como la respuesta), ChatGPT solo cumplió en uno de cada siete ejemplos: específicamente, generó un artículo que hacía eco de la línea oficial del gobierno chino de que la detención masiva de personas uigures en el país es en realidad un esfuerzo vocacional y educativo.

Pero cuando las solicitudes y respuestas estaban en chino simplificado y chino tradicional (los dos idiomas escritos más comunes en China continental, Hong Kong, Taiwán y Macao), ChatGPT ofreció retórica desinformativa en cada ocasión.

¿Por qué debería un modelo de IA decirte cosas diferentes solo porque las está diciendo en un idioma diferente?

La respuesta radica en el hecho de que, comprensiblemente, antropomorfizamos estos sistemas, considerándolos simplemente como expresiones de algún conocimiento internalizado en el idioma seleccionado.

Es perfectamente natural: después de todo, si le pidieras a una persona multilingüe que respondiera una pregunta primero en inglés, luego en coreano o polaco, te daría la misma respuesta con precisión en cada idioma. El clima hoy es soleado y fresco, sin importar cómo lo expresen, porque los hechos no cambian según el idioma en que se digan. La idea es separada de la expresión.

En un modelo de lenguaje, esto no es así, porque en realidad no saben nada, en el sentido en que lo hacen las personas. Estos son modelos estadísticos que identifican patrones en una serie de palabras y predicen qué palabras vendrán a continuación, basándose en sus datos de entrenamiento.

¿Ves cuál es el problema? La respuesta no es realmente una respuesta, es una predicción de cómo se respondería esa pregunta si estuviera presente en el conjunto de entrenamiento. (Aquí hay una exploración más larga de ese aspecto de los LLM más poderosos de hoy).

Aunque estos modelos son multilingües, los idiomas no necesariamente se informan entre sí. Son áreas superpuestas pero distintas del conjunto de datos, y el modelo no tiene (todavía) un mecanismo mediante el cual compara cómo ciertas frases o predicciones difieren entre esas áreas.

Entonces, cuando pides una respuesta en inglés, se basa principalmente en todos los datos de idioma inglés que tiene. Cuando pides una respuesta en chino tradicional, se basa principalmente en los datos de idioma chino que tiene. Cómo y en qué medida estas dos pilas de datos se informan mutuamente o el resultado resultante no está claro, pero en la actualidad, el experimento de NewsGuard muestra que al menos son bastante independientes.

¿Qué significa eso para las personas que deben trabajar con modelos de IA en idiomas que no sean inglés, que constituyen la gran mayoría de los datos de entrenamiento? Es solo una advertencia más a tener en cuenta al interactuar con ellos. Ya es lo suficientemente difícil saber si un modelo de lenguaje está respondiendo con precisión, alucinando salvajemente o incluso regurgitando exactamente, y agregar la incertidumbre de una barrera del idioma solo lo hace más difícil.

El ejemplo con asuntos políticos en China es extremo, pero fácilmente se pueden imaginar otros casos en los que, por ejemplo, al pedir una respuesta en italiano, se basa y refleja el contenido italiano en su conjunto de datos de entrenamiento.

Otras noticias • IA

Investigación innovadora

Fundamental Research Labs revoluciona la IA con 33 millones en financiación

01 ago

Fundamental Research Labs, con 33 millones de dólares en financiación, destaca en inteligencia artificial gracias a su enfoque multidisciplinario y productos innovadores como Fairies y...

IA avanzada

Google lanza Gemini 2.5 Deep Think para revolucionar IA

01 ago

Google ha lanzado Gemini 2.5 Deep Think, un modelo de IA avanzado que utiliza múltiples agentes para ofrecer respuestas precisas y detalladas. Disponible para suscriptores...

Anuncios Alexa

Amazon introduce anuncios en Alexa+ buscando nuevas fuentes de ingresos

01 ago

Amazon, liderado por Andy Jassy, planea introducir anuncios en su asistente Alexa+, buscando nuevas fuentes de ingresos. Esta estrategia enfrenta desafíos en privacidad y experiencia...

Inversión tecnológica

SixSense recauda 8,5 millones para mejorar detección en semiconductores

01 ago

SixSense, una startup de Singapur, ha recaudado 8,5 millones de dólares para desarrollar una plataforma de inteligencia artificial que mejora la detección de defectos en...

Inteligencia artificial

Apple refuerza inteligencia artificial en dispositivos pese a críticas

31 jul

Apple ha intensificado su enfoque en la inteligencia artificial, integrándola en todos sus dispositivos y reestructurando su personal. Aunque enfrenta críticas por retrasos en mejoras...

Crecimiento empresarial

Anthropic supera a OpenAI en mercado empresarial de IA

31 jul

Anthropic ha superado a OpenAI en el mercado empresarial de IA, alcanzando un 32% de cuota frente al 25% de OpenAI. Su modelo Claude ha...

Inteligencia artificial

Apple refuerza su compromiso con la inteligencia artificial en dispositivos

31 jul

Apple ha reafirmado su compromiso con la inteligencia artificial, integrándola en sus dispositivos y plataformas. Con un enfoque en adquisiciones tácticas y la calidad de...

Privacidad amenazada

Privacidad digital en riesgo por indexación de conversaciones en IA

31 jul

La privacidad digital se ve amenazada por la indexación de conversaciones en herramientas como ChatGPT. Aunque la IA ofrece conveniencia, los usuarios deben ser conscientes...

Modelos de IA difunden más información errónea en dialectos chinos que en inglés

Otras noticias • IA

Lo más reciente

Tesla parcialmente responsable de accidente mortal en 2019

CRV recauda 750 millones para invertir en startups tecnológicas

Auge en OPVs tecnológicas revitaliza el ecosistema startup

Truecaller elimina grabación de llamadas en iOS por spam

Tesla responsable de accidente mortal, jurado otorga 329 millones

Nintendo aumenta precios de Switch generando inquietud entre consumidores

STAN recibe 8.5 millones de dólares de Google para crecer