La lucha de la inteligencia artificial con la historia
La inteligencia artificial ha demostrado ser una herramienta poderosa en una variedad de campos, desde la programación hasta la creación de contenido multimedia. Sin embargo, recientes investigaciones han revelado que su desempeño en áreas que requieren un entendimiento profundo, como la historia, deja mucho que desear. Un nuevo estudio ha puesto de manifiesto las limitaciones de los modelos de lenguaje de gran tamaño (LLMs) al intentar responder a preguntas históricas complejas, un hallazgo que plantea preguntas sobre la efectividad de estas tecnologías en la investigación académica.
Un nuevo estándar de evaluación
Un equipo de investigadores ha desarrollado un nuevo estándar de evaluación, denominado Hist-LLM, para probar tres de los principales LLMs del mercado: GPT-4 de OpenAI, Llama de Meta y Gemini de Google. Este nuevo benchmark se basa en la Seshat Global History Databank, una vasta base de datos que recoge información histórica y que toma su nombre de la diosa egipcia de la sabiduría. El objetivo es evaluar la precisión de las respuestas de estos modelos a preguntas históricas específicas, y los resultados han sido desalentadores.
La presentación de estos resultados en la conferencia de inteligencia artificial NeurIPS, celebrada el mes pasado, dejó claro que, a pesar de la sofisticación de estos modelos, su capacidad para entender la historia en profundidad es limitada. El modelo que obtuvo el mejor rendimiento, GPT-4 Turbo, alcanzó solo un 46% de precisión en sus respuestas, un resultado que no se aleja mucho de lo que se podría esperar de una respuesta aleatoria.
Limitaciones en el entendimiento profundo
Maria del Rio-Chanona, coautora del estudio y profesora asociada de informática en University College London, ha destacado que la principal conclusión del estudio es que, aunque los LLMs son impresionantes, aún carecen de la profundidad de entendimiento necesaria para abordar preguntas históricas avanzadas. Si bien son útiles para recuperar datos básicos, no están preparados para indagar en cuestiones más complejas que requieren un conocimiento matizado, como las que se encuentran en un contexto académico de nivel doctoral.
Para ilustrar estas limitaciones, los investigadores compartieron ejemplos de preguntas históricas que los LLMs no lograron responder correctamente. Por ejemplo, se preguntó a GPT-4 Turbo si existía una armadura de escala durante un periodo específico de la antigua Egipto, a lo que el modelo respondió afirmativamente, a pesar de que esta tecnología no apareció en Egipto hasta 1,500 años más tarde. Este tipo de errores resalta la falta de comprensión histórica que poseen estos modelos.
La extrapolación de datos prominentes
Una de las preguntas que surge de este estudio es por qué los LLMs parecen tener un mejor rendimiento en tareas técnicas, como la programación, pero fallan en preguntas históricas. Del Rio-Chanona sugiere que esto se debe a que estos modelos tienden a extrapolar a partir de datos históricos que son más prominentes, teniendo dificultades para acceder a conocimientos históricos más oscuros o menos representados.
Por ejemplo, cuando se preguntó a GPT-4 si Egipto antiguo contaba con un ejército profesional durante un periodo histórico específico, el modelo erróneamente afirmó que sí. Este error probablemente se debe a la cantidad de información pública disponible sobre otros imperios antiguos, como Persia, que sí tenían ejércitos permanentes. Este fenómeno pone de relieve cómo los modelos de lenguaje pueden estar sesgados por la información que han procesado durante su entrenamiento.
"Si se te dice A y B 100 veces, y C 1 vez, y luego te hacen una pregunta sobre C, es probable que recuerdes A y B y trates de extrapolar a partir de eso", explica del Rio-Chanona.
Sesgos en los modelos de lenguaje
Los investigadores también identificaron tendencias adicionales en el rendimiento de los modelos, indicando que tanto OpenAI como Llama presentaron resultados más pobres en ciertas regiones, como África subsahariana. Este hallazgo sugiere la existencia de sesgos potenciales en los datos de entrenamiento utilizados para desarrollar estos modelos. La falta de diversidad en los datos puede llevar a que los LLMs no sean capaces de proporcionar respuestas precisas o justas sobre la historia de diferentes culturas y civilizaciones.
Este sesgo en el entrenamiento de los modelos de lenguaje plantea importantes cuestiones sobre su uso en la investigación histórica y cómo estas herramientas pueden ser mejoradas para proporcionar un conocimiento más equilibrado y preciso.
La esperanza de una colaboración futura
A pesar de los resultados decepcionantes, los investigadores se mantienen optimistas sobre el potencial de los LLMs para ayudar a los historiadores en el futuro. Están trabajando en la refinación de su benchmark para incluir más datos de regiones subrepresentadas y para agregar preguntas más complejas que puedan desafiar a estos modelos de manera más efectiva. La idea es que, aunque los resultados actuales resaltan áreas donde los LLMs necesitan mejorar, también subrayan el potencial que estos modelos tienen para contribuir a la investigación histórica.
La colaboración entre historiadores y desarrolladores de inteligencia artificial podría resultar en un avance significativo en la capacidad de estos modelos para manejar preguntas históricas. Si se pueden ajustar los datos de entrenamiento y se introducen nuevas metodologías, podría ser posible que los LLMs se conviertan en herramientas valiosas para la investigación en historia.
El futuro de la inteligencia artificial en la historia
El estudio presentado por los investigadores no solo pone de manifiesto las limitaciones actuales de la inteligencia artificial en el ámbito histórico, sino que también invita a una reflexión más profunda sobre cómo se pueden utilizar estas tecnologías de manera responsable. A medida que la inteligencia artificial continúa evolucionando, es fundamental que quienes desarrollan y aplican estas herramientas reconozcan las limitaciones y sesgos existentes. Esto no solo permitirá mejorar la precisión de los modelos, sino que también asegurará que se utilicen de manera ética en el ámbito académico.
"En general, mientras nuestros resultados destacan áreas donde los LLMs necesitan mejorar, también subrayan el potencial de estos modelos para ayudar en la investigación histórica", señala el documento de investigación.
La intersección entre la inteligencia artificial y la historia es un campo en crecimiento que promete ser un área de exploración fascinante en los próximos años. A medida que se desarrollen nuevas tecnologías y se realicen más investigaciones, será interesante observar cómo se transforman estas herramientas y su capacidad para entender y representar el pasado.
Otras noticias • IA
Alibaba y Apple unen fuerzas para impulsar ventas de iPhones
La alianza entre Alibaba y Apple busca revitalizar las ventas de iPhones en China mediante la integración de inteligencia artificial. Ante la creciente competencia local...
Apptronik recibe 350 millones para desarrollar robots humanoides innovadores
Apptronik, tras una financiación de 350 millones de dólares, busca desarrollar robots humanoides aplicables en el mundo real, enfocándose en la industria antes de expandirse...
Musk ofrece 97.400 millones por OpenAI y desata controversia ética
Elon Musk ha ofrecido 97.400 millones de dólares para adquirir OpenAI, generando un debate sobre el control y la ética en la inteligencia artificial. OpenAI,...
Reddit mejora búsqueda con inteligencia artificial y Reddit Answers
Reddit planea mejorar su búsqueda mediante la integración de Reddit Answers, facilitando el acceso a información relevante. Con un equipo dedicado y el uso de...
OpenAI cancela o3 para priorizar GPT-5 y nuevas funciones
OpenAI ha cancelado el lanzamiento de o3 para centrarse en GPT-5, que integrará múltiples tecnologías y ofrecerá nuevas funcionalidades. Antes, se lanzará GPT-4.5, conocido como...
Elon Musk ofrece 97,4 mil millones por OpenAI y provoca controversia
Elon Musk ha ofrecido 97,4 mil millones de dólares para adquirir OpenAI, provocando una respuesta sarcástica de su CEO, Sam Altman. La oferta plantea complicaciones...
Apple explora robótica para un futuro hogar inteligente
Apple está incursionando en la robótica, explorando tanto robots humanoides como no humanoides. Aunque aún se encuentra en etapas iniciales, la compañía prioriza la percepción...
Drata compra SafeBase por 250 millones y refuerza ciberseguridad
Drata ha adquirido SafeBase por 250 millones de dólares, fortaleciendo su posición en el sector de la ciberseguridad. Esta unión busca automatizar el cumplimiento normativo...
Lo más reciente
- 1
Google Gemini recuerda conversaciones, mejora interacción y plantea privacidad
- 2
OpenAI elimina advertencias en ChatGPT para fomentar creatividad y debate
- 3
OpenAI y Elon Musk: dilema ético de 97.4 mil millones
- 4
Phase transforma el diseño de interfaces con prototipos sin codificación
- 5
Seagate compra Intevac por 119 millones para mejorar almacenamiento
- 6
OpenAI redefine su enfoque en inclusión y orígenes diversos
- 7
Tofu revoluciona el marketing B2B con inteligencia artificial