Cover Image for La inteligencia artificial no destaca en historia, según un nuevo estudio.

La inteligencia artificial no destaca en historia, según un nuevo estudio.

Un nuevo estudio ha revelado que los modelos de lenguaje más avanzados no obtuvieron buenos resultados en una prueba de historia a nivel superior.

Un reciente estudio revela que, aunque las inteligencias artificiales pueden sobresalir en tareas como la programación o la creación de podcasts, tienen dificultades para responder correctamente a preguntas de historia a un nivel avanzado. Un equipo de investigadores ha desarrollado un nuevo estándar de evaluación, denominado Hist-LLM, que pone a prueba a tres destacados modelos de lenguaje: GPT-4 de OpenAI, Llama de Meta y Gemini de Google, a través de preguntas históricas. Este benchmark evalúa la precisión de las respuestas en función de la Seshat Global History Databank, una extensa base de datos de conocimientos históricos que lleva el nombre de la diosa egipcia de la sabiduría.

Los resultados presentados en una conferencia de inteligencia artificial de gran relevancia, NeurIPS, resultaron ser decepcionantes. El modelo más destacado fue GPT-4 Turbo, que logró únicamente un 46% de precisión, una cifra apenas superior a la de una respuesta aleatoria. Según Maria del Rio-Chanona, coautora del estudio y profesora asociada de informática en University College London, el hallazgo más significativo es que, a pesar de las impresionantes capacidades de los modelos de lenguaje, aún les falta la profundidad de comprensión necesaria para abordar cuestiones históricas avanzadas. Aunque son eficientes para hechos básicos, no están preparados para indagaciones históricas más sutiles a nivel doctoral.

Los investigadores compartieron ejemplos de preguntas históricas que resultaron erróneas en los modelos de lenguaje. En una de ellas, se preguntó a GPT-4 Turbo si la armadura de escamas se utilizó en un periodo específico de la historia de Egipto. El modelo afirmó que sí, aunque esta tecnología apareció en Egipto 1,500 años después. Al indagar por qué los modelos de lenguaje son inconsistentes en preguntas técnicas de historia, mientras que sobresalen en preguntas complejas de otras áreas, del Rio-Chanona sugirió que esto se debe a que tienden a extrapolar de datos históricos muy prominentes, teniendo dificultades para recuperar conocimiento histórico más oscuro.

Asimismo, se observó que los modelos de OpenAI y Llama tenían un desempeño inferior en regiones como el África subsahariana, lo que sugiere posibles sesgos en los datos utilizados para su entrenamiento. Esto pone de manifiesto que los modelos de lenguaje no pueden sustituir totalmente a los humanos en ciertos ámbitos. Sin embargo, los investigadores mantienen la esperanza de que en el futuro puedan asistir a los historiadores. Están trabajando en mejorar su benchmark al incluir más datos de regiones subrepresentadas y al plantear preguntas más complejas. En resumen, aunque los resultados evidencian áreas en las que los modelos de lenguaje necesitan mejorar, también subrayan su potencial para contribuir a la investigación histórica.