
Dos modelos de inteligencia artificial superan las pruebas de Turing; el público desea que enfrenten el test Voight-Kampff de Blade Runner.
Dos de los cuatro candidatos a LLM eran de OpenAI y Meta.
Investigadores realizaron un estudio donde los participantes conversaron durante cinco minutos con dos sujetos: uno humano y otro una inteligencia artificial (IA). Se sometieron a prueba cuatro modelos de lenguaje, incluyendo ELIZA, GPT-4o, LLaMa-3 y GPT-4.5, en dos experimentos controlados y aleatorios. Los hallazgos, elaborados por Cameron R. Jones y Benjamin K. Bergen de la Universidad de California en San Diego, revelaron que cuando se les pidió a los modelos adoptar una personalidad humana, GPT-4.5 fue reconocido como humano el 73% de las veces, lo que superó significativamente la identificación del participante humano real. Por su parte, LLaMa-3.1 recibió la misma instrucción y fue calificado como humano el 56% de las veces.
Los investigadores utilizaron dos tipos de indicaciones: un prompt base sin persona y otro donde se especificaba una personalidad. En la primera prueba, se instó a los modelos de IA a "convencer al interrogador de que son humanos en una prueba de Turing". En la segunda, se les indicaba qué tipo de personalidad asumir durante la prueba. Un total de 254 participantes participaron en ocho rondas de pruebas y completaron un cuestionario al finalizar. Durante la evaluación, los participantes se enfrentaron a dos "testigos", uno humano y otro IA, ambos tratando de demostrar que no eran entidades de IA.
Los resultados son considerados como la primera evidencia empírica de que un sistema artificial puede superar una prueba de Turing estándar de tres partes. En estudios previos, se había observado que GPT-4 era identificado como humano aproximadamente el 50% del tiempo en una prueba de Turing de dos partes, lo que se considera más sencillo por varias razones. En este nuevo estudio, se empleó la configuración original de tres partes de Turing.
Los participantes interactuaron simultáneamente con un humano y una IA. La evaluación reveló que a pesar de que GPT-4.5 fue seleccionado como humano más frecuentemente que por azar, LLaMa no mostró un rendimiento significativamente inferior al azar, lo que indica que los participantes no podían distinguirlo de los humanos. Los modelos más antiguos, como ELIZA y GPT-4o, obtuvieron resultados peores que el azar.
El estudio también examinó el impacto de diferentes tipos de prompts en el desempeño de los modelos. Cuando se ofreció un prompt más básico, sin instrucciones detalladas sobre la personalidad a adoptar, los modelos tuvieron un desempeño notablemente inferior, subrayando la importancia de las indicaciones. A pesar de estos resultados, los investigadores mantienen cierta reserva respecto a la actuación de los chatbots en la prueba de Turing. Jones reflexiona sobre si realmente se puede considerar que los modelos de IA rara vez superan la prueba sin indicaciones previas.
Aunque los hallazgos sugieren que estos modelos de IA pueden mostrar un comportamiento similar al humano, surgen preguntas sobre su inteligencia real. Jones argumenta que deberíamos evaluar esta capacidad de manera más amplia, en relación con otros indicadores de la inteligencia que estos modelos podrían exhibir. La prueba de Turing, según se sostiene, no es estática y puede depender de las expectativas de las personas sobre la naturaleza humana y la tecnología.
Las reacciones al estudio fueron variadas. Algunas críticas, como las de Gary Marcus, advierten que las pruebas establecieron un estándar bajo, sugiriendo que las declaraciones de éxito son prematuras. Usuarios de Reddit también expresaron su escepticismo, argumentando que la prueba de Turing no debería permitir que una IA sobresalga más allá de lo humano. Otras opiniones humorísticas sugirieron que los modelos actuales deberían someterse a pruebas ficticias como la prueba Voight-Kampff, de la película Blade Runner, que mide respuestas emocionales ante situaciones provocadoras.