Cover Image for Antes del lanzamiento de GPT-5, otro examen demuestra que las personas no pueden distinguir ChatGPT de un humano en una conversación...

Antes del lanzamiento de GPT-5, otro examen demuestra que las personas no pueden distinguir ChatGPT de un humano en una conversación...

Se obtuvieron resultados interesantes en la prueba de Turing controlada.

Los avances en inteligencia artificial como GPT-4 han permitido la generación de texto fluido y muy similar al humano, desempeñándose tan bien en diversas tareas de lenguaje que resulta cada vez más difícil distinguir si la persona con la que conversas es humana o una máquina. Este escenario recuerda al famoso experimento mental de Alan Turing, quien propuso una prueba para evaluar si una máquina podía exhibir un comportamiento similar al humano al punto en que un juez humano ya no pudiera distinguir de manera confiable entre un hombre y una máquina basándose únicamente en sus respuestas.

El Departamento de Ciencia Cognitiva de la Universidad de California en San Diego decidió evaluar el desempeño de los sistemas de inteligencia artificial modernos al poner a prueba a ELIZA (un sencillo chatbot basado en reglas de la década de 1960 utilizado como punto de referencia en el experimento), GPT-3.5 y GPT-4 en un Test de Turing controlado. Los participantes mantuvieron una conversación de cinco minutos con un ser humano o con una inteligencia artificial, y luego tenían que decidir si su interlocutor era humano.

GPT-4 y GPT-3.5 fueron instruidos en cómo responder a los mensajes. Los investigadores indicaron a los modelos que "adoptaran la personalidad de una persona joven muy concisa, que no se tomara el juego muy en serio, usara jerga y cometiera errores de ortografía ocasionalmente". Además, el inicio contenía "información general sobre la configuración del juego e información sobre noticias recientes que habían ocurrido después de la fecha límite de entrenamiento del modelo". Ambos modelos fueron accesibles a través de la API de OpenAI con una temperatura establecida en 1 y para evitar que la inteligencia artificial respondiera demasiado rápido, sus mensajes se enviaban con un retraso basado en el número de caracteres del mensaje.

En el estudio, 500 participantes fueron asignados a uno de cinco grupos y conversaron con un ser humano o uno de los tres sistemas de inteligencia artificial. La interfaz del juego se asemejaba a una aplicación de mensajería típica. Después de cinco minutos, los participantes juzgaron si creían que su compañero de conversación era humano o una inteligencia artificial y proporcionaron las razones de sus decisiones.

Los resultados fueron interesantes. GPT-4 fue identificado como humano el 54% de las veces, superando a GPT-3.5 (50%), y ambos superaron significativamente a ELIZA (22%), pero se quedaron rezagados frente a los humanos reales (67%). Los participantes no tuvieron más éxito que el azar al identificar a GPT-4 como inteligencia artificial, lo que indica que los sistemas de inteligencia artificial actuales pueden engañar a las personas haciéndoles creer que son humanos.

El análisis de los resultados mostró que los interrogadores a menudo se basaban en el estilo lingüístico, factores socioemocionales y preguntas basadas en el conocimiento para decidir si estaban hablando con un humano o con una máquina.