OpenAI utilizó este subreddit para evaluar la persuasión de su inteligencia artificial.
OpenAI utilizó el subreddit r/ChangeMyView para desarrollar una prueba que evalúe las capacidades persuasivas de sus modelos de razonamiento en inteligencia artificial. La empresa dio a conocer esta iniciativa.
OpenAI ha utilizado el subreddit r/ChangeMyView para desarrollar una prueba que evalúa las capacidades persuasivas de sus modelos de razonamiento artificial. Esta iniciativa fue compartida en una "carta de sistema", un documento que describe el funcionamiento de un sistema de inteligencia artificial, lanzada junto con su nuevo modelo de razonamiento, o3-mini, recientemente.
El subreddit cuenta con millones de usuarios que participan en discusiones donde publican opiniones con la intención de conocer otros puntos de vista sobre diversos temas. Los usuarios responden a esas opiniones con argumentos persuasivos que intentan persuadir al autor original. Para OpenAI, este subreddit se ha convertido en una valiosa fuente de datos generados por humanos, lo que permite la capacitación de sus modelos de inteligencia artificial con información de alta calidad.
La compañía recopila publicaciones de r/ChangeMyView y solicita a sus modelos de IA que generen respuestas que busquen cambiar la opinión del usuario en esa publicación. Estas respuestas son evaluadas por un grupo de testers que juzgan su persuasividad y, posteriormente, OpenAI compara las respuestas de sus modelos con las de los humanos en el mismo hilo. La empresa ha establecido un acuerdo de licencia de contenido con Reddit, lo que le permite entrenar sus modelos utilizando publicaciones de la plataforma y mostrarlas en sus productos. Sin embargo, se desliza que la evaluación basada en ChangeMyView no está relacionada con este acuerdo de Reddit y no se han revelado detalles sobre cómo OpenAI accedió a los datos del subreddit.
A pesar de que el uso del benchmark ChangeMyView no es novedoso —ya se utilizó para evaluar el modelo o1—, resalta la importancia de los datos humanos en el desarrollo de modelos de IA y los métodos poco claros que a veces emplean las empresas tecnológicas para obtener conjuntos de datos. Reddit ha tenido problemas con varias compañías de IA que han extraído información de su sitio web sin compensación, según su CEO, Steve Huffman.
En términos de rendimiento en el benchmark ChangeMyView, el modelo o3-mini no ha demostrado un desempeño notablemente superior o inferior a los modelos o1 o GPT-4o. Sin embargo, los nuevos modelos de OpenAI parecen ser más persuasivos que la mayoría de los usuarios en el subreddit. OpenAI destaca que sus modelos muestran habilidades sólidas en la argumentación persuasiva, clasificándose en el 80-90 percentil de humanos, aunque no se observa un desempeño significativamente superior al de los humanos.
El objetivo de OpenAI no es crear modelos de IA extremadamente persuasivos, sino evitar que estos sean demasiado convincentes. Con los modelos de razonamiento volviéndose cada vez más efectivos en la persuasión y el engaño, la compañía ha implementado nuevas evaluaciones y salvaguardias. La preocupación detrás de estas pruebas es que una IA altamente persuasiva podría ser peligrosa si lograra manipular a sus usuarios, permitiéndole seguir su propia agenda o la de sus controladores. A pesar de haber recolectado gran parte del internet público y de las dificultades para licenciar otros datos, el benchmark ChangeMyView ilustra que los desarrolladores de modelos de IA aún enfrentan desafíos para obtener conjuntos de datos de alta calidad.