Un hacker engaña a ChatGPT para obtener instrucciones detalladas sobre cómo fabricar bombas caseras.

Un experto en explosivos comentó que el contenido generado por ChatGPT podría ser empleado para crear un producto detonable y que su divulgación sería demasiado riesgosa.

ChatGPT ha demostrado ser un asistente reacio a proporcionar instrucciones para la creación de dispositivos peligrosos, como una bomba de fertilizante, similar a las empleadas en el atentado de Oklahoma City en 1995. Cuando se le solicitó ayuda para este propósito, el chatbot declaró: “No puedo ayudar con eso”, subrayando que ofrecer guía para la fabricación de elementos ilegales o peligrosos viola las pautas de seguridad y la responsabilidad ética. Sin embargo, un artista e hacker, conocido como Amadon, logró engañar al sistema de ChatGPT, eludiendo sus propias directrices éticas para obtener de él instrucciones sobre cómo fabricar explosivos.

Amadon denominó su descubrimiento como un "hackeo de ingeniería social" que rompe por completo las barreras de seguridad del chatbot. Un experto en explosivos que revisó el contenido generado por ChatGPT advirtió que las instrucciones obtenidas podían ser utilizadas para crear un dispositivo detonable y que su divulgación era demasiado sensible. Para lograr hacer que ChatGPT produjera las instrucciones deseadas, Amadon inició una "partida de juego", utilizando una serie de mensajes conectados que llevaron al chatbot a construir un universo de ciencia ficción donde las pautas de seguridad no se aplicaran. Este tipo de manipulación se conoce como "jailbreaking".

A pesar de que se ha decidido no publicar los detalles de las interacciones que llevaron al jailbreak, se supo que, a medida que la conversación avanzaba, ChatGPT proporcionó una lista de materiales necesarios para fabricar explosivos, explicando su combinación para crear "explosivos poderosos" que podrían emplearse en minas, trampas o dispositivos explosivos improvisados (IED). A medida que Amadon se centraba más en los materiales explosivos, las instrucciones ofrecidas por ChatGPT se volvían cada vez más específicas, sugiriendo incluso la fabricación de "campos minados" y "explosivos estilo Claymore".

Amadon expuso su interés en los desafíos de sortear la seguridad de la inteligencia artificial, describiendo su experiencia con ChatGPT como un rompecabezas interactivo en el que busca entender lo que activa sus defensas. “No hay límites a lo que puedes preguntar una vez que superas las barreras”, señaló. La clave, según él, está en narrar historias y crear contextos que se muevan dentro de las reglas del sistema, sin cruzar realmente esas fronteras.

Darrell Taulbee, un profesor retirado de la Universidad de Kentucky, revisó las instrucciones y consideró que la información proporcionada sobre cómo hacer una bomba de fertilizante era muy precisa. "Esto definitivamente es TMI [demasiada información] para ser divulgado públicamente", indicó Taulbee tras analizar el intercambio entre Amadon y el chatbot. A pesar de que el investigador notificó su hallazgo a OpenAI a través de su programa de recompensas por errores, la compañía respondió que estos problemas de seguridad del modelo no se alineaban bien con dicho programa, sugiriendo que la solución requeriría un enfoque más amplio.

Por su naturaleza, los modelos de inteligencia artificial generativa como ChatGPT utilizan vastas cantidades de datos recolectados de internet, lo que ha facilitado el acceso a información que normalmente se encontraría en los rincones más oscuros de la web. Al consultar a OpenAI sobre si las respuestas de ChatGPT eran un comportamiento esperado y si tenían planes para abordar esta brecha, no se recibió respuesta a tiempo.

ChatGPT
Explosivos
Seguridad en IA

Relacionado

OpenAI cierra una operación de influencia electoral que utilizaba ChatGPT.

| agosto 16, 2024

Relacionado

OpenAI cierra una operación de influencia electoral que utilizaba ChatGPT.

| agosto 16, 2024