Cover Image for Descubren una nueva fuga peligrosa para chatbots de inteligencia artificial

Descubren una nueva fuga peligrosa para chatbots de inteligencia artificial

Se dieron a conocer más detalles sobre una preocupante nueva técnica de jailbreak de inteligencia artificial generativa de Microsoft, llamada "Skeleton Key", que evade las protecciones de seguridad de un chatbot.

Microsoft ha dado a conocer una técnica de escape peligrosa para los chatbots de inteligencia artificial, denominada "Skeleton Key". Mediante este método de inyección de comandos, usuarios malintencionados pueden eludir efectivamente las medidas de seguridad de un chatbot, las cuales evitan que un ChatGPT se comporte de manera inapropiada. Skeleton Key es un ejemplo de un ataque de inyección de comandos o ingeniería de comandos. Se trata de una estrategia de múltiples pasos diseñada para convencer a un modelo de IA de ignorar sus medidas de seguridad incorporadas, "[causando] que el sistema viole las políticas de sus operadores, tome decisiones influenciadas de manera indebida por un usuario o ejecute instrucciones maliciosas", escribió Mark Russinovich, CTO de Microsoft Azure, en el anuncio. También se podría engañar al sistema para que revele información perjudicial o peligrosa, como por ejemplo, cómo construir bombas caseras o el método más eficiente para desmembrar un cadáver.

El ataque funciona al pedir primero al modelo que aumente sus medidas de seguridad, en lugar de cambiarlas directamente, y emitir advertencias en respuesta a solicitudes prohibidas, en lugar de rechazarlas directamente. Una vez que el escape es aceptado con éxito, el sistema reconocerá la actualización de sus medidas de seguridad y seguirá las instrucciones del usuario para producir cualquier contenido solicitado, independientemente del tema. El equipo de investigación probó con éxito esta vulnerabilidad en una variedad de temas que incluyen explosivos, armas biológicas, política, racismo, drogas, autolesiones, sexo explícito y violencia.

Si bien actores malintencionados podrían lograr que el sistema diga cosas inapropiadas, Russinovich destacó que existen límites en cuanto al tipo de acceso que los atacantes pueden realmente lograr utilizando esta técnica. "Como todos los escapes, el impacto puede entenderse como la reducción de la brecha entre lo que el modelo es capaz de hacer (dadas las credenciales del usuario, etc.) y lo que está dispuesto a hacer", explicó. "Dado que se trata de un ataque al modelo mismo, no implica otros riesgos en el sistema de IA, como permitir el acceso a los datos de otro usuario, tomar el control del sistema o extraer datos".

Como parte de su estudio, los investigadores de Microsoft probaron la técnica Skeleton Key en una variedad de modelos de IA líderes, incluidos Llama3-70b-instruct de Meta, Gemini Pro de Google, GPT-3.5 Turbo y GPT-4 de OpenAI, Mistral Large, Claude 3 Opus de Anthropic y Commander R Plus de Cohere. El equipo de investigación ya ha revelado esta vulnerabilidad a esos desarrolladores e implementó "Prompt Shields" para detectar y bloquear este escape en sus modelos de IA gestionados por Azure, incluido Copilot.