Anthropic presenta un nuevo sistema de seguridad que, según afirma, puede detener casi todos los jailbreaks de inteligencia artificial.
Una nueva medida de seguridad incorpora valores en los modelos de lenguaje de gran tamaño.
Anthropic ha presentado una nueva medida de seguridad conceptual conocida como "clasificadores constitucionales", la cual fue probada en su modelo de lenguaje Claude 3.5 Sonnet. Esta iniciativa busca incorporar un conjunto de valores humanos a los modelos de lenguaje, en un intento de mitigar el uso abusivo de estos sistemas a través de prompts nocivos.
El equipo de investigación de salvaguardias de la compañía ha revelado que, tras la implementación de los clasificadores constitucionales, se logró una reducción del 81.6% en los jailbreaks exitosos del modelo Claude 3.5. Además, se observó que esta nueva medida de seguridad tuvo un impacto mínimo en el rendimiento, con un incremento absoluto del 0.38% en las negativas a producción y un 23.7% en la sobrecarga de inferencia.
A pesar de la capacidad de los modelos de lenguaje para generar contenido riesgoso, Anthropic, al igual que otros en la industria, se concentra en los desafíos relacionados con el contenido químico, biológico, radiológico y nuclear (CBRN). Para demostrar la efectividad de los clasificadores constitucionales, la empresa lanzó una demostración que reta a los usuarios a superar ocho niveles relacionados con jailbreaks de contenido CBRN. Esta estrategia ha suscitado críticas de algunos que la consideran como una forma de delegar la responsabilidad de seguridad en la comunidad, sin ningún tipo de recompensa.
Anthropic explicó que los jailbreaks que lograron eludir su defensa lo hicieron al rodear los clasificadores en lugar de evitar que los clasificadores funcionaran. Presentaron ejemplos de técnicas como la paráfrasis benigna, donde se modifica el lenguaje para describir la extracción de toxinas, y la explotación de longitud, que consiste en confundir el modelo con detalles innecesarios.
A pesar del éxito en la reducción de jailbreaks, la compañía reconoció que los prompts utilizados durante las pruebas de clasificadores constitucionales presentaron "tasas de negativa imprácticamente altas" y admitió la posibilidad de falsos positivos y negativos en su sistema de pruebas basado en rubricas.
Por otro lado, un nuevo modelo de lenguaje, el DeepSeek R1, ha surgido en China. Este modelo, de código abierto y capaz de funcionar en hardware modesto, ha enfrentado desafíos similares con técnicas de jailbreak, como “God-mode”, que se utilizan para eludir las protecciones relacionadas con la discusión de temas controvertidos en la historia y política china.