Anthropic revela los 'prompts del sistema' que impulsan a Claude.

Anthropic ha dado a conocer los mensajes del sistema para Claude, su colección de modelos de inteligencia artificial generativa. Estas instrucciones indican al modelo cómo debe comportarse y qué acciones debe evitar.

Los modelos de inteligencia artificial generativa no poseen realmente características humanas. No cuentan con inteligencia ni personalidad; más bien, son sistemas estadísticos que se dedican a predecir las palabras más probables que seguirán en una frase. Sin embargo, al igual que los internos en un entorno laboral autoritario, cumplen con las instrucciones sin cuestionarlas. Esto incluye los "prompts del sistema" iniciales que establecen sus cualidades básicas y definen lo que deben y no deben hacer.

Cada proveedor de inteligencia artificial generativa, desde OpenAI hasta Anthropic, utiliza estos prompts para tratar de evitar comportamientos inapropiados de los modelos y para guiar el tono y la percepción de sus respuestas. Por ejemplo, un prompt puede instruir a un modelo a ser educado, pero nunca a disculparse, o a ser honesto sobre su incapacidad de saberlo todo. Sin embargo, la mayoría de los proveedores son bastante reservados acerca de estos prompts, aparentemente por razones competitivas, pero también porque conocerlos podría ofrecer formas de eludirlos.

Para revelar el prompt del sistema GPT-4o, por ejemplo, se requiere realizar un ataque de inyección de prompt. No obstante, incluso en ese caso, la salida del sistema no se puede confiar completamente. Por otro lado, Anthropic ha decidido adoptar un enfoque más transparente y ético, haciendo públicos los prompts de sus modelos más recientes (Claude 3 Opus, Claude 3.5 Sonnet y Claude 3.5 Haiku) en sus aplicaciones de iOS y Android, así como en la web. Alex Albert, responsable de relaciones con desarrolladores de Anthropic, comentó en una publicación en X que planean hacer de esta divulgación una práctica habitual mientras actualizan y ajustan sus prompts.

Los prompts más recientes, con fecha del 12 de julio, describen de manera clara lo que los modelos Claude no pueden hacer, como abrir URLs, enlaces o videos. También prohíben la identificación de rostros; el prompt para Claude Opus indica que el modelo debe "responder siempre como si fuera completamente ciego a rostros" y "evitar identificar o nombrar a humanos en imágenes". Además, los prompts destacan ciertas características y rasgos de personalidad que Anthropic desea que los modelos Claude reflejen. Por ejemplo, el prompt para Claude 3 Opus establece que debe parecer "muy inteligente y curiosamente intelectual", disfrutando la interacción y discusión sobre una variedad de temas.

Las instrucciones también indican cómo debe abordar los temas controvertidos, con imparcialidad y objetividad, proporcionando "pensamientos cuidadosos" y "información clara", y evitando comenzar las respuestas con "ciertamente" o "absolutamente". Resulta curioso observar que estos prompts están escritos de una manera que recuerda a un análisis de personaje teatral. El prompt para Opus concluye con "Claude ahora se está conectando con un humano", sugiriendo incorrectamente que Claude tiene una especie de conciencia destinada a satisfacer los deseos de su interlocutor humano. Sin embargo, esto es solo una ilusión.

La revelación de estos registros de cambios en los prompts del sistema, la primera de su tipo por parte de un importante proveedor de IA, presión a otros competidores para que hagan lo mismo. Queda por ver si esta estrategia dará frutos.

inteligencia artificial
transparencia
ética en la IA

Relacionado

Probé la nueva aplicación Pixel Studio de Google y resulta ser un caos.

| agosto 21, 2024

Relacionado

Probé la nueva aplicación Pixel Studio de Google y resulta ser un caos.

| agosto 21, 2024