Cover Image for Claude de Anthropic añade un entorno de pruebas para mejorar rápidamente tus aplicaciones de IA.

Claude de Anthropic añade un entorno de pruebas para mejorar rápidamente tus aplicaciones de IA.

El año pasado, la ingeniería rápida se convirtió en un trabajo popular en la industria de la inteligencia artificial, pero ahora parece que Anthropic está desarrollando herramientas para automatizar al menos parcialmente este proceso.

El año pasado, la ingeniería de prompts se convirtió en un trabajo destacado en la industria de la inteligencia artificial, pero parece que Anthropic está desarrollando herramientas para automatizar al menos parcialmente este proceso. Anthropic lanzó varias características nuevas el martes para ayudar a los desarrolladores a crear aplicaciones más útiles con el modelo de lenguaje de la startup, Claude, según una publicación en el blog de la empresa. Ahora, los desarrolladores pueden utilizar Sonnet Claude 3.5 para generar, probar y evaluar prompts, utilizando técnicas de ingeniería de prompts para crear mejores entradas y mejorar las respuestas de Claude para tareas especializadas. Los modelos de lenguaje suelen ser indulgentes cuando se les pide que realicen algunas tareas, pero a veces pequeños cambios en la redacción de un prompt pueden llevar a grandes mejoras en los resultados. Normalmente tendrías que descubrir esa redacción por ti mismo o contratar a un ingeniero de prompts para hacerlo, pero esta nueva característica ofrece retroalimentación rápida que podría hacer que encontrar mejoras sea más fácil. Las características se encuentran dentro de Anthropic Console en una nueva pestaña llamada Evaluate. Console es la cocina de pruebas de la startup para desarrolladores, creada para atraer a empresas interesadas en construir productos con Claude. Una de las características, presentada en mayo, es el generador de prompts incorporado de Anthropic; este toma una breve descripción de una tarea y construye un prompt mucho más extenso y elaborado, utilizando las propias técnicas de ingeniería de prompts de Anthropic. Aunque las herramientas de Anthropic pueden no reemplazar por completo a los ingenieros de prompts, la compañía afirmó que ayudaría a los nuevos usuarios y ahorraría tiempo a los ingenieros de prompts experimentados. Dentro de Evaluate, los desarrolladores pueden probar qué tan efectivos son los prompts de su aplicación de IA en una variedad de escenarios. Pueden cargar ejemplos del mundo real en un conjunto de pruebas o pedirle a Claude que genere una serie de casos de prueba generados por IA. Luego, los desarrolladores pueden comparar qué tan efectivos son varios prompts lado a lado y calificar las respuestas de muestra en una escala de cinco puntos. Un ejemplo de la publicación en el blog de Anthropic muestra que un desarrollador identificó que su aplicación ofrecía respuestas demasiado cortas en varios casos de prueba. El desarrollador pudo ajustar una línea en su prompt para hacer que las respuestas fueran más largas y aplicarlo simultáneamente a todos sus casos de prueba. Eso podría ahorrar mucho tiempo y esfuerzo a los desarrolladores, especialmente a aquellos con poca o ninguna experiencia en ingeniería de prompts. Dario Amodei, CEO y cofundador de Anthropic, dijo que la ingeniería de prompts era una de las cosas más importantes para la adopción generalizada de la IA generativa por parte de las empresas en una entrevista en Google Cloud Next a principios de este año. "Suena simple, pero 30 minutos con un ingeniero de prompts a menudo pueden hacer que una aplicación funcione cuando antes no lo hacía", dijo Amodei.