La última actualización de la IA de Anthropic permite su funcionamiento autónomo en computadoras.
¿No era eso lo que se esperaba del Rabbit R1?
Anthropic ha lanzado una nueva función en versión beta pública para su modelo de inteligencia artificial Claude 3.5 Sonnet, la cual permite controlar un ordenador al observar su pantalla, mover el cursor, hacer clic en botones y escribir texto. Esta funcionalidad, denominada "uso del ordenador", está disponible en el API, permitiendo a los desarrolladores dirigir a Claude para que realice tareas en un computador como lo haría un ser humano, demostrada en un video en un Mac.
A continuación, otras herramientas de inteligencia artificial como la función Copilot Vision de Microsoft y la aplicación de escritorio de ChatGPT de OpenAI han demostrado capacidades similares basadas en la visualización de la pantalla del computador. Google también posee características parecidas en su aplicación Gemini para dispositivos Android. Sin embargo, estas no han hecho el avance de lanzar herramientas que realicen tareas de manera automática, como lo que ahora se ofrece con Claude. Rabbit había prometido una funcionalidad similar con su R1, la cual aún no ha materializado.
Anthropic advierte que esta funcionalidad de uso del ordenador sigue siendo experimental, señalando que puede ser "incómoda y propensa a errores". La empresa afirma que se está lanzando esta función anticipadamente para recibir comentarios de los desarrolladores y espera que la capacidad mejore rápidamente.
Los desarrolladores han señalado que existen muchas acciones rutinarias que las personas realizan en los computadores, como arrastrar o hacer zoom, que Claude todavía no puede ejecutar. Además, la forma en la que Claude visualiza la pantalla, tomando capturas de pantalla y ensamblándolas, en lugar de observar un flujo de video más detallado, puede llevar a que se pase por alto acciones o notificaciones efímeras.
Por otro lado, esta versión de Claude tiene instrucciones para evitar interactuar con redes sociales, implementando medidas para supervisar y corregir comportamientos relacionados con actividades electorales, así como sistemas para desviar al modelo de generar y publicar contenido en plataformas sociales, registrar dominios web o interactuar con sitios del gobierno.
En cuanto a su rendimiento, el nuevo modelo Claude 3.5 Sonnet muestra mejoras en muchos criterios de evaluación y se ofrece a los clientes al mismo precio y velocidad que su predecesor. Este modelo actualizado presenta progresos significativos en tareas de programación y uso de herramientas, superando en la evaluación SWE-bench Verified al pasar de un 33.4% a un 49.0%, superando a todos los modelos disponibles públicamente, incluidos modelos de razonamiento como OpenAI o1-preview. También mejora en la evaluación TAU-bench, alcanzando un 69.2% en el dominio minorista, incrementando desde un 62.6%, y subiendo del 36.0% al 46.0% en el más complicado dominio aéreo.