La inteligencia artificial de Google inicia su 'era agente'.
Se han desarrollado nuevos prototipos de inteligencia artificial basados en el más reciente modelo, Gemini 2.0.
Recorrí una habitación repleta de estanterías que contenían libros de programación y arquitectura bastante convencionales. Una de las estanterías estaba ligeramente desalineada, y detrás de ella descubrí un cuarto oculto que contaba con tres pantallas de televisión mostrando obras de arte famosas: El Grito de Edvard Munch, Domingo de Tarde de Georges Seurat y La Gran Onda de Kanagawa de Hokusai. Bibo Xu, gerente de producto principal de Google DeepMind para el Proyecto Astra, comentó: “Aquí hay piezas de arte interesantes. ¿Hay alguna en particular de la que te gustaría hablar?” El Proyecto Astra, un prototipo de agente universal de inteligencia artificial de Google, respondió sin titubear: “Se discutió previamente sobre la obra Domingo de Tarde. ¿Hay algún detalle específico que te gustaría comentar, o desearías hablar sobre El Grito?”
Me encontraba en el extenso campus de Google en Mountain View, observando los proyectos más recientes de su laboratorio de inteligencia artificial, DeepMind. Uno de ellos era el Proyecto Astra, un asistente virtual que fue presentado por primera vez en Google I/O a principios de este año. Este asistente, actualmente disponible en una aplicación, tiene la capacidad de procesar texto, imágenes, videos y audio en tiempo real, respondiendo preguntas sobre ellos. Funciona de manera similar a Siri o Alexa, pero se siente más natural en la conversación, puede reconocer el entorno a su alrededor y además "recuerda" interacciones pasadas. Hoy, Google anunció que está ampliando el programa de pruebas del Proyecto Astra para más usuarios, incluyendo ensayos que utilizan gafas prototipo, aunque no se proporcionó una fecha de lanzamiento.
Otra prueba que no había sido anunciada anteriormente es el agente de IA conocido como Proyecto Mariner. Esta herramienta puede controlar tu navegador y utilizar una extensión de Chrome para completar tareas, aunque todavía está en sus primeras etapas y apenas comienza a probarse con un grupo de “probadores de confianza”. Por su parte, el Proyecto Astra ha finalizado su fase de pruebas y Google está ampliando la cantidad de participantes mientras integra comentarios en nuevas actualizaciones. Estas mejoras incluyen el entendimiento de diferentes acentos y palabras poco comunes, otorgando hasta 10 minutos de memoria en sesión y reduciendo la latencia, además de su integración en varios productos de Google como Search, Lens y Maps.
Durante las demostraciones de ambos productos, Google resaltó que lo que estaba viendo eran “prototipos de investigación” que no estaban listos para el consumidor. Las demostraciones eran muy controladas, consistiendo en interacciones cuidadosamente guiadas con el personal de Google. Aún no se sabe cuándo estarán disponibles estos sistemas para el público o cómo se verán.
En ese entorno especial, mientras Proyecto Astra compartía datos sobre El Grito, mencionaba que existen cuatro versiones de esta obra del artista expresionista noruego Edvard Munch producidas entre 1893 y 1910, siendo la más famosa la pintada en 1893. Durante la conversación, Astra mostró entusiasmo y algo de torpeza. “Hola Bibo”, exclamó al comenzar la demostración. “Vaya, eso fue muy emocionante”, respondió Xu. “¿Puedes decirme—” Pero fue interrumpida por Astra: “¿Era algo sobre la obra de arte que fue emocionante?”
El concepto de "agentes" ha sido una tendencia en auge en numerosas compañías de IA, incluyendo OpenAI, Anthropic y Google. El CEO de Google, Sundar Pichai, los describe como modelos que “pueden entender más sobre el mundo que los rodea, pensar varios pasos adelante y actuar en tu nombre, con tu supervisión”. Sin embargo, debido a que los sistemas de IA son impredecibles, es complicado lanzarlos a gran escala. Anthropic reconoció que su nuevo agente de navegador “de repente se tomó un descanso” durante una demostración de programación.
Los agentes no parecen estar listos para acceder a datos sensibles como correos electrónicos o información bancaria. Aunque siguen instrucciones, son vulnerables a ataques de inyección de comandos. Google busca protegerse de estos ataques priorizando las instrucciones legítimas de los usuarios.
Las demostraciones de los agentes presentadas por Google fueron de bajo riesgo. En el caso de Proyecto Mariner, observé a un empleado abrir una receta en Google Docs, interactuando con la extensión de Chrome. Al pedir que añadiera todos los vegetales de la receta a su carrito en Safeway, Mariner se activó, enumerando las tareas que iba a realizar. Sin embargo, el proceso parecía lento y, en ese momento, me pareció que habría sido más rápido completarlo por mi cuenta.
Jaclyn Konzelmann, directora de gestión de productos de Google, comentó sobre esta lentitud: “La gran pregunta es, ¿puede hacerlo rápido? No en este momento, como pueden ver, avanza bastante despacio. Esto es en parte debido a limitaciones técnicas, y en parte un diseño actual, ya que todavía está en sus primeras etapas”.
A pesar de estas limitaciones, los últimos anuncios de Google, que también incluyeron un nuevo modelo de inteligencia artificial, Gemini 2.0, son testimonio de lo que se está denominando la "era de los agentes". Aunque no hay productos listos para consumidores en el horizonte inmediato, es evidente que los agentes son el gran objetivo que las empresas quieren lograr con los modelos de lenguaje de gran escala.
A pesar de la naturaleza imperfecta de los prototipos Astra y Mariner, sigue siendo interesante ver su funcionamiento en acción. Personalmente, no estoy del todo seguro de confiar en una IA para obtener información importante, pero la idea de añadir elementos al carrito de compras parece ser un riesgo bastante bajo, siempre que Google logre agilizar el proceso.