Cover Image for El avatar de inteligencia artificial de Nvidia se mostró en mi pantalla y me dejó inquieto.

El avatar de inteligencia artificial de Nvidia se mostró en mi pantalla y me dejó inquieto.

Nvidia presentó un prototipo de avatar de inteligencia artificial en la CES 2025 que se ubica en el escritorio de la computadora. Este asistente AI, llamado R2X, tiene la apariencia de un personaje de videojuego y es capaz de...

Nvidia presentó un prototipo de asistente de inteligencia artificial en el CES 2025, que reside en el escritorio del usuario. Este asistente, llamado R2X, tiene la apariencia de un personaje de videojuego y está diseñado para ayudar a navegar a través de las aplicaciones en la computadora. El avatar R2X se representa y anima utilizando modelos de inteligencia artificial de Nvidia, permitiendo a los usuarios trabajar con grandes modelos de lenguaje (LLM) populares, como GPT-4o de OpenAI o Grok de xAI.

Los usuarios pueden interactuar con R2X mediante texto y voz, cargar archivos para su procesamiento y, además, habilitar al asistente para que vea en tiempo real lo que sucede en la pantalla o a través de la cámara. Recientemente, varias empresas tecnológicas han estado desarrollando avatares de inteligencia artificial, no solo para el ámbito de los videojuegos, sino también para clientes empresariales y consumidores. Aunque las primeras demostraciones son algo extrañas, hay quienes consideran que estos avatares podrían convertirse en una interfaz prometedora para asistentes de IA.

Con R2X, Nvidia busca integrar capacidades generativas del mundo de los videojuegos con los últimos avances en LLMs, aspirando a crear un asistente de inteligencia artificial que simule la apariencia y el comportamiento humano. La empresa planea lanzar estos avatares como código abierto en la primera mitad de 2025, y ve esto como una nueva interfaz para desarrolladores, que permitirá a los usuarios integrar sus productos de software de inteligencia artificial favoritos o incluso ejecutar los avatares de manera local.

Al igual que la función Recall de Microsoft, que ha sido retrasada por preocupaciones de privacidad, R2X puede tomar capturas de pantalla de manera continua y procesarlas a través de un modelo de IA, aunque esta opción está desactivada por defecto. Activada, puede ofrecer retroalimentación sobre las aplicaciones en uso y ayudar, por ejemplo, a resolver tareas complejas de programación. Sin embargo, R2X aún se encuentra en una fase de prototipo y Nvidia reconoce que persisten algunos fallos. Durante las demostraciones, se observó que el avatar mostraba un efecto de “valle inquietante”, con expresiones faciales inusuales y un tono algo agresivo en ocasiones.

A pesar de estos inconvenientes, R2X proporcionó instrucciones útiles y pudo visualizar el contenido en pantalla con bastante precisión. No obstante, hubo momentos en que ofreció indicaciones incorrectas y eventualmente perdió la capacidad de ver la pantalla. Esto podría deberse a limitaciones en el modelo de inteligencia artificial utilizado, en este caso, GPT-4o. En una de las demostraciones, un líder de producto de Nvidia mostró cómo R2X podía observar y asistir a los usuarios con aplicaciones en pantalla, incluso ayudando a utilizar la función de relleno generativo en Adobe Photoshop. Sin embargo, el avatar cometió errores al dar instrucciones sobre esta función y perdió la capacidad de ver durante el proceso.

En otra demostración, R2X fue capaz de procesar un PDF desde el escritorio y responder preguntas sobre el contenido, gracias a una función de generación aumentada por recuperación local (RAG). Para representar a estos avatares, Nvidia utiliza su algoritmo RTX neural faces y un nuevo modelo llamado Audio2Face™-3D para automatizar los movimientos faciales. Este modelo, sin embargo, también experimentó dificultades, manteniendo la cara del avatar en posiciones extrañas en algunas ocasiones.

Además, se anticipa que los avatares R2X puedan unirse a reuniones de Microsoft Teams como asistentes personales. Nvidia también está trabajando en dotar a estos avatares con habilidades más autónomas, permitiendo que R2X tome acciones en el escritorio. Sin embargo, estas capacidades parecen estar aún lejos de concretarse y requerirían asociaciones con desarrolladores de software como Microsoft y Adobe, quienes también están explorando sistemas similares. Actualmente, no está claro cómo Nvidia está generando las voces de R2X, aunque se percibe que la voz al usar GPT-4o es diferente de las voces predeterminadas de ChatGPT, mientras que el chatbot Grok de xAI aún no tiene una opción de voz.