Cover Image for El seguimiento ocular del Apple Vision Pro revela lo que las personas escriben.

El seguimiento ocular del Apple Vision Pro revela lo que las personas escriben.

El Vision Pro utiliza avatares en 3D para realizar llamadas y transmitir contenido. Un grupo de investigadores empleó seguimiento ocular para descifrar las contraseñas y los códigos PIN que las personas ingresaban usando sus avatares.

Un nuevo tipo de ataque, denominado GAZEploit, ha sido desarrollado por un grupo de investigadores que ha dividido su planteamiento en dos etapas fundamentales. En primer lugar, han logrado identificar la acción de escribir de una persona que utiliza el dispositivo Vision Pro al analizar el avatar 3D que esta comparte. Para llevar a cabo esta tarea, entrenaron una red neuronal recurrente, un modelo de aprendizaje profundo, utilizando grabaciones de 30 personas mientras realizaban diversas tareas de tipeo.

Los investigadores explican que, al escribir con el Vision Pro, la mirada de la persona se fija en la tecla que está a punto de presionar y luego se mueve rápidamente a la siguiente. Según Zhan, uno de los protagonistas del estudio, "cuando estamos tipeando, nuestra mirada muestra patrones regulares". Por su parte, Wang añadió que estos patrones son más notorios durante la escritura comparado con la navegación en sitios web o la visualización de videos usando el visor. Además, durante la escritura, la frecuencia del parpadeo disminuye, ya que existe un mayor enfoque.

La segunda fase del estudio se centra en realizar cálculos geométricos para determinar la posición del teclado y su tamaño. Zhan indica que, con suficiente información de la mirada, es posible reconstruir el teclado y detectar todas las pulsaciones posteriores. Al combinar ambos elementos, los investigadores pudieron anticipar las teclas que una persona probablemente estaba escribiendo.

En una serie de pruebas de laboratorio, los investigadores no tenían conocimiento previo de los hábitos de escritura de los sujetos: su velocidad o ubicación del teclado. A pesar de ello, lograron predecir las letras correctas en un máximo de cinco intentos, con una precisión del 92.1% en mensajes, 77% para contraseñas, 73% para PINs y 86.1% para correos electrónicos, URLs y páginas web. En el primer intento, las letras eran acertadas entre el 35% y el 59% del tiempo, dependiendo del tipo de información intentada. La presencia de letras duplicadas y errores tipográficos añade complejidad al proceso.

Alexandra Papoutsaki, profesora asociada de ciencias de la computación, destaca la relevancia de este trabajo. El ataque es significativo ya que depende solo de la transmisión de video de un avatar, lo que lo convierte en un escenario más realista en comparación con un ataque que requiere el acceso físico al dispositivo. Papoutsaki enfatiza que la posibilidad de que alguien pueda exponer datos simplemente al transmitir su avatar incrementa sustancialmente la vulnerabilidad.

Aunque este ataque ha sido desarrollado en un entorno de laboratorio y no ha sido utilizado en situaciones del mundo real, los investigadores advierten sobre su potencial uso malintencionado. Teóricamente, un delincuente podría compartir un archivo a través de una videollamada, provocando que la víctima inicie sesión en su cuenta de Google o Microsoft, mientras el atacante graba el avatar. Esto permitiría recuperar la contraseña y acceder a la cuenta.

En respuesta a estos hallazgos, los investigadores informaron a Apple en abril y proporcionaron un código de prueba para que la compañía pudiera replicar el ataque. A finales de julio, Apple lanzó una actualización de software para el Vision Pro que evita el compartir el avatar al utilizar el teclado virtual. Un portavoz de la empresa confirmó que se abordó esta vulnerabilidad en la actualización de VisionOS 1.3, anotando que Apple había asignado el identificador CVE-2024-40865 a la falla.

  • GAZEploit
  • Vision Pro
  • Seguridad Cibernética