El modo avanzado de voz de ChatGPT podría incluir una nueva función de 'Cámara en Vivo'.
Detectives han encontrado menciones de "cámara en vivo" en el código de ChatGPT.
Desarrolladores han encontrado referencias a "Live camera" en el código de ChatGPT, lo que sugiere que las capacidades de visión en tiempo real podrían estar pronto disponibles. Recientemente, se detectaron líneas específicas en la sección de Modo de Voz Avanzado de la versión beta de ChatGPT v1.2024.317, indicando la inclusión de una función conocida como "Live camera". Este código incluye una advertencia para los usuarios, señalando que no deben utilizar la cámara en vivo "para navegación en tiempo real o decisiones que puedan afectar su salud o seguridad". Otra línea del código parece ofrecer instrucciones sobre las capacidades visuales, sugiriendo que los usuarios pueden "tocar el ícono de la cámara para permitir que ChatGPT vea y converse sobre su entorno".
Las expectativas sobre las habilidades visuales de ChatGPT son altas desde la presentación de GPT-4o, que se mostró en un evento de OpenAI en mayo pasado. Durante dicha demostración, se mostró cómo esta nueva versión podía utilizar cámaras móviles o de escritorio para identificar objetos y recordar detalles sobre lo visualizado. Un ejemplo destacado fue el reconocimiento de un perro jugando con una pelota de tenis, recordando que su nombre era "Bowser".
Desde el evento y el acceso anticipado otorgado a algunos testers, no se habían compartido muchas novedades sobre GPT-4o y sus capacidades visuales. No obstante, OpenAI había introducido el Modo de Voz Avanzado para usuarios de ChatGPT Plus y Team en septiembre. Si el modo de visión se implementa pronto, los usuarios tendrán la oportunidad de probar ambas características que se anunciaron la primavera pasada.
A pesar de algunos informes sobre resultados decepcionantes en sus modelos futuros, OpenAI ha estado activo. El mes pasado, lanzó ChatGPT Search, que conecta el modelo de IA con la web, ofreciendo información en tiempo real. Además, circulan rumores sobre el desarrollo de un agente capaz de realizar tareas complejas en nombre del usuario, como escribir código y navegar por internet, del cual se espera un lanzamiento en enero.