La gente está experimentando de formas sorprendentes con el nuevo Modo de Voz de ChatGPT.

El modo de voz avanzado de ChatGPT se lanzó el martes para un grupo selecto de suscriptores de OpenAI que fueron elegidos para participar en la fase alfa de esta esperada función.

Un nuevo modo de voz avanzado para ChatGPT se lanzó el martes para un grupo selecto de suscriptores de OpenAI que forman parte de la versión alfa de esta esperada función. Esta característica se había anunciado previamente en mayo y está diseñada para sustituir la tradicional ventana de texto, permitiendo que las conversaciones se realicen utilizando un lenguaje hablado de manera natural y realista. Soporta una variedad de acentos y idiomas regionales.

Según OpenAI, el modo de voz avanzado permite mantener conversaciones más fluidas y en tiempo real, permite interrupciones en cualquier momento y puede captar y responder a las emociones del usuario. Sin embargo, tiene ciertas limitaciones. El sistema solo puede hablar en uno de cuatro voces predefinidas y no tiene la capacidad de imitar voces de otras personas, sean estas individuos o figuras públicas; de hecho, bloqueará cualquier intento de generar voces diferentes a las cuatro establecidas. Además, no está diseñado para crear audio protegido por derechos de autor ni música.

Algunos usuarios, como el alpha tester Ethan Sutin, han compartido sus experiencias en redes sociales, donde mostró respuestas del modo de voz avanzado, incluyendo un breve "rap de cumpleaños" y una demostración de beatbox. En otro ejemplo, se puede escuchar al AI realizar sonidos de fondo para historias de aventuras, añadiendo efectos como choques y explosiones a la narración requerida.

Entre las capacidades destacadas, se encuentra la habilidad del AI para crear personajes realistas en tiempo real. También puede expresar emociones de manera convincente, imitando el tono humano, como se evidenció en una recreación de una escena famosa de Star Trek II.

El sistema también permite la interacción en múltiples idiomas y voces, lo que se mostró en ejemplos donde usuarios solicitaron que hablara en japonés y armenio con diferentes tonos. Asimismo, el modo avanzado puede imitar sonidos de animales, como los maullidos de un gato, proporcionándoles a los usuarios un recurso útil cuando tienen preguntas sobre el cuidado de sus mascotas.

Además, el modo de voz avanzado puede utilizar la cámara del dispositivo para ayudar en traducciones. En una demostración, un usuario utilizó su teléfono para traducir el diálogo de un videojuego en japonés, leído por el AI en tiempo real. Aunque la función de compartir video y pantalla no estará disponible en esta fase alfa, OpenAI planea ampliar la disponibilidad a más suscriptores en las próximas semanas y hacerla accesible para todos los usuarios en otoño.

OpenAI
ChatGPT
tecnología voz

Relacionado

Un nuevo competidor de OpenAI Sora acaba de llegar para vídeos de inteligencia artificial - y puedes usarlo ahora mismo de forma gratuita

INTELIGENCIA ARTIFICIAL, VIDEOS GENERATIVOS, HERRAMIENTAS TECNOLÓGICAS

| junio 13, 2024

Relacionado

Un nuevo competidor de OpenAI Sora acaba de llegar para vídeos de inteligencia artificial - y puedes usarlo ahora mismo de forma gratuita

INTELIGENCIA ARTIFICIAL, VIDEOS GENERATIVOS, HERRAMIENTAS TECNOLÓGICAS

| junio 13, 2024