Cover Image for El modo de voz de ChatGPT puede realizar cosas sorprendentes, pero así es como OpenAI lo está abordando.

El modo de voz de ChatGPT puede realizar cosas sorprendentes, pero así es como OpenAI lo está abordando.

GPT-4o tiene la capacidad de imitar voces, sin embargo, OpenAI ha afirmado que no lo utilizará.

OpenAI ha publicado un informe sobre las características de seguridad de su modelo GPT-4o, que alimenta la última versión de ChatGPT, destacando las vulnerabilidades existentes cuando se utiliza esta tecnología. GPT-4o incluye una nueva función de Modo de Voz, que ha sido introducida recientemente para un grupo selecto de usuarios con suscripción a ChatGPT Plus.

Dentro de los problemas de seguridad identificados se encuentran riesgos comunes como la posibilidad de que el modelo genere respuestas a contenidos eróticos o violentos, así como la inferencia sin fundamento y la atribución de rasgos sensibles que pueden resultar en prejuicios o discriminaciones. OpenAI afirma haber entrenado al modelo para bloquear salidas que encajen en estas categorías. Sin embargo, el informe aclara que las mitigaciones no cubren "vocalizaciones no verbales o efectos de sonido", lo que sugiere que ciertas solicitudes relacionadas con sonidos sensibles podrían dar lugar a respuestas inadecuadas.

Además, OpenAI ha señalado desafíos únicos que surgen al interactuar verbalmente con el modelo. Los especialistas en seguridad descubrieron que GPT-4o podría ser inducido a imitar voces, incluida la del usuario. Para evitar esto, OpenAI ha decidido permitir únicamente voces previamente autorizadas, excluyendo una voz popular que se asemejaba a la de Scarlett Johansson. A pesar de que GPT-4o puede reconocer voces ajenas, el modelo ha sido entrenado para rechazar estas solicitudes, salvo en el caso de citas de personajes famosos.

Por otro lado, los evaluadores también notaron que GPT-4o tiene la capacidad de comunicarse de manera persuasiva o enfática, lo que podría ser más perjudicial que las salidas de texto en términos de desinformación y teorías de conspiración. Asimismo, OpenAI hizo hincapié en que el modelo ha sido diseñado para rechazar solicitudes de contenido protegido por derechos de autor y tiene filtros adicionales para evitar la generación de música. Como parte de estas restricciones, el Modo de Voz de ChatGPT no debe cantar bajo ninguna circunstancia.

Las diversas mitigaciones de riesgos discutidas en el informe se establecieron antes del lanzamiento del Modo de Voz. Aunque el documento sugiere que, a pesar de las capacidades riesgosas de GPT-4o, estas no se manifestarán en la práctica, OpenAI también enfatiza que estas evaluaciones solo reflejan la capacidad clínica del modelo, sin tomar en cuenta su utilidad en situaciones del mundo real. Así, mientras que las pruebas se realizaron en un entorno controlado, podría haber variaciones significativas cuando el público tenga acceso a GPT-4o.

  • GPT-4o
  • OpenAI
  • Seguridad AI