Los hospitales emplean una herramienta de transcripción impulsada por un modelo de OpenAI propenso a alucinaciones.
Más de 30,000 profesionales de la salud y 40 sistemas de atención médica lo utilizan.
Hace unos meses, un médico mostró una herramienta de transcripción impulsada por inteligencia artificial que utiliza para registrar y resumir sus encuentros con los pacientes. En mi experiencia, el resumen fue aceptable, pero investigadores mencionados han señalado que esto no siempre es así con Whisper de OpenAI, que alimenta una herramienta utilizada por numerosos hospitales, la cual en ocasiones genera información errónea y fabricada.
Whisper es la tecnología detrás de un sistema de transcripción médica desarrollado por la compañía Nabla, que sostiene que ha procesado hasta 7 millones de conversaciones médicas. Este servicio es utilizado por más de 30,000 clínicos y por 40 sistemas de salud. Nabla está al tanto de la problemática de los errores en las transcripciones y está trabajando en su solución.
Un estudio realizado por investigadores de la Universidad de Cornell y la Universidad de Washington encontró que Whisper presenta errores en aproximadamente 1% de las transcripciones, generando oraciones completas con contenidos violentos o frases carentes de sentido durante los momentos de silencio grabados. Estos silencios son comunes cuando las personas con el trastorno del lenguaje conocido como afasia están comunicándose. Allison Koenecke, una de las investigadoras, compartió ejemplos en una discusión sobre el estudio.
Los resultados del estudio también revelaron que las alucinaciones del sistema incluían condiciones médicas inventadas o frases típicas de videos de YouTube, como “¡Gracias por ver!” (informes sugieren que OpenAI utilizó más de un millón de horas de videos de YouTube para entrenar a GPT-4). Este estudio fue presentado en junio en la conferencia FAccT de la Asociación para la Maquinaria de Computación en Brasil, aunque no está claro si ha pasado por un proceso de revisión por pares.
Un portavoz de OpenAI, Taya Christianson, comentó que la empresa aborda este asunto con seriedad y está constantemente trabajando en mejoras, incluyendo la reducción de errores en las transcripciones. Además, subrayó que las políticas de uso en su plataforma API prohíben su aplicación en decisiones de alto riesgo, y su carta de modelo para uso de código abierto incluye recomendaciones en contra del uso en dominios riesgosos. Agradecieron a los investigadores por compartir sus hallazgos.