
Un reciente estudio revela que ChatGPT y Google Gemini tienen un rendimiento deficiente al resumir noticias.
Y no me causa asombro.
Un reciente análisis llevado a cabo por la BBC ha revelado que varios de los chatbots de inteligencia artificial más utilizados, como ChatGPT, Gemini, Copilot y Perplexity, no logran resumir de manera precisa las noticias. Para obtener resultados, se pidió a estos sistemas que resumieran 100 artículos de noticias de la propia BBC, y tras la evaluación, se encontró que el 51% de las respuestas contenían "problemas significativos". Además, un 19% de las respuestas que citaban contenido de la BBC mostraron errores fácticos, incluyendo datos incorrectos sobre afirmaciones, cifras y fechas.
El estudio incluyó ejemplos específicos de inexactitudes, como el caso en el que Gemini afirmó erróneamente que el NHS no recomendaba el uso de vapeo como método para dejar de fumar. Asimismo, ChatGPT y Copilot indicaron que Rishi Sunak y Nicola Sturgeon aún ocupaban sus cargos, a pesar de haberlos dejado.
Además de los errores mencionados, el informe también destacó que la IA enfrentaba dificultades para distinguir entre hechos y opiniones, lo que a menudo resultaba en una falta de contexto esencial en los resúmenes proporcionados. Aunque estos resultados no son alarmantes considerando los problemas conocidos con las herramientas de resumen de noticias, como las confusiones de Apple Intelligence que llevaron a la compañía a desactivar temporalmente su función en iOS 18.3, sirve como un recordatorio de que no se debe aceptar sin dudar lo que la IA presenta.
La BBC concluye que Copilot de Microsoft y Gemini de Google presentaron dificultades más notorias en comparación con ChatGPT y Perplexity de OpenAI. Aunque esta investigación no proporciona información completamente nueva, reafirma el escepticismo hacia las capacidades de resumen de estas herramientas y resalta la importancia de mantenerse cauteloso al consumir información generada por chatbots de IA. A medida que la IA avanza rápidamente y se lanzan nuevos modelos lingüísticos casi a diario, es de esperar que se sigan presentando errores. No obstante, algunas pruebas recientes indiquen que las imprecisiones y "alucinaciones" son menos frecuentes en aplicaciones como ChatGPT en comparación con meses anteriores.
Sam Altman mencionó recientemente que el avance de la IA supera la ley de Moore, lo que sugiere que continuaremos observando mejoras en estos sistemas y en su interacción con el entorno. Sin embargo, por el momento, es aconsejable no depender de la inteligencia artificial para las noticias cotidianas.