Cover Image for El 57% de internet podría estar compuesto ya por contenido generado por IA.

El 57% de internet podría estar compuesto ya por contenido generado por IA.

Un estudio reciente revela que el 57% del contenido presente en Internet en la actualidad es generado por inteligencia artificial o traducido mediante un algoritmo de IA.

Un estudio realizado por investigadores de Amazon Web Services (AWS) ha revelado que aproximadamente el 57% del contenido disponible en Internet es generado por inteligencia artificial o traducido con algoritmos de IA. La investigación, titulada “Una Cantidad Sorprendente de la Web es Traducida por Máquinas: Perspectivas desde el Paralelismo Multivía”, sostiene que la traducción automática de bajo costo es la principal responsable de esta tendencia. Este tipo de traducción toma un contenido original y lo reproduce en múltiples idiomas.

Según los autores del estudio, las traducciones automáticas en varios idiomas, conocidas como traducciones paralelas, no solo predominan entre los contenidos traducidos en lenguas de recursos limitados, donde la traducción automática está disponible, sino que también representan una porción significativa de todo el contenido web en esos idiomas. Además, se encontró un sesgo de selección en el contenido que es traducido a múltiples lenguas, que tiende a ser más breve, predecible y tratar temas diferentes en comparación con aquellos textos que se publican solo en un idioma.

El creciente volumen de contenido generado por IA, junto con la dependencia de herramientas de IA para editar y manipular dicho contenido, podría precipitar un fenómeno conocido como colapso del modelo, que ya está afectando la calidad de los resultados de búsqueda en la web. Modelos de IA avanzados como ChatGPT, Gemini y Claude dependen de una gran cantidad de datos de entrenamiento, que se obtienen mediante el rastreo del contenido público en la red, sin importar las implicaciones de derechos de autor. Este exceso de contenido generado por IA, a menudo inexacto, podría afectar gravemente su rendimiento.

El Dr. Ilia Shumailov, de la Universidad de Oxford, explicó que el colapso del modelo puede manifestarse rápidamente y ser difícil de identificar. En las primeras etapas, afecta los datos minoritarios, que están mal representados, y luego impacta la diversidad de las salidas, reduciendo la variabilidad. Esto puede llevar a una pequeña mejora en los datos mayoritarios, lo cual oculta el deterioro del rendimiento en los datos minoritarios, con consecuencias serias en la calidad del contenido.

Los investigadores también llevaron a cabo un análisis en el que profesionales de la lingüística clasificaron 10,000 oraciones en inglés seleccionadas al azar de una variedad de categorías. Observaron un cambio notable en la distribución de los temas al comparar datos de traducción de 2 vías frente a más de 8 vías, especialmente en las categorías de "conversación y opinión", que aumentó del 22.5% al 40.1% en los textos publicados. Esto indica un sesgo de selección hacia temas de “conversación y opinión” en las traducciones.

Asimismo, se constató que las traducciones altamente paralelas, las que incluyen más de ocho idiomas, son de calidad significativamente inferior en comparación con las de 2 vías. En un análisis de 100 oraciones traducidas de esta manera, la mayoría provenía de granjas de contenido, con artículos considerados de baja calidad que requieren poco o ningún esfuerzo especializado para su redacción. Esto podría explicar la insistencia del CEO de OpenAI, Sam Altman, en cómo resulta "imposible" desarrollar herramientas como ChatGPT sin acceso gratuito a obras protegidas por derechos de autor.

  • inteligencia artificial
  • traducción automática
  • calidad de contenido