
Los rastreadores de inteligencia artificial provocan un aumento del 50% en la demanda de ancho de banda de Wikimedia Commons.
La Fundación Wikimedia informa que el consumo de ancho de banda para las descargas de multimedia ha aumentado un 50% desde enero de 2024.
La Wikimedia Foundation, encargada de gestionar Wikipedia y otros proyectos de conocimiento colaborativos, informó que desde enero de 2024 el consumo de ancho de banda para descargas multimedia desde Wikimedia Commons ha aumentado en un 50%. Este crecimiento, según un comunicado, no se debe a un incremento en la demanda por parte de usuarios en busca de información, sino a la actividad de bots automatizados que buscan datos para entrenar modelos de inteligencia artificial.
El comunicado destaca que, aunque la infraestructura de Wikimedia está diseñada para manejar picos de tráfico durante eventos de gran interés entre los usuarios humanos, el tráfico generado por estos bots ha alcanzado niveles sin precedentes, lo que incrementa los riesgos y costos operativos. Wikimedia Commons es un repositorio accesible de manera gratuita que alberga imágenes, videos y archivos de audio bajo licencias abiertas o que forman parte del dominio público.
Un análisis más profundo revela que cerca del 65% del tráfico más costoso, en términos de consumo de recursos, proviene de estos bots, mientras que solo el 35% de las vistas de página son generadas por ellos. Esta discrepancia se debe a que el contenido más visitado se almacena en caché más cerca del usuario, mientras que el contenido menos frecuentado se encuentra más alejado en el "centro de datos principal", lo que implica un mayor costo al servirlo. Según Wikimedia, los lectores humanos tienden a concentrarse en temas específicos, en contraste con los bots que suelen "leer en bloque" numerosos artículos, visitando también páginas menos populares. Esto provoca que sus solicitudes sean más propensas a ser redirigidas al centro de datos, aumentando así el uso de recursos.
Ante esta situación, el equipo de fiabilidad del sitio de la Wikimedia Foundation se ve obligado a destinar tiempo y recursos a bloquear a los crawlers para evitar interrupciones en el servicio para los usuarios habituales. Además, se enfrentan a los costos asociados en la nube. Este fenómeno forma parte de una tendencia en crecimiento que pone en peligro la existencia del internet abierto. Recientemente, Drew DeVault, ingeniero de software y defensor del código abierto, expresó su preocupación por el hecho de que los crawlers de IA ignoran los archivos "robots.txt" diseñados para evitar el tráfico automatizado. Gergely Orosz también comentó cómo los scrapers de IA de compañías como Meta han incrementado la demanda de ancho de banda en sus propios proyectos.
Por otro lado, algunas empresas tecnológicas están tomando medidas para mitigar el problema, como es el caso de Cloudflare, que ha lanzado AI Labyrinth, una herramienta que utiliza contenido generado por IA para ralentizar a los crawlers. Sin embargo, esta situación es como un juego del gato y el ratón que podría llevar a muchos editores a refugiarse tras muros de inicio de sesión y paywalls, lo que afectaría negativamente a todos los usuarios de la web en la actualidad.