Cover Image for Reddit prohíbe a los bots de inteligencia artificial rastrear su sitio web

Reddit prohíbe a los bots de inteligencia artificial rastrear su sitio web

Reddit está tomando acción ante la creciente presencia de la inteligencia artificial en la web.

En las próximas semanas, Reddit comenzará a bloquear la mayoría de los bots automatizados para acceder a sus datos públicos. Para utilizar el contenido de Reddit con fines de entrenamiento de modelos y otros propósitos comerciales, será necesario establecer un acuerdo de licencia, similar a lo que han hecho Google y OpenAI.

Aunque esta ha sido la política de Reddit técnicamente, la compañía ahora la está haciendo cumplir mediante la actualización de su archivo robots.txt, que es una parte esencial de la web y dicta cómo los rastreadores web pueden acceder a un sitio. El director legal de la empresa, Ben Lee, menciona que esto es una señal para aquellos que no tienen un acuerdo con ellos de que no deberían acceder a los datos de Reddit. Además, es una advertencia para los actores malintencionados de que la palabra 'allow' en robots.txt no significa, ni ha significado nunca, que puedan usar los datos como les plazca.

Recientemente, mi colega David Pierce denominó a robots.txt como "el archivo de texto que controla Internet". Desde sus inicios en los primeros días de la web, el archivo ha regulado principalmente si los motores de búsqueda como Google pueden rastrear un sitio web para indexarlo en los resultados. Durante los últimos 20 años aproximadamente, el intercambio de beneficios entre Google enviando tráfico a cambio de la capacidad de rastreo tenía sentido para todos los involucrados. Sin embargo, luego las empresas de inteligencia artificial comenzaron a absorber todos los datos disponibles en línea para entrenar sus modelos.