El bot de OpenAI arrasó con el sitio web de una empresa de siete personas ‘como si fuera un ataque DDoS’.
OpenAI estuvo realizando "decenas de miles" de solicitudes a servidores con el objetivo de descargar todo el sitio de Triplegangers, el cual alberga cientos de miles de fotografías.
El sábado, Oleksandr Tomchuk, CEO de Triplegangers, se dio cuenta de que la página de comercio electrónico de su empresa estaba inactiva, aparentemente debido a un ataque de denegación de servicio distribuido. Al investigar, descubrió que un bot perteneciente a OpenAI estaba intentando desmesuradamente extraer datos de su extensa página web. Según Tomchuk, la empresa cuenta con más de 65,000 productos, cada uno de los cuales tiene su propia página, acompañada de al menos tres fotos. El bot de OpenAI estaba realizando “decenas de miles” de solicitudes al servidor para descargar todos los datos, que incluían cientos de miles de fotos y sus descripciones detalladas.
El bot utilizó 600 direcciones IP diferentes para llevar a cabo esta operación, un número que Tomchuk sigue analizando y que podría ser aún mayor. “Sus rastreadores estaban abrumando nuestro sitio,” comentó, añadiendo que esto se asemejaba en esencia a un ataque DDoS. Para Triplegangers, su sitio web es esencial, dado que la empresa, compuesta por siete empleados, ha estado recopilando durante más de una década lo que denomina la mayor base de datos de “dobles digitales humanos” en la red, es decir, archivos de imágenes en 3D escaneados de modelos humanos reales. Estos archivos digitales se venden a artistas 3D, desarrolladores de videojuegos y a cualquier persona que necesite recrear características humanas auténticas en formato digital.
El equipo de Tomchuk, con sede en Ucrania y también licenciado en Tampa, Florida, tiene estipuladas en su página de términos de servicio restricciones que prohíben que los bots utilicen sus imágenes sin autorización. Sin embargo, esto no fue suficiente. Los sitios web deben contar con un archivo robot.txt correctamente configurado que indique específicamente al bot de OpenAI, GPTBot, que debe mantenerse alejado. OpenAI también cuenta con otros bots, como ChatGPT-User y OAI-SearchBot, que tienen sus propias directrices.
El archivo robot.txt, conocido como el Protocolo de Exclusión de Robots, se creó para señalar a los motores de búsqueda qué información no deben rastrear al indexar la web. OpenAI señala que respeta estos archivos cuando están configurados con sus etiquetas de no rastrear, aunque advierte que sus bots pueden tardar hasta 24 horas en reconocer un archivo robot.txt actualizado. Como experimentó Tomchuk, si un sitio no utiliza correctamente este archivo, OpenAI y otros interpretan que pueden extraer datos sin limitaciones, ya que no es un sistema de autorización previa.
Además, Triplegangers sufrió la caída de su sitio durante horas laborales en EE. UU. y Tomchuk anticipa un aumento en su factura de AWS debido a la intensa actividad generada por el bot. La existencia del archivo robot.txt no garantiza su uso efectivo, ya que las empresas de IA cumplen con él de manera voluntaria. En un caso notable, otro inicio de inteligencia artificial, Perplexity, fue criticado por no respetar estas normas en un reportaje el verano pasado.
Finalmente, tras varios días de acceso continuo del bot, Triplegangers logró implementar un archivo robot.txt adecuado y estableció una cuenta en Cloudflare para bloquear el GPTBot y otros rastreadores que descubrió. Aunque Tomchuk espera haber bloqueado bots de otras compañías de modelos de IA, todavía no tiene forma confiable de saber qué información logró extraer OpenAI o de cómo eliminarla, ya que no ha encontrado una manera de comunicarse con la empresa. OpenAI no ha respondido a las peticiones de comentario al respecto.
Esta situación es especialmente preocupante para Triplegangers, dado que su negocio depende de derechos de imagen, ya que escanean a personas reales. Según las leyes como el GDPR en Europa, no se puede simplemente tomar la foto de alguien en la web y utilizarla. Además, el sitio de Triplegangers se ha convertido en un blanco atractivo para los rastreadores de IA, ya que contiene fotos meticulosamente etiquetadas con características diversas. La avaricia del bot de OpenAI fue lo que alertó a Tomchuk sobre la vulnerabilidad de su sitio; de haber sido menos agresivo, nunca lo habría advertido.
Tomchuk advierte que la única manera de saber si un bot de IA está extrayendo contenido protegido de un sitio es monitorearlo activamente. No es el único que ha enfrentado estas dificultades, ya que propietarios de otros sitios también han reportado problemas similares. La situación ha empeorado en 2024, con un estudio que señala que los rastreadores de IA han causado un aumento significativo en el tráfico no válido en la web. “La mayoría de los sitios aún no saben que han sido objeto de recopilación de datos por estos bots,” concluyó Tomchuk, quien ahora debe supervisar diariamente la actividad de sus registros para identificar posibles intrusos.