Cover Image for OpenAI eliminó accidentalmente pruebas que podrían ser relevantes en el juicio por derechos de autor contra el NY Times.

OpenAI eliminó accidentalmente pruebas que podrían ser relevantes en el juicio por derechos de autor contra el NY Times.

En un documento presentado ante el tribunal, los abogados de The NY Times y Daily News sostienen que OpenAI eliminó por error pruebas que podrían ser relevantes en su contra.

Los abogados de The New York Times y Daily News han presentado una demanda contra OpenAI, acusando a la empresa de haber utilizado sus contenidos para entrenar sus modelos de inteligencia artificial sin la debida autorización. Recientemente, han manifestado que los ingenieros de OpenAI borraron accidentalmente datos que podrían ser relevantes para el caso. Este otoño, OpenAI acordó facilitar dos máquinas virtuales para que los abogados de las publicaciones pudieran buscar su contenido protegido en los conjuntos de datos de entrenamiento de la inteligencia artificial. Las máquinas virtuales son computadoras basadas en software que operan dentro del sistema operativo de otra computadora, y se utilizan frecuentemente para pruebas, respaldo de datos y ejecución de aplicaciones.

En una carta dirigida a la corte, los abogados de las editoriales informaron que ellos y los expertos contratados han dedicado más de 150 horas desde el 1 de noviembre a explorar los datos de entrenamiento de OpenAI. Sin embargo, el 14 de noviembre, los ingenieros de OpenAI eliminaron toda la información del historial de búsqueda de los editores que se había almacenado en una de las máquinas virtuales. Este hecho fue mencionado en la carta presentada ante el Tribunal de Distrito de EE. UU. para el Distrito Sur de Nueva York.

OpenAI intentó recuperar la información y, aunque tuvo cierto éxito, la estructura de carpetas y los nombres de archivos se perdieron "de manera irrecuperable", lo que significa que los datos recuperados "no pueden ser utilizados para determinar dónde se usaron los artículos copiados de las publicaciones en la construcción de los modelos de OpenAI", según se indica en el documento. Los representantes de las publicaciones expresaron que se han visto obligados a reiniciar gran parte de su trabajo, lo que ha implicado un considerable gasto de tiempo y recursos informáticos. En la carta, se destaca que el equipo legal y los expertos tuvieron que redoblar esfuerzos porque solo se enteraron recientemente de que los datos recuperados eran inservibles y de que una semana completa de trabajo debía repetirse.

El equipo legal de los demandantes afirma que no tienen motivos para creer que la eliminación de datos fue intencionada, pero subrayan que esta situación demuestra que OpenAI "está en la mejor posición para buscar en sus propios conjuntos de datos" cualquier contenido que pudiera estar violando derechos de autor, utilizando sus propias herramientas. Un portavoz de OpenAI no proporcionó comentarios sobre el asunto.

OpenAI, en varios casos, ha defendido que el entrenamiento de sus modelos con datos públicamente disponibles, incluidos los artículos de The Times y Daily News, constituye un uso justo. Esto significa que, al crear modelos como GPT-4, que aprenden de miles de millones de ejemplos de libros, ensayos, entre otros, OpenAI sostiene que no necesita licenciar ni pagar por esos ejemplos, incluso si genera ingresos a partir de dichos modelos. No obstante, ha establecido acuerdos de licencia con un número creciente de nuevas editoriales, incluyendo Associated Press, Axel Springer, Financial Times, Dotdash Meredith y News Corp. Aunque OpenAI no ha hecho públicos los términos de estos acuerdos, se ha informado que Dotdash recibe al menos 16 millones de dólares al año. La empresa no ha confirmado ni negado que haya utilizado obras protegidas por derechos de autor para entrenar sus sistemas de inteligencia artificial sin la debida autorización.