Mark Zuckerberg autorizó al equipo de Llama de Meta a entrenar con obras protegidas por derechos de autor, presentando reclamaciones.
El director ejecutivo de Meta, Mark Zuckerberg, ha autorizado al equipo de Llama de la compañía a realizar entrenamientos utilizando documentos protegidos por derechos de autor, según una reciente presentación ante el tribunal.
Los abogados de los demandantes en un caso de derechos de autor contra Meta han afirmado que el CEO de la compañía, Mark Zuckerberg, autorizó al equipo encargado de los modelos de inteligencia artificial Llama a utilizar un conjunto de datos que incluye e-books y artículos pirateados para el entrenamiento. El caso, Kadrey v. Meta, es uno de muchos contra empresas tecnológicas que desarrollan inteligencia artificial, en los que se les acusa de entrenar modelos utilizando obras protegidas por derechos de autor sin el debido permiso.
Los denunciados, incluyendo a Meta, han defendido su posición bajo la doctrina del uso justo, la cual permite el uso de obras protegidas para crear algo nuevo siempre que sea suficientemente transformador. Sin embargo, muchos creadores de contenido refutan esta defensa.
En recientes documentos no redactados presentados ante el Tribunal de Distrito de EE. UU. para el Norte de California, los demandantes, que incluyen a los autores de bestsellers Sarah Silverman y Ta-Nehisi Coates, relatan un testimonio de Meta de finales del año pasado, donde se reveló que Zuckerberg aprobó el uso de un conjunto de datos conocido como LibGen para el entrenamiento de modelos Llama. LibGen, que se autodenomina un "agregador de enlaces", proporciona acceso a obras protegidas de editoriales como Cengage Learning, Macmillan Learning, McGraw Hill y Pearson Education. Esta plataforma ha sido demandada numerosas veces y ha enfrentado órdenes de cierre y multas millonarias por infracción de derechos de autor.
De acuerdo con el testimonio de Meta, los abogados de los demandantes afirman que Zuckerberg autorizó el uso de LibGen a pesar de las preocupaciones del equipo ejecutivo de inteligencia artificial de Meta y otros en la compañía. Los documentos citan a empleados de Meta que se refirieron a LibGen como un "conjunto de datos que sabemos que es pirateado" y que su uso "podría socavar la [posición de negociación de Meta con los reguladores]". Además, se menciona un memorando dirigido a los tomadores de decisiones de Meta AI indicando que, tras "la escalada a MZ", el equipo de inteligencia artificial de Meta recibió la aprobación para utilizar LibGen (MZ es una abreviatura bastante evidente para Mark Zuckerberg).
Estos detalles parecen coincidir con informes anteriores que indicaban que Meta había tomado atajos para reunir datos para su inteligencia artificial. En un momento dado, la empresa contrató personas en África para que resumieran libros y consideró adquirir la editorial Simon & Schuster, ya que los ejecutivos de Meta evaluaron que negociar licencias llevaría demasiado tiempo, optando en cambio por apoyarse en el argumento de uso justo.
Además, las últimas acusaciones sugieren que Meta habría intentado ocultar su supuesta infracción al quitar la atribución de los datos de LibGen. Según los abogados de los demandantes, un ingeniero de Meta, Nikolay Bashlykov, escribió un script para eliminar información de derechos de autor de los e-books en LibGen. Por separado, se alega que Meta también eliminó marcadores de copyright de artículos de revistas científicas y "metadatos de origen" en los datos de entrenamiento utilizados para Llama.
El nuevo pronunciamiento indica que, durante los interrogatorios, Meta reveló que utilizó torrenting para descargar LibGen, lo que generó dudas entre algunos ingenieros de investigación de la compañía. El uso de torrenting implica que quien descarga debe al mismo tiempo "sembrar" los archivos que intenta obtener. Los abogados de los demandantes argumentan que Meta participó en una forma adicional de infracción de derechos de autor al torrentar LibGen y, por lo tanto, contribuir a la difusión de su contenido.
Meta también ha sido acusada de minimizar la cantidad de archivos que subió, con la afirmación de que Ahmad Al-Dahle, jefe de IA generativa de Meta, "abreviaba el camino" para el uso de torrents de LibGen, ignorando las reservas de Bashlykov sobre las posibles implicaciones legales. Los defensores de los demandantes escribieron que "si Meta hubiera comprado las obras de los demandantes en una librería o las hubiera tomado prestadas de una biblioteca y entrenado sus modelos Llama sin licencia, habría cometido infracción de derechos de autor".
La situación legal de Meta aún está en desarrollo. En este momento se refiere a los primeros modelos Llama y no a las versiones más recientes, y podría suceder que el tribunal fallara a favor de Meta si acepta su argumento de uso justo. Sin embargo, las acusaciones no pintan a la compañía de manera favorable. El juez a cargo del caso, Vince Chhabria, observó que la solicitud de Meta para redactar partes del archivo parecía más orientada a evitar la mala publicidad que a proteger información comercial sensible.