Grandes empresas emplearon miles de videos de YouTube para entrenar inteligencia artificial

Los creadores afirman que sus videos fueron utilizados sin su conocimiento.

Tech companies están recurriendo a tácticas controvertidas para alimentar sus modelos de inteligencia artificial hambrientos de datos, absorbiendo libros, sitios web, fotos y publicaciones en redes sociales, a menudo sin el conocimiento de los creadores. Las empresas de inteligencia artificial suelen ser muy reservadas sobre sus fuentes de datos de entrenamiento, pero una investigación de Proof News descubrió que algunas de las compañías de IA más ricas del mundo han utilizado material de miles de videos de YouTube para entrenar a sus IA. Esto a pesar de las reglas de YouTube en contra de recolectar material de la plataforma sin permiso.

La investigación de Proof News reveló que se utilizaron subtítulos de 173,536 videos de YouTube, tomados de más de 48,000 canales, por gigantes de Silicon Valley como Anthropic, Nvidia, Apple y Salesforce. El conjunto de datos, llamado YouTube Subtitles, contiene transcripciones de videos de canales educativos y de aprendizaje en línea como Khan Academy, MIT y Harvard. Además, videos de The Wall Street Journal, NPR y la BBC fueron utilizados para entrenar IA, al igual que programas como The Late Show With Stephen Colbert, Last Week Tonight With John Oliver y Jimmy Kimmel Live.

También se encontró material de megastars de YouTube, incluidos MrBeast (289 millones de suscriptores, dos videos utilizados para el entrenamiento), Marques Brownlee (19 millones de suscriptores, siete videos utilizados), Jacksepticeye (casi 31 millones de suscriptores, 377 videos utilizados) y PewDiePie (111 millones de suscriptores, 337 videos utilizados). Parte del material utilizado para entrenar IA también promovía teorías conspirativas como la "teoría de la Tierra plana".

Proof News creó una herramienta para buscar creadores en el conjunto de datos de entrenamiento de YouTube AI. Algunos creadores expresaron su preocupación, incluido David Pakman, creador de The David Pakman Show, quien señaló que si las compañías de IA son remuneradas, él también debería ser compensado por el uso de sus datos. Pakman mencionó que algunas empresas de medios han firmado acuerdos recientemente para ser remuneradas por el uso de su trabajo para entrenar IA.

La obtención y uso de datos de creadores de YouTube sin su consentimiento no solo ha generado preocupación entre los creadores, sino que también ha planteado preguntas sobre ética y compensación justa.

inteligencia-artificial youtube ética