Las oportunidades y riesgos de los datos sintéticos.
Las grandes empresas tecnológicas y las startups están utilizando cada vez más datos sintéticos para entrenar sus modelos de inteligencia artificial. Sin embargo, esta estrategia conlleva ciertos riesgos.
La posibilidad de entrenar un sistema de inteligencia artificial (IA) exclusivamente con datos generados por otra IA ha sido objeto de debate durante un tiempo. Aunque inicialmente podría parecer una idea descabellada, esta metodología ha ido cobrando fuerza en la medida en que obtener datos reales se vuelve más complicado. Empresas como Anthropic han utilizado datos sintéticos para formar su modelo Claude 3.5 Sonnet, y Meta ha ajustado sus modelos Llama 3.1 con datos generados por IA. Además, OpenAI se rumorea que está obteniendo datos sintéticos del modelo o1, relacionado con razonamiento, para el próximo modelo Orion.
Para comprender por qué la IA requiere datos, es importante tener en cuenta que los sistemas de IA son máquinas estadísticas que aprenden a partir de ejemplos. Utilizan patrones de esos ejemplos para hacer predicciones, como en el caso de un correo electrónico donde "a quién" típicamente precede "me concierne". Las anotaciones, que son etiquetas textuales que describen el significado o las partes de los datos, son fundamentales para este proceso. Por ejemplo, si un modelo de clasificación de fotos recibe muchas imágenes de cocinas etiquetadas como "cocina", aprenderá a asociar esa palabra con características típicas de dichas estancias.
Como resultado del aumento de la demanda de IA, también se ha expandido el mercado para servicios de anotación de datos, valorado actualmente en 838.2 millones de dólares, con proyecciones que apuntan a que alcanzará los 10.34 mil millones en diez años. Aunque no se puede estimar con precisión cuántas personas están dedicadas a esta tarea, se sabe que son "millones". Muchas empresas dependen de trabajadores de firmas de anotación de datos para crear etiquetas para sus conjuntos de entrenamiento. Sin embargo, el pago por este trabajo puede variar significativamente, con empleos bien remunerados en sectores especializados y otros que ofrecen salarios muy bajos, especialmente en países en desarrollo.
Hay razones humanitarias, pero también prácticas, que impulsan la búsqueda de alternativas a las etiquetas generadas por humanos. La velocidad de etiquetado de las personas es limitada, además de que pueden manifestar sesgos en su trabajo, lo que afectará a los modelos entrenados con esas anotaciones. También es costoso y difícil acceder a datos reales debido a la creciente protección de la información personal y a las restricciones impuestas por propietarios de datos que temen el plagio o la falta de reconocimiento por su uso. Se estima que más del 35% de los principales 1,000 sitios web han bloqueado a los rastreadores de OpenAI.
Frente a esta escasez, los datos sintéticos podrían ser una solución. Según algunos expertos, si "los datos son el nuevo petróleo", los datos sintéticos podrían considerarse como biocombustibles, es decir, generados sin los efectos secundarios negativos de los datos reales. Este enfoque ha sido adoptado por la industria de la IA. Por ejemplo, Writer, una empresa de IA generativa, presentó un modelo llamado Palmyra X 004, casi completamente entrenado con datos sintéticos, con un costo de desarrollo notablemente inferior al de otros modelos comparables de OpenAI.
Sin embargo, el uso de datos sintéticos no está exento de riesgos. Estos datos pueden arrastrar consigo las limitaciones y sesgos de los datos originales utilizados para entrenar los modelos que los generan. Esto hace que la representación de ciertos grupos en la base de datos sintética sea defectuosa, lo que puede mermar la calidad y diversidad de los modelos resultantes. Investigaciones han demostrado que confiar demasiado en datos sintéticos puede reducir la diversidad y la precisión de los modelos a lo largo de las iteraciones de entrenamiento.
Es fundamental que los datos sintéticos se revisen, curen y filtren adecuadamente, complementándolos con datos del mundo real para prevenir un posible colapso de los modelos. Aunque algunos expertos creen que será posible que los modelos de IA generen datos sintéticos lo suficientemente buenos como para entrenarse a sí mismos, actualmente no existe tecnología que lo permita de manera efectiva. Por lo tanto, la intervención humana sigue siendo crucial para garantizar que el entrenamiento de los modelos no se desvíe de su propósito.