
DeepSeek se prepara para la próxima revolución en inteligencia artificial con modelos auto-mejorables.
Un grupo en el conocido laboratorio de inteligencia artificial chino DeepSeek está desarrollando una nueva serie de modelos de IA denominada DeepSeek-GRM, que utiliza un enfoque innovador de auto-mejoramiento.
Recientemente, Wall Street reconsideró su fuerte apuesta por la inteligencia artificial generativa con la llegada de DeepSeek, un modelo de IA que, a pesar de estar fuertemente censurado, demostró que es posible desarrollar un modelo de razonamiento fronterizo con recursos modestos, en lugar de recurrir a miles de millones de dólares. Este modelo ha sido adoptado comercialmente por grandes empresas como Huawei, Oppo y Vivo, y ha encontrado cabida en plataformas de gigantes tecnológicos como Microsoft, Alibaba y Tencent.
El próximo objetivo de DeepSeek es desarrollar modelos de IA que se auto-mejoren utilizando un enfoque de juicio-recompensa en bucle para optimizar su rendimiento. En un trabajo de preimpresión, investigadores de DeepSeek en colaboración con la Universidad de Tsinghua de China presentan un nuevo método conocido como ajuste crítico auto-principiado (SPCT), que se enmarca dentro del modelado de recompensas generativas (GRM). Esta metodología establece un bucle de retroalimentación en tiempo real para mejorar los modelos de IA.
El sistema propuesto implica que un "juez" interno critique y evalúe las respuestas que genera el modelo de IA al interactuar con los usuarios. Estas críticas son comparadas con reglas estáticas preestablecidas dentro del modelo y el resultado deseado. Si existe una alta correlación, se genera una señal de recompensa que guía al modelo a mejorar su rendimiento en el siguiente ciclo de entrenamiento. Los expertos se refieren a esta nueva generación de modelos auto-mejorados como DeepSeek-GRM, y los resultados de sus pruebas sugieren que superan a competidores como Gemini de Google, Llama de Meta y GPT-4 de OpenAI. DeepSeek planea liberar estos modelos de IA de próxima generación a través de canales de código abierto.
La idea de una IA que se auto-mejore ha suscitado comentarios ambiciosos y controversiales. El ex-CEO de Google, Eric Schmidt, ha expresado que podría ser necesario implementar un mecanismo de “apagado” para tales sistemas. Esta noción de una IA que mejora de forma recursiva no es nueva; se remonta a 1965, cuando el matemático I.J. Good planteó la idea de máquinas ultra-inteligentes. En 2007, Eliezer Yudkowsky abordó el concepto de la Seed AI, diseñada para entenderse a sí misma, modificarse y mejorar de manera recursiva.
En 2024, Sakana AI de Japón presentó el concepto de un “Científico de IA”, un sistema capaz de manejar todo el proceso de elaboración de un artículo de investigación. En marzo de este año, expertos de Meta compartieron resultados sobre modelos de lenguaje auto-recompensantes en los cuales la IA actúa como juez durante el entrenamiento. Además, la prueba interna de Meta en su modelo Llama 2 utilizando esta técnica reveló un rendimiento superior frente a competidores como Claude 2 de Anthropic y GPT-4 de OpenAI.
Aunque la investigación en este ámbito avanza, también surgen advertencias sobre los posibles riesgos. Se ha documentado que cuando los modelos de IA entrenan utilizando datos sintéticos generados por ellos mismos, pueden experimentar lo que se conoce como "colapso del modelo". Será interesante observar cómo DeepSeek implementa su enfoque y si logra hacerlo de una forma más económica en comparación con sus competidores occidentales.