
Investigadores desarrollan una alternativa abierta al modelo de razonamiento o1 de OpenAI por menos de 50 dólares.
Investigadores en inteligencia artificial de Stanford y la Universidad de Washington lograron entrenar un modelo de "razonamiento" de IA con menos de 50 dólares en créditos de computación en la nube.
Investigadores de inteligencia artificial en Stanford y la Universidad de Washington lograron entrenar un modelo de "razonamiento" basado en IA por menos de $50 en créditos de computación en la nube, según un nuevo artículo de investigación publicado recientemente. Este modelo, denominado s1, muestra un rendimiento similar al de modelos avanzados de razonamiento como o1 de OpenAI y R1 de DeepSeek en pruebas que miden habilidades matemáticas y de programación. El modelo s1 está disponible en GitHub, junto con los datos y el código utilizados para su entrenamiento.
El equipo responsable del desarrollo de s1 comenzó con un modelo base estándar y luego lo ajustó a través de un método de destilación que permite extraer las capacidades de razonamiento de otro modelo de IA entrenando con sus respuestas. El modelo s1 está destilado de uno de los modelos de razonamiento de Google, conocido como Gemini 2.0 Flash Thinking Experimental. La misma metodología de destilación fue utilizada por investigadores de Berkeley para crear un modelo de razonamiento por aproximadamente $450 el mes pasado.
La idea de que algunos investigadores, sin contar con grandes presupuestos, puedan innovar en el ámbito de la IA resulta prometedora. Sin embargo, el modelo s1 plantea interrogantes sobre la comercialización de los modelos de IA. Si es posible replicar un modelo de varios millones de dólares con una inversión relativamente baja, se cuestiona entonces la protección de la propiedad intelectual en este campo.
Las principales instituciones de IA, como OpenAI, han expresado su descontento. OpenAI ha responsabilizado a DeepSeek de la recolección indebida de datos de su API con el fin de realizar la destilación de su modelo. El grupo que desarrolló s1 buscaba un enfoque sencillo para lograr un buen rendimiento en razonamiento y "escalado en tiempo de prueba", lo que permite al modelo de IA reflexionar más antes de responder a una pregunta. Estas fueron algunas de las innovaciones del modelo o1 de OpenAI, que otras laboratorios de IA han intentado replicar con diferentes técnicas.
El artículo sobre s1 sugiere que los modelos de razonamiento pueden ser destilados con conjuntos de datos relativamente pequeños mediante un proceso llamado ajuste fino supervisado (SFT), donde se instruye a un modelo de IA a imitar ciertos comportamientos en un conjunto de datos. Este método suele ser más económico en comparación con el aprendizaje por refuerzo a gran escala que se utilizó para entrenar el modelo R1 de DeepSeek, competidor de o1.
Google proporciona acceso gratuito a Gemini 2.0 Flash Thinking Experimental, aunque con limitaciones diarias en el uso. Sin embargo, los términos de Google prohíben la ingeniería inversa de sus modelos para desarrollar servicios que compitan con sus propias ofertas de IA. Se ha solicitado un comentario a Google al respecto.
El modelo s1 se basa en un pequeño modelo de IA estándar del laboratorio chino Qwen, propiedad de Alibaba, el cual se puede descargar sin costo. Para entrenar s1, los investigadores crearon un conjunto de datos de 1,000 preguntas cuidadosamente seleccionadas, junto con sus respuestas y el proceso de "pensamiento" detrás de cada respuesta, extraído de Google. Después de menos de 30 minutos de entrenamiento utilizando 16 GPUs Nvidia H100, s1 logró un rendimiento notable en ciertos benchmarks de IA.
Niklas Muennighoff, un investigador de Stanford involucrado en el proyecto, comentó que hoy podría alquilar los recursos de computación necesarios por alrededor de $20. El equipo utilizó un truco para que s1 verificara su trabajo y aumentara su tiempo de deliberación: simplemente le indicaron que esperara. Incluir la palabra "esperar" durante el razonamiento ayudó al modelo a llegar a respuestas algo más precisas, según lo indicado en el artículo.
Para 2025, empresas como Meta, Google y Microsoft planean invertir miles de millones de dólares en infraestructura de IA, lo que parcialmente se destinará al entrenamiento de modelos de IA de próxima generación. Este nivel de inversión puede ser necesario para continuar avanzando en la innovación en IA. Aunque la destilación ha demostrado ser un buen método para recrear de manera económica las capacidades de un modelo de IA, no genera modelos nuevos que sean significativamente mejores que los que ya están disponibles.