Cover Image for OpenAI lanza un nuevo modelo de razonamiento o1.

OpenAI lanza un nuevo modelo de razonamiento o1.

Sin embargo, no es económico.

OpenAI ha anunciado el lanzamiento de un nuevo modelo denominado o1, que se presenta como el primero en una serie de modelos de "razonamiento" diseñados para responder preguntas más complejas, superando la velocidad de los humanos. A la vez, se introduce o1-mini, una versión más pequeña y económica del mismo modelo. Este desarrollo también está relacionado con el muy comentado modelo Strawberry.

Para OpenAI, o1 representa un avance significativo hacia su objetivo de lograr una inteligencia artificial similar a la humana. En términos prácticos, este modelo es más eficiente en la escritura de código y la resolución de problemas complejos en comparación con sus predecesores, aunque es más costoso y menos ágil que el modelo GPT-4o. OpenAI ha calificado esta versión de o1 como una "previsualización" para señalar que está en sus etapas iniciales de desarrollo.

Los usuarios de ChatGPT Plus y Team ya pueden acceder tanto a o1-preview como a o1-mini, mientras que los usuarios de Enterprise y Edu tendrán acceso a partir de la próxima semana. OpenAI planea expandir el acceso a o1-mini a todos los usuarios gratuitos de ChatGPT, aunque aún no ha establecido una fecha específica para ello. El acceso para desarrolladores es considerablemente costoso: en la API, o1-preview cuesta $15 por cada millón de tokens de entrada y $60 por cada millón de tokens de salida, en comparación con $5 y $15, respectivamente, para GPT-4o.

El proceso de entrenamiento de o1 se basa en una metodología completamente diferente a la de sus antecesores. OpenAI ha utilizado un nuevo algoritmo de optimización y un conjunto de datos adaptado específicamente para este modelo. En lugar de solo imitar patrones de los datos de entrenamiento, o1 ha sido diseñado para resolver problemas de manera autónoma a través de un enfoque de aprendizaje por refuerzo, donde el modelo recibe recompensas o penalizaciones en función de su rendimiento.

Esta nueva metodología de entrenamiento tiene como objetivo aumentar la precisión. Aunque se ha observado que este modelo presenta menos "alucinaciones", el problema no ha desaparecido por completo. Lo que distingue a o1 de GPT-4o es su capacidad para abordar problemas complejos, como la programación y las matemáticas, de forma superior mientras explica su razonamiento.

En pruebas específicas, o1 superó significativamente a GPT-4o. Por ejemplo, en un examen para la Internacional de Matemáticas, mientras que GPT-4o solo resolvió el 13% de los problemas, o1 alcanzó una tasa de aciertos del 83%. En competiciones de programación en línea, o1 ocupó el percentil 89, y OpenAI espera que su próxima actualización permita que el modelo alcance un rendimiento comparable al de estudiantes de doctorado en tareas desafiantes en física, química y biología.

Sin embargo, aún presenta limitaciones en comparación con GPT-4o, ya que no tiene la misma capacidad en cuanto a conocimiento fáctico sobre el mundo y carece de acceso a Internet o la capacidad de procesar archivos e imágenes. OpenAI considera que representa una nueva clase de capacidades y ha nombrado al modelo o1 para simbolizar un "reinicio".

El diseño del modelo incluye una interfaz que muestra los pasos de razonamiento a medida que el modelo responde. Aunque se presentan como interacciones humanas, OpenAI aclara que no hay una equivalencia entre el pensamiento del modelo y el pensamiento humano, pero que la interfaz se ha creado para que el flujo de trabajo del modelo parezca más humano.

A pesar de que la tecnología de modelos de lenguaje grandes todavía no es completamente avanzada, OpenAI está explorando capacidades de razonamiento para anhelar un futuro con sistemas autónomos que puedan tomar decisiones y acciones en nombre de los usuarios. El progreso hacia la inteligencia similar a la humana dependerá de los avances en esta área crítica.

  • OpenAI
  • inteligencia artificial
  • modelos de razonamiento