Cover Image for Los nuevos modelos de inteligencia artificial Gemma 3 de Google prometen un gran impacto con recursos limitados.

Los nuevos modelos de inteligencia artificial Gemma 3 de Google prometen un gran impacto con recursos limitados.

Google ha lanzado cuatro nuevos modelos de inteligencia artificial de código abierto pertenecientes a la serie Gemma 3, diseñados específicamente para su uso en plataformas móviles, superando a OpenAI en el proceso.

Las iniciativas de inteligencia artificial de Google están estrechamente ligadas a Gemini, el cual se ha integrarado de forma fundamental en sus productos más populares, abarcando tanto el software como el hardware de Worksuite. Además, la compañía ha estado lanzando varios modelos de IA de código abierto bajo la etiqueta Gemma durante más de un año. Recientemente, Google presentó la tercera generación de sus modelos de inteligencia artificial de código abierto, con afirmaciones impresionantes.

Los modelos Gemma 3 vienen en cuatro variantes, que incluyen 1 mil millones, 4 mil millones, 12 mil millones y 27 mil millones de parámetros, y están diseñados para funcionar en dispositivos que van desde smartphones hasta estaciones de trabajo potentes. Google afirma que Gemma 3 es el mejor modelo de un solo acelerador en el mundo, lo que significa que puede ejecutarse en una sola unidad GPU o TPU, sin la necesidad de un clúster completo. Esto implica que un modelo de IA Gemma 3 puede funcionar de manera nativa en el núcleo de procesamiento Tensor (TPU) del smartphone Pixel, similar a cómo se ejecuta el modelo Gemini Nano localmente en los teléfonos.

Una de las principales ventajas de Gemma 3 frente a la familia de modelos Gemini es que, al ser de código abierto, los desarrolladores pueden empaquetarlo y adaptarlo a sus necesidades específicas dentro de aplicaciones móviles y software de escritorio. Otro aspecto relevante es que Gemma admite más de 140 idiomas, de los cuales 35 vienen en un paquete preentrenado. Además, al igual que los modelos más recientes de la serie Gemini 2.0, Gemma 3 tiene la capacidad de entender texto, imágenes y videos, siendo así un modelo multimodal.

En cuanto a rendimiento, se afirma que Gemma 3 supera a otros modelos de código abierto populares, como DeepSeek V3 y el modelo OpenAI o3-mini. Gemma 3 también ofrece una ventana de contexto de 128,000 tokens, lo que permite procesar entradas del tamaño de un libro de 200 páginas. Para comparación, la ventana de contexto del modelo Gemini 2.0 Flash Lite es de un millón de tokens. En los modelos de IA, una palabra en inglés promedio equivale a aproximadamente 1.3 tokens.

Además, Gemma 3 soporta la llamada a funciones y salida estructurada, lo que le permite interactuar con conjuntos de datos externos y realizar tareas como un agente automatizado. Esto se asemeja a cómo funciona Gemini, facilitando el trabajo en diferentes plataformas como Gmail o Docs de manera fluida. Los últimos modelos de IA de código abierto de Google pueden ser desplegados localmente o a través de sus plataformas basadas en la nube, como la suite Vertex AI. Los modelos AI de Gemma 3 están disponibles en Google AI Studio, así como en repositorios de terceros como Hugging Face, Ollama y Kaggle.

Gemma 3 forma parte de una tendencia dentro de la industria donde las empresas desarrollan Modelos de Lenguaje Grande (como Gemini en el caso de Google) mientras también lanzan pequeños modelos de lenguaje (SLMs). Microsoft sigue una estrategia similar con su serie de modelos de lenguaje pequeños de código abierto llamada Phi. Modelos de lenguaje pequeños como Gemma y Phi son extremadamente eficientes en recursos, lo cual los hace ideales para funcionar en dispositivos como smartphones, y su baja latencia los hace especialmente adecuados para aplicaciones móviles.