"Demuestran un chip de inteligencia artificial con un millón de núcleos que supera al DGX100, con 44GB de memoria ultrarrápida, y está disponible para probar gratis."

Cerebras está proporcionando una inteligencia artificial "instantánea".

Cerebras ha presentado su nuevo chip de inferencia de IA, considerado un fuerte competidor del modelo DGX100 de Nvidia. Este chip incorpora 44GB de memoria de alta velocidad, lo que le permite manejar modelos de IA con miles de millones o incluso trillones de parámetros. Para aquellos modelos que exceden la capacidad de memoria de un solo wafer, Cerebras ofrece la opción de dividirlos en los límites de las capas, distribuyéndolos en varios sistemas CS-3. Un sistema CS-3 puede gestionar modelos de hasta 20 mil millones de parámetros, mientras que modelos de 70 mil millones pueden ser controlados con tan solo cuatro sistemas en conjunto.

Además, Cerebras está comprometido en utilizar pesos de modelo de 16 bits para preservar la precisión, a diferencia de algunos competidores que optan por reducir la precisión a 8 bits, lo que podría afectar el rendimiento. La compañía reporta que sus modelos de 16 bits ofrecen un desempeño superior de hasta un 5% en conversaciones multimodales, así como en tareas de matemáticas y razonamiento, garantizando salidas más precisas y confiables.

La plataforma de inferencia de Cerebras está disponible a través de chat y acceso por API, diseñada para facilitar su integración por parte de desarrolladores familiarizados con el formato de Chat Completions de OpenAI. La plataforma destaca por su capacidad de ejecutar modelos Llama3.1 de 70B a 450 tokens por segundo, siendo la única solución que logra una velocidad instantánea para este tipo de modelos de gran tamaño. Para los desarrolladores, Cerebras ofrece un millón de tokens gratuitos al día en el lanzamiento, y se menciona que los precios para implementaciones a gran escala serán notablemente más bajos que los de las populares nubes de GPU.

En su lanzamiento inicial, Cerebras presentará modelos Llama3.1 de 8B y 70B, con planes de agregar soporte para modelos más grandes como Llama3 de 405B y Mistral Large 2 en el futuro cercano. La compañía subraya que las capacidades de inferencia rápida son esenciales para habilitar flujos de trabajo de IA más complejos y mejorar la inteligencia de LLMs en tiempo real, especialmente en técnicas como el andamiaje, que requiere un uso considerable de tokens.

Recientemente, Patrick Kennedy de ServeTheHome tuvo la oportunidad de ver el producto en acción en el simposio Hot Chips 2024, donde destacó que la velocidad de la plataforma es excepcional. En su opinión, esta rapidez es crucial no solo para la interacción entre humanos y sistemas, sino también en contextos donde agentes de IA interactúan entre sí en entornos automatizados, donde cada segundo cuenta en el flujo de trabajo.

Cerebras se está posicionando como un referente en el desarrollo y despliegue de LLMs abiertos, ofreciendo rendimientos sobresalientes, precios competitivos y un amplio acceso a APIs.

Cerebras
Chips de IA
Modelos de inferencia

Relacionado

Prometedora tecnología añade terabytes de memoria a cualquier GPU, pero con una gran trampa

TECNOLOGÍA, GPU, MEMORIA

| julio 6, 2024

Relacionado

Prometedora tecnología añade terabytes de memoria a cualquier GPU, pero con una gran trampa

TECNOLOGÍA, GPU, MEMORIA

| julio 6, 2024