Cover Image for El clúster de supercomputadoras Colossus de xAI emplea 100,000 GPUs Nvidia Hopper, gracias a la plataforma de red Ethernet Spectrum-X de Nvidia.

El clúster de supercomputadoras Colossus de xAI emplea 100,000 GPUs Nvidia Hopper, gracias a la plataforma de red Ethernet Spectrum-X de Nvidia.

El sitio Coloso fue construido en tan solo 122 días.

Nvidia ha proporcionado detalles sobre la colaboración con xAI en el desarrollo de 'Colossus', un superordenador que gestiona 100,000 GPUs Hopper. Este avance se ha logrado gracias a la implementación de la plataforma de red Spectrum-X de Nvidia, diseñada específicamente para ofrecer un rendimiento excepcional en fábricas de IA de gran escala.

Desde su inauguración, Colossus ha sido fundamental para el entrenamiento de la serie de modelos de lenguaje Grok de xAI, los cuales alimentan los chatbots que utilizan los usuarios de X. Esta infraestructura fue construida en un tiempo récord de 122 días y actualmente xAI está en proceso de expansión, con planes de incrementar el número de GPUs Hopper a 200,000.

Los modelos Grok son extraordinariamente grandes, destacando Grok-1 con 314 mil millones de parámetros y Grok-2, que logró superar a otros competidores como Claude 3.5 Sonnet y GPT-4 Turbo al ser lanzado en agosto. El entrenamiento de estos robustos modelos exige un rendimiento de red considerable. Con el uso de Spectrum-X, xAI informó que no ha experimentado degradación en las aplicaciones ni pérdida de paquetes debido a los 'flow collisions', problemas comunes en las redes de IA. Gracias a las capacidades de control de congestión de Spectrum-X, se ha mantenido un 95% de rendimiento en el flujo de datos, una cifra que no es alcanzable con las redes Ethernet estándar.

Un representante de xAI destacó que la combinación de GPUs Hopper y Spectrum-X ha permitido a la empresa “superar los límites del entrenamiento de modelos de IA”, transformando así su operación en una “fábrica de IA superacelerada y optimizada”.

La necesidad de aumentar el rendimiento, la seguridad, la escalabilidad y la eficiencia de costes en la inteligencia artificial ha llevado a Nvidia a desarrollar la plataforma Spectrum-X. Esta incluye el conmutador Ethernet Spectrum SN5600, que soporta velocidades de puerto de hasta 800 Gb/s y se basa en el ASIC Spectrum-4. Además, xAI ha decidido combinar el conmutador SN5600 con los SuperNICs BlueField-3 de Nvidia para mejorar aún más el rendimiento.