Cover Image for Un vistazo a la increíble GPU de Nvidia que impulsa la ambición global de inteligencia artificial de DeepSeek.

Un vistazo a la increíble GPU de Nvidia que impulsa la ambición global de inteligencia artificial de DeepSeek.

DeepSeek fue entrenado utilizando 2,048 GPUs Nvidia H800.

Nvidia lanzó su modelo H800 en marzo de 2023, el cual es una versión más limitada del H100. Este nuevo modelo es considerablemente más lento que el H200 de Nvidia y la gama Instinct de AMD. Sin embargo, estas limitaciones han impulsado a los ingenieros de DeepSeek a innovar.

Se consideraba que Estados Unidos mantendría su posición como la principal potencia mundial en inteligencia artificial, especialmente tras el anuncio del presidente Donald Trump sobre el Proyecto Stargate, una iniciativa de 500 mil millones de dólares para fortalecer la infraestructura de IA en el país. Sin embargo, la aparición de DeepSeek, procedente de China, ha alterado este panorama, logrando un impacto tal que se tradujo en una pérdida de un billón de dólares en el valor de las acciones tecnológicas de EE.UU., siendo Nvidia una de las más afectadas.

La naturaleza secreta de cualquier desarrollo tecnológico en China dificulta obtener información; sin embargo, un documento técnico publicado días antes del modelo de chat de DeepSeek brindó algunas pistas sobre la tecnología que motiva su equivalente a ChatGPT. En 2022, Estados Unidos bloqueó la importación de GPUs avanzadas de Nvidia hacia China en un intento por controlar el acceso a tecnologías críticas de IA, pero esto no ha detenido a DeepSeek.

El documento revela que la empresa utilizó su modelo V3 para su entrenamiento en un clúster de 2,048 GPUs Nvidia H800, versiones limitadas del H100. Lanzada en marzo de 2023 para cumplir con las restricciones de exportación de EE.UU. a China, la H800 cuenta con 80GB de memoria HBM3 y un ancho de banda de 2TB/s. Aunque supera a modelos anteriores, se queda corto frente al H200, que ofrece 141GB de HBM3e y 4.8TB/s. Además, la gama Instinct MI325X de AMD lo supera aún más con 256GB de HBM3e y 6TB/s.

Cada nodo del clúster utilizado por DeepSeek para el entrenamiento incluye 8 GPUs interconectadas mediante NVLink y NVSwitch. La comunicación entre nodos se gestiona a través de InfiniBand, aunque la H800 presenta un ancho de banda de NVLink menor en comparación con el H100, lo que afecta el rendimiento en la comunicación entre múltiples GPUs.

El modelo DeekSeek-V3 requirió un total de 2.79 millones de horas GPU para su preentrenamiento y ajuste, trabajando con 14.8 billones de tokens mediante una combinación de paralelismo de datos, optimizaciones de memoria y técnicas innovadoras de cuantización. Según un análisis, si el costo por hora de GPU en China es de 2 dólares, el entrenamiento de V3 habría costado alrededor de 5.58 millones de dólares.