Cover Image for La inteligencia artificial consume mucha energía, pero DeepSeek podría modificar esa situación.

La inteligencia artificial consume mucha energía, pero DeepSeek podría modificar esa situación.

"Hay una opción al respecto."

El mes pasado, DeepSeek sorprendió al público al afirmar que su modelo de inteligencia artificial utiliza aproximadamente una décima parte del poder de cómputo que requiere el modelo Llama 3.1 de Meta. Esta afirmación podría tener grandes repercusiones en la forma en que se perciben el desarrollo y el consumo de energía en la inteligencia artificial. Las grandes empresas tecnológicas están apurándose para construir enormes centros de datos de IA, con planes que prevén un consumo de electricidad equivalente al de pequeñas ciudades. Este elevado consumo energético genera contaminación, lo que suscita inquietudes sobre cómo la infraestructura que sustenta las nuevas herramientas de IA generativa puede agravar el cambio climático y deteriorar la calidad del aire.

Reducir la energía necesaria para entrenar y operar modelos de IA generativa podría aliviar gran parte de esta presión, aunque aún es pronto para determinar si DeepSeek será un cambio radical en la huella ambiental de la inteligencia artificial. La respuesta de otras empresas líderes ante los avances de esta startup china será crucial, especialmente en el contexto de las nuevas construcciones de centros de datos.

Según Madalsa Singh, investigadora postdoctoral en la Universidad de California, Santa Bárbara, esto demuestra que "la IA no tiene que ser un consumidora de energía desmedida", sugiriendo que hay alternativas. La controversia comenzó con el lanzamiento del modelo V3 de DeepSeek en diciembre, que costó 5.6 millones de dólares y utilizó 2.78 millones de horas GPU para su entrenamiento en los chips H800 de Nvidia. En comparación, el modelo Llama 3.1 de Meta requirió alrededor de 30.8 millones de horas GPU, y se estima que su coste oscila entre 60 y 1,000 millones de dólares para modelos similares.

Recientemente, DeepSeek lanzó su modelo R1, el cual fue elogiado por el capitalista de riesgos Marc Andreessen como “un profundo regalo para el mundo”. Este asistente de IA alcanzó rápidamente la cima de las tiendas de aplicaciones de Apple y Google, provocando una caída en las acciones de sus competidores ante la posibilidad de que DeepSeek haya creado una alternativa asequible a modelos como Llama, Gemini y ChatGPT. Además, Nvidia, cuya tecnología alimenta estos sistemas, vio cómo su valor accionario se desplomó tras conocerse que DeepSeek utilizó solo 2,000 chips para su entrenamiento, en contraste con los 16,000 o más que requerían sus competidores.

De acuerdo con DeepSeek, la disminución en el consumo eléctrico se debe a métodos de entrenamiento más eficientes, empleando una estrategia conocida como auxiliar-loss-free. Según Singh, esto significa que se opta por entrenar segmentos específicos del modelo en lugar de todo simultáneamente, como si se tratara de una empresa de servicio al cliente eligiendo qué expertos consultar. Asimismo, el modelo ahorra energía durante la inferencia gracias a técnicas de "key value caching" y compresión, lo que permite acceder a resúmenes de información sin necesidad de revisar documentos completos.

Singh tiene esperanzas en que los modelos de DeepSeek, en su mayoría de código abierto (exceptuando los datos de entrenamiento), facilitarán la colaboración entre investigadores y permitirán la entrada de actores más pequeños en la industria. Esto también promovería mayor transparencia y responsabilidad en cuanto a las inversiones y recursos necesarios para desarrollar estos modelos.

Sin embargo, hay escepticismo en torno a las afirmaciones de eficiencia de DeepSeek. Carlos Torres Diaz, director de investigación sobre energía en Rystad Energy, advierte sobre la falta de datos concretos respecto al consumo energético del programa. Si lo que afirma DeepSeek es cierto, esto podría reducir significativamente el consumo energético de un centro de datos. No obstante, a pesar de que las grandes empresas tecnológicas han firmado numerosos acuerdos para acceder a energía renovable, la creciente demanda de electricidad de los centros de datos podría limitar los recursos de energía solar y eólica disponibles.

La utilización de menos electricidad por parte de la IA podría liberar recursos renovables para otros sectores, ayudando a acelerar la transición hacia el uso de fuentes energéticas más limpias. Sin embargo, la implementación de modelos de IA más eficientes trae consigo el dilema del aumento de uso. Satya Nadella, CEO de Microsoft, mencionó en X el "paradoja de Jevons", que indica que mientras más eficiente se vuelve una tecnología, más probable es que su uso se expanda, creando así un mayor daño ambiental.

Contar con un consumo energético de la IA reducido podría atraer a más proveedores de datos, expandiendo la infraestructura mucho más de lo previsto. A pesar de esto, Torres Diaz también señaló que es prematuro realizar ajustes significativos a las proyecciones de consumo energético. La procedencia de la electricidad utilizada sigue siendo esencial para determinar la contaminación generada. Tanto en China como en Estados Unidos, una gran proporción de la electricidad proviene de combustibles fósiles, mientras que la creciente demanda de los centros de datos está llevando a postergar el cierre de plantas de energía convencionales.

La industria de la IA también enfrenta desafíos adicionales, incluyendo un alto consumo de agua para refrigerar el hardware, lo que puede agravar los problemas en regiones susceptibles a la sequía. A pesar de que los centros de datos tradicionales han mantenido un consumo relativamente constante en el pasado, con el avance de la IA su demanda de energía ha crecido considerablemente. En 2023, estos centros consumieron más del 4% de la electricidad en Estados Unidos, y se prevé que este porcentaje casi se triplique para 2028. Mientras se observa el desarrollo de DeepSeek, sigue existiendo bastante incertidumbre sobre el futuro impacto real de estos avances.