Matériel et configuration
Le supercalculateur xAI Colossus est une innovation majeure dans le domaine de l'IA. Il dispose de 100 000 GPU, ce qui en fait le plus grand supercalculateur d'IA au monde. Ce formidable système exploite la plateforme HGX H100 de Nvidia, qui comprend huit GPU H100 par serveur. Ces GPU sont hébergés dans les systèmes 4U Universal GPU Liquid Cooled de Supermicro, conçus pour un refroidissement liquide efficace et échangeable à chaud. Ces serveurs sont méticuleusement agencés, chaque rack pouvant accueillir huit serveurs, soit 64 GPU par rack. La configuration s'adapte aux racks regroupés par huit, ce qui donne lieu à des baies puissantes contenant chacune 512 GPU.
Refroidissement et alimentation
Des solutions d'alimentation et de refroidissement efficaces sont primordiales pour le xAI Colossus. Chaque serveur est équipé de quatre alimentations redondantes, tandis que les sections arrière des racks GPU intègrent des alimentations triphasées, des commutateurs Ethernet et un collecteur de rack de taille conséquente dédié au refroidissement liquide. L'infrastructure comprend des collecteurs 1U nichés entre chaque serveur HGX H100 pour faciliter le processus essentiel de refroidissement liquide. De plus, une unité Supermicro 4U au bas de chaque rack est équipée d'une pompe redondante et d'un système de surveillance, garantissant des conditions de fonctionnement optimales.
Mise en réseau
Avec un réseau à large bande passante comme aspect essentiel, l'architecture fournit à chaque carte graphique une carte réseau 400 GbE dédiée ainsi qu'une carte réseau 400 Gb supplémentaire par serveur. Cette configuration se traduit par une connectivité Ethernet étonnante de 3,6 térabits par seconde pour chaque serveur HGX H100. Notamment, l'ensemble du cluster fonctionne sur Ethernet, optant pour InfiniBand ou d'autres connexions spécialisées, ce qui met en évidence son approche unique de la mise en réseau.
Serveurs de stockage et de processeur
En complément de ses capacités GPU, le supercalculateur intègre des serveurs de stockage et de CPU principalement dans des châssis Supermicro. Ces unités sont des serveurs NVMe 1U avant-gardistes équipés de processeurs x86, offrant à la fois des ressources de stockage et de calcul, tout en utilisant un refroidissement liquide à entrée arrière pour maintenir l'efficacité opérationnelle et le contrôle de la température.
Gestion de l'alimentation
Les besoins en énergie étant considérables, une gestion efficace de l'énergie est primordiale. L'infrastructure intègre des batteries Tesla Megapack, chacune capable de stocker jusqu'à 3,9 MWh, pour servir de tampon entre le supercalculateur et le réseau électrique. Cette configuration atténue les problèmes liés à la latence élevée et à la nature intermittente des opérations du système, garantissant une alimentation électrique constante et fiable.
Construction et déploiement
La construction ambitieuse du xAI Colossus a été achevée en 122 jours, le système étant opérationnel depuis près de deux mois. L'installation des GPU pour les 200 baies a été réalisée rapidement, en seulement trois semaines, comme l'a confirmé le PDG de Nvidia, Jensen Huang.
Mises à jour futures
Alors que la phase actuelle du supercalculateur Colossus est finalisée, de futures améliorations sont à l'horizon. Des projets sont en cours pour augmenter considérablement les capacités du supercalculateur Memphis en doublant la capacité de son GPU. Cette mise à niveau comprendra 50 000 GPU H100 supplémentaires et 50 000 GPU H200 de nouvelle génération, augmentant encore sa consommation d'énergie.
Utilisation principale
La fonction première du xAI Colossus réside dans son rôle dans la formation de modèles d'IA, notamment le chatbot Grok 3, accessible aux abonnés X Premium. De plus, le système est à l'avant-garde du développement de la prochaine génération de modèles d'IA, promettant des capacités qui surpassent les technologies phares actuelles de l'IA.
Défis environnementaux et énergétiques
La consommation électrique actuelle du xAI Colossus devrait plus que doubler avec les prochaines mises à niveau, ce qui accentue le défi de la gestion de l'énergie. L'infrastructure existante, notamment les 14 générateurs diesel installés en juillet, pourrait avoir du mal à répondre à la demande accrue, ce qui met en lumière la nécessité de solutions innovantes pour répondre à ces défis environnementaux et énergétiques considérables.
Boutique en ligne de Logics Technology