Découvrez le superordinateur xAI Colossus d’Elon Musk
Nouveau détail du projet très coûteux d’Elon Musk, le supercalculateur xAI Colossus AI, a été révélé pour la première fois. ServeTheHome a eu accès aux serveurs Supermicro du monstre composé de 100 000 GPU, mettant en avant plusieurs aspects du supercalculateur. Le supercluster xAI Colossus de Musk est en ligne depuis près de deux mois, après un assemblage de 122 jours.
À l’intérieur du plus grand supercluster IA au monde xAI Colossus – YouTube
Regarder sur
Ce qui se cache dans un cluster de 100 000 GPUPatrick de ServeTheHome filme plusieurs parties du serveur, offrant une vue d’ensemble de ses opérations. Les détails minutieux du supercalculateur, comme sa consommation d’énergie et la taille des pompes, n’ont pas pu être révélés en raison d’un accord de confidentialité, et xAI a flouté et censuré les parties de la vidéo avant sa publication. Les éléments les plus importants, comme les serveurs GPU Supermicro, sont restés principalement intacts dans les images ci-dessus.
Les serveurs GPU sont des Nvidia HGX H100, une solution serveur contenant huit GPU H100 chacun. La plate-forme HGX H100 est emballée à l’intérieur du système refroidi par liquide GPU universel en 4U de Supermicro, offrant un refroidissement liquide facilement remplaçable à chaud pour chaque GPU. Ces serveurs sont chargés dans des racks contenant huit serveurs chacun, soit 64 GPU par rack. Des collecteurs 1U sont intercalés entre chaque HGX H100, fournissant le refroidissement liquide nécessaire aux serveurs. Au bas de chaque rack se trouve une autre unité Supermicro 4U, cette fois avec un système de pompe redondant et un système de surveillance de racks.
Ces racks sont appariés par groupes de huit, faisant 512 GPU par tableau. Chaque serveur dispose de quatre alimentations redondantes, l’arrière des racks de GPU révélant des alimentations électriques triphasées, des commutateurs Ethernet et un collecteur de la taille d’un rack fournissant tout le refroidissement liquide. Il y a plus de 1 500 racks de GPU au sein du cluster Colossus, soit près de 200 ensembles de racks. Selon le PDG de Nvidia, Jensen Huang, les GPU pour ces 200 tableaux ont été entièrement installés en seulement trois semaines.
Réseautage et connectivité du cluster
En raison des exigences élevées en bande passante d’un supercluster IA formant constamment des modèles, xAI a poussé au-delà de l’excès pour son interconnectivité réseau. Chaque carte graphique dispose d’une interface NIC dédiée (contrôleur d’interface réseau) à 400 GbE, avec un NIC supplémentaire à 400 Gb par serveur. Cela signifie que chaque serveur HGX H100 dispose de 3,6 terabits par seconde d’Ethernet. Et oui, l’ensemble du cluster fonctionne sur Ethernet, plutôt que sur InfiniBand ou d’autres connexions exotiques qui sont standard dans l’espace de la superinformatique.
Bien sûr, un superordinateur basé sur la formation de modèles IA comme le chatbot Grok 3 a besoin de plus que simplement des GPU pour fonctionner. Les détails sur le stockage et les serveurs informatiques à CPU dans Colossus sont plus restreints. D’après ce que nous pouvons voir dans la vidéo et l’article de blog de Patrick, ces serveurs sont également principalement dans des châssis Supermicro. Des vagues de serveurs 1U orientés NVMe avec un CPU de plate-forme x86 à l’intérieur contiennent soit du stockage et des calculs CPU, également avec un refroidissement liquide d’entrée arrière.
Source : www.tomshardware.com