Elon Musk installe 100 000 GPUs en 19 jours : un exploit technologique.
Une prouesse technique impressionnante a été réalisée par Elon Musk et l’équipe derrière xAI, en mettant en place un supercluster de 100 000 H200 Blackwell GPUs en seulement 19 jours. Le PDG de Nvidia, Jensen Huang, a raconté l’histoire des incroyables capacités d’installation d’Elon Musk aux membres de Tesla Owners Silicon Valley.
Elon Musk et le supercluster xAI
Huang décrit l’escapade de 19 jours de Musk avec émerveillement et respect, qualifiant l’effort de “surhumain”. L’équipe de xAI est passée de la phase de “concept” à une compatibilité complète avec l’équipement de Nvidia en moins de trois semaines. Cela inclut l’exécution du premier test de formation AI de xAI sur le supercluster nouvellement construit.
L’intégration de 100 000 H200 GPUs par Elon Musk est une première et probablement ne sera pas reproduite par une autre entreprise, du moins pas de sitôt.
De A à Z, le processus consistait à construire l’immense usine X où les GPUs seraient installées, à équiper toute l’usine de refroidissement liquide et de l’alimentation nécessaire pour rendre les 200 000 GPUs opérationnels. Sans oublier toute la coordination entre les équipes d’ingénierie de Nvidia et d’Elon Musk pour obtenir tout le matériel et l’infrastructure expédiés et installés précisément et de manière coordonnée.
Le défi technique
Huang explique également la complexité du réseau sur le matériel de Nvidia en comparaison avec les serveurs traditionnels des centres de données. “Le nombre de câbles nécessaires pour un nœud… à l’arrière d’un ordinateur, il y a que des câbles.”
Il est important de noter que selon Huang, un centre de données moyen mettrait quatre ans pour réaliser ce qu’Elon Musk et son équipe ont accompli en 19 jours. Trois ans de ce temps seraient consacrés à la planification, tandis que la dernière année serait utilisée pour expédier l’équipement, l’installer et le faire fonctionner.
Source : www.tomshardware.com