Nvidia résout les problèmes de surchauffe dans les racks serveurs.
Découvrez les dernières informations sur les serveurs NVL72 de Nvidia et les problèmes de refroidissement associés.
Problème de refroidissement des serveurs Nvidia NVL72
Les rapports sur les racks serveurs NVL72 de Nvidia qui surchauffent auraient été exagérés. Selon Business Insider, les défauts de conception de refroidissement de Blackwell ont déjà été corrigés. Selon Dylan Patel, analyste en chef chez Semianalysis, les problèmes de conception de Blackwell, présents depuis des mois, ont été largement résolus, indiquant que les problèmes de surchauffe sont largement exagérés.
Les cinq analystes de Semianalysis surveillant l’industrie des semi-conducteurs ont signalé que les problèmes du système de refroidissement déclenchant des “retours” de plusieurs fournisseurs étaient un changement “mineur”. Les défauts de refroidissement de Blackwell ont été spécifiquement problématiques avec le rack serveur 72 puces massif de Nvidia, qui peut consommer jusqu’à 120 kW.
Les difficultés rencontrées par Nvidia
Les défaillances de conception dans le rack ont contraint Nvidia à réévaluer sa conception à plusieurs reprises en raison de la surchauffe des GPU à l’intérieur. Cela a retardé les expéditions du matériel GB200 de Nvidia, entraînant des retards supplémentaires en raison des changements de conception requis.
Les GPU B200 de Nvidia sont les puces de traitement les plus puissantes pour les charges de travail en intelligence artificielle. Par exemple, le superchip GB200 a une TDP configurable dans les milliers de watts, avec une note de crête allant jusqu’à 2700 watts. Ces chiffres de consommation d’énergie extrêmement élevés rendent presque impossible l’utilisation du refroidissement par air dans les contraintes d’un facteur de forme standard en rack.
Les solutions apportées par Nvidia
Ce problème de physique a contraint Nvidia à exiger un refroidissement liquide sur ses derniers GPU Blackwell. Cela oblige également les centres de données à revoir leurs fermes de serveurs pour prendre en charge l’infrastructure nécessaire pour prendre en charge les serveurs refroidis par liquide.
Nvidia pourrait résoudre ce problème en créant des GPU refroidis par air plus lents – ce que le fabricant de GPU fait toujours, sous la forme de GPU tels que le H200 NVL. Cependant, pour rester à la pointe de la course aux armements des GPU AI, Nvidia donne la priorité aux performances quel qu’en soit le coût, c’est pourquoi la société a opté pour la fabrication de GPU nécessitant des milliers de watts de puissance au détriment du refroidissement par air.
La bonne nouvelle est que les problèmes de refroidissement de Blackwell à 72 puces de Nvidia semblent mineurs et ont déjà largement été résolus. De plus, seul le rack serveur phare à 72 puces de Nvidia rencontre le problème.
Source : www.tomshardware.com