Defis de surchauffe pour les processeurs Blackwell de Nvidia: retards pour les géants de la techno.
Nvidia Blackwell: les nouveaux processeurs de prochaine génération rencontrent des défis majeurs liés à la surchauffe lorsqu’ils sont installés dans des racks de serveurs haute capacité, rapporte The Information. Ces problèmes ont apparemment entraîné des modifications de conception et des retards, soulevant des inquiétudes parmi des clients tels que Google, Meta et Microsoft quant à leur capacité à déployer les serveurs Blackwell à temps. Selon des initiés familiers avec la situation qui ont parlé à The Information, les GPU Blackwell de Nvidia pour l’IA et le HPC surchauffent lorsqu’ils sont utilisés dans des serveurs avec 72 processeurs à l’intérieur. Ces machines devraient consommer jusqu’à 120 kW par rack. Ces problèmes ont poussé Nvidia à réévaluer la conception de ses racks de serveurs à plusieurs reprises, car la surchauffe limite les performances du GPU et risque d’endommager les composants. Les clients sont apparemment préoccupés par le fait que ces contretemps pourraient entraver leur calendrier de déploiement de nouveaux processeurs dans leurs centres de données.
Les défis de surchauffe des processeurs Blackwell de Nvidia
Nvidia aurait donné des instructions à ses fournisseurs pour apporter plusieurs modifications de conception aux racks afin de contrer les problèmes de surchauffe. La société a travaillé en étroite collaboration avec ses fournisseurs et partenaires pour élaborer des révisions d’ingénierie visant à améliorer le refroidissement des serveurs. Bien que ces ajustements soient courants pour de telles sorties technologiques à grande échelle, ils ont néanmoins ajouté au retard, repoussant davantage les dates d’expédition attendues.
Les ajustements en réponse aux retards et aux problèmes de surchauffe
En réponse aux retards et aux problèmes de surchauffe, un porte-parole de Nvidia a rappelé à Reuters les efforts de collaboration avec les fournisseurs de cloud et a décrit les modifications de conception comme faisant partie du processus de développement normal. Ce partenariat avec les fournisseurs de cloud et les fournisseurs vise à garantir que le produit final répond aux attentes en termes de performances et de fiabilité alors que Nvidia continue de travailler à résoudre ces défis techniques.
Auparavant, Nvidia avait dû retarder la production en série des Blackwell en raison de l’erreur de conception qui impactait le rendement des processeurs. Les GPUs Blackwell B100 et B200 de Nvidia utilisent la technologie d’empaquetage CoWoS-L de TSMC pour connecter leurs deux chiplets. Cette conception comprend un interposeur RDL avec des ponts LSI locaux, qui prend en charge des vitesses de transfert de données allant jusqu’à 10 To/s.
La position précise de ces ponts LSI est essentielle pour que la technologie fonctionne comme prévu. Cependant, un désaccord dans les caractéristiques d’expansion thermique des chiplets GPU, des ponts LSI, de l’interposeur RDL et du substrat de la carte mère a entraîné des déformations et des défaillances du système. Pour remédier à cela, Nvidia aurait modifié les couches métalliques supérieures en silicium du GPU et les structures de bump pour améliorer la fiabilité de production. Bien que Nvidia n’ait jamais révélé de détails spécifiques sur ces changements, il a noté que de nouveaux masques étaient nécessaires dans le cadre de la correction.
Les ajustements des Blackwell GPUs pour la production en série
En conséquence, la révision finale des GPUs Blackwell n’est entrée en production de masse qu’à la fin d’octobre, ce qui signifie que Nvidia pourra expédier ces processeurs à partir de fin janvier. Les clients de Nvidia, y compris des géants de la technologie tels que Google, Meta et Microsoft, utilisent les GPUs de Nvidia pour former leurs modèles de langage les plus puissants. Les retards dans les GPU Blackwell affectent naturellement les plans et produits des clients de Nvidia.
Source : www.tomshardware.com