Nvidia : Flaw in Blackwell GPU Fixed, New B100/B200 Processors Coming

Correction de la faille de conception de Nvidia dans son GPU Blackwell
Nvidia a résolu le problème de conception de son GPU Blackwell
Le défaut de conception de Nvidia dans son GPU Blackwell a été corrigé il y a plusieurs mois, et une version améliorée des processeurs B100 / B200 est sur le point d’entrer en production de masse. Jensen Huang, le PDG de Nvidia, a admis cette semaine que le défaut a été entièrement causé par Nvidia et a déclaré que le partenaire de production de l’entreprise, TSMC, l’a aidé à le corriger en temps opportun, selon Reuters. “Nous avions un défaut de conception dans Blackwell, il était fonctionnel, mais le défaut de conception a causé un faible rendement”, a déclaré Huang. “C’était à 100% la faute de Nvidia.” Lorsque les premiers rapports sur le défaut de conception ont émergé, certains médias ont mis en cause TSMC, suggérant que cela pourrait causer des tensions entre Nvidia et son partenaire de fonderie. Ce n’était pas le cas, selon Huang, et les calculs erronés de Nvidia ont causé le problème. Huang a également rejeté les rapports de tensions entre les deux sociétés comme “des fausses nouvelles”.
Problèmes résolus des GPU Blackwell pour l’IA et les supercalculateurs
Les GPU Blackwell B100 et B200 de Nvidia relient leurs deux pucelets en utilisant la technologie d’emballage CoWoS-L de TSMC, qui repose sur un interposeur RDL équipé de ponts d’interconnexion en silicium local (LSI) (pour permettre des taux de transfert de données d’environ 10 To/s). L’emplacement de ces ponts est critique. Cependant, un prétendu désaccord dans les propriétés d’expansion thermique entre les pucelets GPU, les ponts LSI, l’interposeur RDL et le substrat de la carte mère a causé le système à se déformer et à échouer, et Nvidia aurait dû modifier les couches métalliques supérieures et les plots en silicium du GPU pour améliorer les rendements de production. Bien que la société n’ait pas divulgué de détails spécifiques sur la correction, elle a mentionné que de nouveaux masques étaient nécessaires.
Les problèmes de rendement et les principaux problèmes de fonctionnalité (erratums) ne sont pas rares dans le monde des semi-conducteurs. Typiquement, les entreprises les résolvent en modifiant une couche métallique (ou deux) et en appelant cela un nouveau stepping. À titre d’exemple : le Sapphire Rapids d’Intel aurait eu 500 bugs, et la société aurait publié une douzaine de versions pour les corriger (cinq étaient des respins de base). Chaque nouveau stepping prend environ trois mois à compléter (y compris l’identification du problème, sa correction et la production d’une nouvelle version de la puce), donc la vitesse à laquelle Nvidia et TSMC ont corrigé le GPU Blackwell est assez impressionnante.
Les GPU Blackwell désormais corrigés pour l’IA et les supercalculateurs entreront en production de masse fin octobre et devraient commencer à être expédiés au début de l’année prochaine (qui sera toujours l’exercice fiscal 2025 de Nvidia). Cela dit, Nvidia a révélé plus tôt cette année que, afin de répondre à la demande de ses GPU Blackwell auprès des principaux fournisseurs de services cloud tels qu’AWS, Google et Microsoft, elle devra toujours expédier certains des processeurs Blackwell à faible rendement initiaux en 2024. Il n’est pas clair combien de GPU Blackwell seront expédiés vers les centres de données en 2024.
Source : www.tomshardware.com