Nvidia: Test des GPUs Blackwell, plus complexe que jamais

Nvidia a lancé les GPU Blackwell, parmi les dispositifs semiconducteurs les plus complexes jamais construits, ce qui augmente significativement la difficulté de fabrication, d’encapsulation et de test. Selon le Financial Times, citant Doug Lefever, le PDG de Advantest, il faut trois à quatre fois plus de temps pour tester les GPU de centre de données Blackwell que les GPU de centre de données Hopper, car chaque unité doit être testée des dizaines de fois sur différents outils avant d’être expédiée. Un GPU Nvidia Blackwell B100/B200 se compose de deux puce de calcul contenant 104 milliards de transistors accompagnées de huit puce de mémoire HBM3E interconnectées à l’aide d’une interface activée par la technologie d’encapsulation CoWoS-L de TSMC. Cela contraste avec le GPU Hopper H100 de Nvidia, qui contient une puce de calcul de 80 milliards de transistors et six piles de mémoire HBM3.
Complexité des tests des GPU Blackwell
En général, plus le nombre de transistors augmente, plus la complexité des tests augmente de manière presque exponentielle, car les puces nécessitent plus de motifs de test et des durées de test plus longues. Les protocoles de test doivent couvrir les interconnexions à haute vitesse, les conditions de stress, les conditions thermiques (qui, dans le cas du B200, sont extrêmes), et les différents modes de fonctionnement (le Blackwell ajoute le support FP4). Étant donné que le Blackwell implique deux puce de calcul hautement complexes avec de nouvelles fonctionnalités et des températures plus élevées, il est naturel que les tests prennent plus de deux fois plus de temps.
Techniques de packaging CoWoS-L 2.5D de TSMC
Avec le Blackwell, il faut tester séparément les puce de calcul et les puce de mémoire (bien que les fabricants de DRAM testent les piles de HBM3), puis tester le GPU plusieurs fois à mesure que ces puces sont ajoutées à leur interposeur RDL. En général, le temps de test prolongé du Blackwell reflète la complexité croissante de ces GPU AI et HPC et la nécessité d’une validation approfondie pour garantir des performances et une fiabilité optimales dans différents environnements de centre de données, en fonctionnement aux côtés d’autres composants tels que les CPU, les DPU et les cartes réseau.
Source : www.tomshardware.com