Meta présente ses dernières avancées en hardware pour l’IA chez OCP Global Summit 2024

Meta a présenté ses dernières conceptions matérielles d’IA ouvertes lors du Sommet mondial 2024 du projet Open Compute (OCP). Ces innovations incluent une nouvelle plateforme d’IA, des conceptions de racks ouverts de pointe, ainsi que des tissus réseau et des composants avancés. L’objectif est de favoriser la collaboration et de stimuler l’innovation dans l’infrastructure d’IA.
Avancées matérielles d’IA chez Meta
L’IA a été essentielle aux expériences offertes par Meta aux individus et aux entreprises. Alors que Meta développe et publie des modèles avancés d’IA, elle améliore continuellement son infrastructure pour soutenir ces charges de travail d’IA nouvelles et émergentes. Llama 3.1 405B, le plus grand modèle de Meta, en est un exemple remarquable.
Ce transformateur dense dispose de 405 milliards de paramètres et peut gérer une fenêtre contextuelle allant jusqu’à 128 000 jetons. La formation de ce modèle a nécessité des optimisations substantielles sur l’ensemble de la pile de formation de Meta, utilisant plus de 16 000 GPU NVIDIA H100. En 2023, Meta a rapidement étendu ses clusters de formation de 1 000 à 16 000 GPU pour soutenir les charges de travail d’IA.
Actuellement, Meta forme des modèles sur deux clusters de 24 000 GPU et prévoit une augmentation continue des besoins en calcul pour la formation d’IA. La construction de clusters d’IA efficaces nécessite plus que des GPU; le réseau et la bande passante sont cruciaux pour la performance.
Nouveautés matérielles d’IA chez Meta
Meta a introduit Catalina, un rack puissant conçu pour les charges de travail d’IA, mettant l’accent sur la modularité et la flexibilité. Catalina prend en charge le dernier NVIDIA GB200 Grace Blackwell Superchip et peut gérer jusqu’à 140 kW. Son design modulaire refroidi par liquide permet une personnalisation pour répondre à des charges de travail d’IA spécifiques tout en respectant les normes de l’industrie.
Meta a également étendu la plateforme Grand Teton pour prendre en charge les accélérateurs AMD Instinct MI300X. Cette plateforme prend en charge une gamme de conceptions d’accélérateurs et offre une capacité de calcul, de mémoire et de bande passante réseau significative, permettant une mise à l’échelle efficace des clusters de formation. Meta développe des arrière-plans réseau ouverts et indépendants des fournisseurs pour améliorer les performances des clusters d’IA.
Le nouveau Disaggregated Scheduled Fabric (DSF) offre plusieurs avantages par rapport aux commutateurs existants, notamment en surmontant les limitations d’échelle, les options d’approvisionnement en composants et la densité de puissance. La collaboration de Meta avec Microsoft a été cruciale pour faire progresser l’innovation ouverte. Leurs projets communs, tels que l’Interface d’Abstraction de Commutateur (SAI) et la norme du Module d’Accélération Ouvert (OAM), ont contribué de manière significative à la communauté OCP.
Meta est engagée envers l’IA open source, estimant qu’elle démocratisera les avantages et les opportunités de l’IA. Les frameworks logiciels ouverts et les modèles standardisés sont essentiels pour stimuler l’innovation, garantir la portabilité et promouvoir la transparence dans le développement d’IA. Les systèmes matériels d’IA ouverts sont cruciaux pour fournir une infrastructure d’IA performante, rentable et adaptable.
Source : www.devx.com