Les nouveaux modèles de Llama 4 : les IA les plus puissantes jamais publiées

Meta Platforms Inc. dévoile sa dernière série de modèles d’intelligence artificielle de grande taille
Meta Platforms Inc. a dévoilé les dernières additions à sa famille Llama de grands modèles d’intelligence artificielle de langage le samedi, affirmant qu’ils sont parmi les plus puissants jamais publiés au public.
Les nouveaux modèles, qui font partie de la série Llama 4, sont disponibles dès maintenant via l’assistant IA de Meta sur le web et dans Messenger, WhatsApp et Instagram, et peuvent également être téléchargés depuis Meta ou Hugging Face.
Ils incluent Llama 4 Scout, qui est dit être un petit modèle qui s’adapte à une seule unité de traitement graphique Nvidia H100, et Llama 4 Maverick, qui est un modèle plus grand comparable à GPT-4o d’OpenAI et Gemini 2.0 de Google. Les deux modèles sont dit avoir 17 milliards de paramètres actifs.
Les modèles Llama 4 : une avancée majeure dans le domaine de l’IA
La société travaille encore sur le plus grand modèle de la série Llama 4. Selon le PDG de Meta, Mark Zuckerberg, il s’appelle Llama 4 Behemoth, et il sera le “modèle de base le plus performant au monde” une fois qu’il sera publié.
Meta affirme que les modèles Llama 4 sont les plus avancés qu’elle ait développés jusqu’à présent, et également “meilleurs de leur catégorie” en termes de modalité. Les modèles d’IA multimodaux sont capables de traiter différents types de formats de données, y compris du texte, des images, de l’audio et de la vidéo, ce qui leur permet de comprendre des scénarios plus complexes et de générer de meilleures réponses.
Le Chef de Produit de Meta, Chris Cox, a déclaré à CNBC en mars que les modèles Llama 4 sont conçus pour alimenter des agents d’IA dits plus sophistiqués, avec des compétences de raisonnement améliorées et la capacité de naviguer sur le web et d’agir. Ils peuvent être chargés d’accomplir diverses tâches au nom des humains, et les exécuter avec une supervision minimale.
Ajouter l’image ici
Llama 4 Scout surpasse d’autres petits LLMs comme Gemma 3 de Google et Gemini 2.0 et Mistral 3.1 de Mistral dans un certain nombre de référentiels clés couvrant une “large gamme” d’applications.
Quant à Llama 4 Maverick, c’est une itération plus puissante conçue pour gérer des tâches telles que l’écriture de code, l’écriture créative, la résolution de problèmes mathématiques et la compréhension des images et des vidéos. Selon Meta, il surpasse des modèles concurrents tels que GPT-4o d’OpenAI et Gemini 2.0 de Google, même s’il est plus efficace et rentable. Il n’a pas été comparé au modèle récemment publié, Gemini 2.5, mais on a dit que les performances de Maverick sont également à la hauteur du modèle de raisonnement V3 de DeepSeek Ltd., malgré l’utilisation de moins de la moitié de ses paramètres actifs.
La technologie au service de la performance et de l’équilibre
Dans un article de blog détaillé décrivant les nouveaux modèles et comment ils ont été créés, Meta a expliqué qu’elle a utilisé un nouveau type de système appelé “Mixture-of-Experts” ou MoE, qui leur permet de fonctionner de manière plus efficace. Plutôt que d’utiliser l’ensemble du modèle pour chaque tâche, les systèmes MoE n’activent que la partie nécessaire pour accomplir la tâche en cours, ce qui leur permet de fonctionner plus rapidement et de consommer moins d’énergie.
Meta a également mis l’accent sur la sécurité et l’équilibre des modèles Llama 4. Elle a renforcé les protections intégrées visant à les empêcher de fournir des réponses nuisibles ou partiales, afin qu’ils puissent fournir des réponses plus équilibrées à des questions controversées et politiquement sensibles.
Les modèles Llama 4 seront donc moins susceptibles de refuser de répondre à des questions difficiles, ou de pencher trop fortement d’un côté du spectre politique, a déclaré Meta.
Source : siliconangle.com