Les débats sur les benchmarks AI en plein essor: xAI vs OpenAI sur Grok 3.

L’intelligence artificielle est au cœur de nombreux débats, surtout en ce qui concerne les benchmarks et la manière dont ils sont communiqués par les laboratoires d’IA.
Accusations de manipulation de résultats
Cette semaine, un employé d’OpenAI a accusé la société d’IA d’Elon Musk, xIA, de publier des résultats de benchmarks trompeurs pour son dernier modèle d’IA, Grok 3. L’un des co-fondateurs de xIA, Igor Babushkin, a affirmé que la société était dans son droit.
La vérité se situe quelque part entre les deux versions. xIA a publié sur son blog un graphique montrant les performances de Grok 3 sur AIME 2025, une série de questions mathématiques difficiles provenant d’un examen de mathématiques récent. Certains experts remettent en question la validité d’AIME en tant que benchmark pour l’IA, mais il est largement utilisé pour évaluer les capacités mathématiques d’un modèle.
Discussion sur les benchmarks
Le graphique de xIA montre que Grok 3 Reasoning Beta et Grok 3 mini Reasoning surpassent le meilleur modèle d’OpenAI disponible, o3-mini-high, sur AIME 2025. Cependant, les employés d’OpenAI sur X ont souligné que le graphique de xIA ne comprenait pas le score de l’o3-mini-high à “cons@64”.
Misleading benchmarks
La méthode cons@64 permet à un modèle de répondre 64 fois à chaque problème dans un benchmark et prend les réponses les plus fréquentes comme réponses finales. Cela a tendance à augmenter considérablement les scores des modèles, et omettre cette méthode d’un graphique peut donner l’impression qu’un modèle surpasse un autre, ce qui n’est pas toujours le cas.
Les scores de Grok 3 Reasoning Beta et Grok 3 mini Reasoning sur AIME 2025 à “@1” sont inférieurs au score de l’o3-mini-high. De plus, Grok 3 Reasoning Beta est légèrement derrière le modèle o1 d’OpenAI configuré en “medium”. Malgré cela, xIA fait la promotion de Grok 3 comme l’IA la plus intelligente au monde.
Opinions divergentes
Igor Babushkin a argumenté sur X qu’OpenAI a publié des graphiques de benchmarks tout aussi trompeurs dans le passé, mais en comparant les performances de ses propres modèles. Une tierce partie neutre dans le débat a créé un graphique plus “précis” montrant les performances de presque tous les modèles à cons@64.
Importance du coût de calcul
Cependant, comme l’a souligné le chercheur en IA Nathan Lambert, la métrique la plus importante reste un mystère : le coût computationnel (et monétaire) nécessaire pour chaque modèle afin d’atteindre son meilleur score. Cela démontre à quel point la plupart des benchmarks d’IA communiquent peu sur les limitations et les forces des modèles.
Source : techcrunch.com