Les débats sur les benchmarks AI en plein essor: xAI vs OpenAI sur Grok 3.

Rate this post

L’intelligence artificielle est au cœur de nombreux débats, surtout en ce qui concerne les benchmarks et la manière dont ils sont communiqués par les laboratoires d’IA.

Sommaire masquer

1 Accusations de manipulation de résultats

2 Discussion sur les benchmarks

3 Misleading benchmarks

4 Opinions divergentes

5 Importance du coût de calcul

6 Actualités similaires :

Accusations de manipulation de résultats

Cette semaine, un employé d’OpenAI a accusé la société d’IA d’Elon Musk, xIA, de publier des résultats de benchmarks trompeurs pour son dernier modèle d’IA, Grok 3. L’un des co-fondateurs de xIA, Igor Babushkin, a affirmé que la société était dans son droit.

La vérité se situe quelque part entre les deux versions. xIA a publié sur son blog un graphique montrant les performances de Grok 3 sur AIME 2025, une série de questions mathématiques difficiles provenant d’un examen de mathématiques récent. Certains experts remettent en question la validité d’AIME en tant que benchmark pour l’IA, mais il est largement utilisé pour évaluer les capacités mathématiques d’un modèle.

Discussion sur les benchmarks

Le graphique de xIA montre que Grok 3 Reasoning Beta et Grok 3 mini Reasoning surpassent le meilleur modèle d’OpenAI disponible, o3-mini-high, sur AIME 2025. Cependant, les employés d’OpenAI sur X ont souligné que le graphique de xIA ne comprenait pas le score de l’o3-mini-high à “cons@64”.

Misleading benchmarks

La méthode cons@64 permet à un modèle de répondre 64 fois à chaque problème dans un benchmark et prend les réponses les plus fréquentes comme réponses finales. Cela a tendance à augmenter considérablement les scores des modèles, et omettre cette méthode d’un graphique peut donner l’impression qu’un modèle surpasse un autre, ce qui n’est pas toujours le cas.

Les scores de Grok 3 Reasoning Beta et Grok 3 mini Reasoning sur AIME 2025 à “@1” sont inférieurs au score de l’o3-mini-high. De plus, Grok 3 Reasoning Beta est légèrement derrière le modèle o1 d’OpenAI configuré en “medium”. Malgré cela, xIA fait la promotion de Grok 3 comme l’IA la plus intelligente au monde.

Opinions divergentes

Igor Babushkin a argumenté sur X qu’OpenAI a publié des graphiques de benchmarks tout aussi trompeurs dans le passé, mais en comparant les performances de ses propres modèles. Une tierce partie neutre dans le débat a créé un graphique plus “précis” montrant les performances de presque tous les modèles à cons@64.

Importance du coût de calcul

Cependant, comme l’a souligné le chercheur en IA Nathan Lambert, la métrique la plus importante reste un mystère : le coût computationnel (et monétaire) nécessaire pour chaque modèle afin d’atteindre son meilleur score. Cela démontre à quel point la plupart des benchmarks d’IA communiquent peu sur les limitations et les forces des modèles.

Source : techcrunch.com

Mia Dufresne
Mia est une rédactrice spécialisée dans les produits tech et l'IA, avec une formation en data science et une passion pour l'innovation. Elle explore les dernières avancées en IA, leurs applications pratiques et leurs implications éthiques.
Voir toutes les publications