Un nouveau test AI défie les meilleurs modèles : ARC-AGI-2 promet des surprises

Le Arc Prize Foundation, une organisation à but non lucratif cofondée par un chercheur en IA de premier plan, a annoncé dans un article de blog lundi qu’elle a créé un nouveau test difficile pour mesurer l’intelligence générale des principaux modèles d’IA.
Un test d’intelligence artificielle révolutionnaire
Jusqu’à présent, le nouveau test, appelé ARC-AGI-2, a dérouté la plupart des modèles.
Les modèles d’IA “raisonnant” tels que o1-pro d’OpenAI et R1 de DeepSeek obtiennent entre 1 % et 1,3 % sur ARC-AGI-2, selon le classement d’Arc Prize. Les modèles non-raisonnants puissants, tels que GPT-4.5, Claude 3.7 Sonnet et Gemini 2.0 Flash, obtiennent environ 1%.
Les tests ARC-AGI consistent en des problèmes de type casse-tête où une IA doit identifier des motifs visuels à partir d’une collection de carrés de différentes couleurs et générer la grille de “réponse” correcte. Les problèmes ont été conçus pour forcer une IA à s’adapter à de nouveaux problèmes qu’elle n’a pas encore rencontrés.
Une mesure de l’efficacité de l’IA
Le Arc Prize Foundation a fait passer le test ARC-AGI-2 à plus de 400 personnes pour établir une base humaine. En moyenne, ces personnes ont obtenu 60% de bonnes réponses aux questions du test, bien mieux que les scores de tous les modèles.
Pour remédier aux défauts du premier test, ARC-AGI-2 introduit une nouvelle métrique : l’efficacité. Il nécessite également que les modèles interprètent rapidement les motifs au lieu de se fier à la mémorisation.
L’arrivée du ARC-AGI-2 survient alors que de nombreux acteurs de l’industrie technologique réclament de nouveaux benchmarks non saturés pour mesurer les progrès de l’IA.
Parallèlement au nouveau benchmark, le Arc Prize Foundation a annoncé un nouveau concours Arc Prize 2025, défiants les développeurs à atteindre 85% de précision sur le test ARC-AGI-2 en dépensant seulement 0.42 $ par tâche.
Source : techcrunch.com