Un nouveau test AI défie les meilleurs modèles : ARC-AGI-2 promet des surprises

Rate this post

Le Arc Prize Foundation, une organisation à but non lucratif cofondée par un chercheur en IA de premier plan, a annoncé dans un article de blog lundi qu’elle a créé un nouveau test difficile pour mesurer l’intelligence générale des principaux modèles d’IA.

Sommaire masquer

1 Un test d’intelligence artificielle révolutionnaire

2 Une mesure de l’efficacité de l’IA

3 Actualités similaires :

Un test d’intelligence artificielle révolutionnaire

Jusqu’à présent, le nouveau test, appelé ARC-AGI-2, a dérouté la plupart des modèles.

Les modèles d’IA “raisonnant” tels que o1-pro d’OpenAI et R1 de DeepSeek obtiennent entre 1 % et 1,3 % sur ARC-AGI-2, selon le classement d’Arc Prize. Les modèles non-raisonnants puissants, tels que GPT-4.5, Claude 3.7 Sonnet et Gemini 2.0 Flash, obtiennent environ 1%.

Les tests ARC-AGI consistent en des problèmes de type casse-tête où une IA doit identifier des motifs visuels à partir d’une collection de carrés de différentes couleurs et générer la grille de “réponse” correcte. Les problèmes ont été conçus pour forcer une IA à s’adapter à de nouveaux problèmes qu’elle n’a pas encore rencontrés.

Une mesure de l’efficacité de l’IA

Le Arc Prize Foundation a fait passer le test ARC-AGI-2 à plus de 400 personnes pour établir une base humaine. En moyenne, ces personnes ont obtenu 60% de bonnes réponses aux questions du test, bien mieux que les scores de tous les modèles.

Pour remédier aux défauts du premier test, ARC-AGI-2 introduit une nouvelle métrique : l’efficacité. Il nécessite également que les modèles interprètent rapidement les motifs au lieu de se fier à la mémorisation.

L’arrivée du ARC-AGI-2 survient alors que de nombreux acteurs de l’industrie technologique réclament de nouveaux benchmarks non saturés pour mesurer les progrès de l’IA.

Parallèlement au nouveau benchmark, le Arc Prize Foundation a annoncé un nouveau concours Arc Prize 2025, défiants les développeurs à atteindre 85% de précision sur le test ARC-AGI-2 en dépensant seulement 0.42 $ par tâche.

Source : techcrunch.com

Mia Dufresne
Mia est une rédactrice spécialisée dans les produits tech et l'IA, avec une formation en data science et une passion pour l'innovation. Elle explore les dernières avancées en IA, leurs applications pratiques et leurs implications éthiques.
Voir toutes les publications