23 janvier 2025

Krusell France

Ta dose d'actu digital !

Des chercheurs créent un nouveau benchmark pour mesurer l’apprentissage machine autonome

A digital brain with waves passing through it
Rate this post

Nouveaux tests de l’IA : les agents peuvent-ils modifier leur propre code ?

Découvrez MLE-bench, un nouveau benchmark pour mesurer la capacité d’auto-amélioration des IA

Des scientifiques ont conçu un nouveau ensemble de tests pour mesurer si les agents d’intelligence artificielle (IA) peuvent modifier leur propre code et améliorer leurs capacités sans instruction humaine. Le benchmark, appelé “MLE-bench,” est une compilation de 75 tests Kaggle, chacun étant un défi qui teste l’ingénierie de l’apprentissage automatique. Ce travail implique la formation de modèles d’IA, la préparation de jeux de données et l’exécution d’expériences scientifiques, et les tests Kaggle mesurent la performance des algorithmes d’apprentissage automatique à des tâches spécifiques.

Les scientifiques d’OpenAI ont conçu MLE-bench pour mesurer la performance des modèles d’IA dans “l’ingénierie autonome de l’apprentissage automatique” — qui figure parmi les tests les plus difficiles auxquels une IA peut être confrontée. Ils ont exposé les détails du nouveau benchmark le 9 octobre dans un article publié sur la base de prépublications arXiv.

Toute IA future qui obtient de bons résultats aux 75 tests qui composent MLE-bench pourrait être considérée assez puissante pour être un système d’intelligence artificielle générale (AGI) — une IA hypothétique beaucoup plus intelligente que les humains — ont déclaré les scientifiques.

Chaque test MLE-bench détient une valeur pratique réelle pour le monde. Des exemples incluent OpenVaccine — un défi pour trouver un vaccin à ARNm contre le COVID-19 — et le défi Vesuvius pour décrypter des parchemins anciens.

Si les agents d’IA apprennent à effectuer des tâches de recherche en apprentissage automatique de manière autonome, cela pourrait avoir de nombreux impacts positifs tels que l’accélération du progrès scientifique dans les domaines de la santé, des sciences climatiques, et autres, ont écrit les scientifiques dans l’article. Cependant, laissé sans contrôle, cela pourrait conduire à une catastrophe incontrôlée.

Les défis pour l’IA autonome dans l’apprentissage automatique

La capacité des agents à mener des recherches de haute qualité pourrait marquer une étape transformative dans l’économie. Cependant, les agents capables d’effectuer des tâches de recherche en ML sans fin, au niveau de l’amélioration de leur propre code d’entraînement, pourraient améliorer les capacités des modèles de pointe significativement plus rapidement que les chercheurs humains, ont rédigé les scientifiques.

Ils ont ajouté que tout modèle pouvant résoudre une “large fraction” de MLE-bench est probablement capable d’exécuter de nombreuses tâches ouvertes en apprentissage automatique par lui-même.

Les chercheurs ont testé le modèle d’IA le plus puissant conçu par OpenAI jusqu’à présent — connu sous le nom de “o1.” Ce modèle d’IA a obtenu au moins le niveau d’une médaille de bronze Kaggle dans 16,9% des 75 tests de MLE-bench. Ce chiffre s’est amélioré à mesure que o1 était donné plus de tentatives pour relever les défis.

Gagner une médaille de bronze équivaut à être parmi les 40% des participants humains les mieux classés dans le classement Kaggle. Le modèle o1 d’OpenAI a remporté en moyenne sept médailles d’or sur MLE-bench, soit deux de plus qu’un humain n’en a besoin pour être considéré comme un “Grand Maître Kaggle.” Seuls deux humains ont jamais remporté des médailles dans les 75 compétitions Kaggle différentes, ont écrit les scientifiques dans l’article.

Les chercheurs rendent maintenant MLE-bench open-source pour stimuler davantage la recherche sur les capacités d’ingénierie de l’apprentissage automatique des agents d’IA — permettant essentiellement aux autres chercheurs de tester leurs propres modèles d’IA contre MLE-bench. “En fin de compte, nous espérons que notre travail contribuera à une compréhension plus profonde des capacités des agents dans l’exécution autonome de tâches d’ingénierie en ML, ce qui est essentiel pour le déploiement sûr de modèles plus puissants à l’avenir,” ont-ils conclu.

Source : www.livescience.com

  • mia dufresne portrait redactrice

    Mia est une rédactrice spécialisée dans les produits tech et l'IA, avec une formation en data science et une passion pour l'innovation. Elle explore les dernières avancées en IA, leurs applications pratiques et leurs implications éthiques.

    Voir toutes les publications