OpenAI introduces MLE-bench : nouvel outil AI pour ingénieurs en machine learning

Rate this post

OpenAI présente sa dernière nouveauté en matière d’intelligence artificielle (IA) appelée MLE-bench, un modèle conçu pour les développeurs d’IA. L’outil a été officiellement introduit sur le site web d’OpenAI la semaine dernière, le 10 octobre 2024.

Sommaire masquer

1 Evaluation des performances des agents d’IA

2 Performances globales

3 Spécifications supplémentaires

4 Actualités similaires :

Evaluation des performances des agents d’IA

MLE-bench est un outil d’IA open-source destiné aux ingénieurs pour évaluer les performances des agents d’IA en ingénierie de l’apprentissage automatique (ML). L’organisation américaine OpenAI a réalisé 75 tests d’apprentissage automatique pour Kaggle, une plateforme de compétition en science des données et une communauté en ligne pour les apprenants, les chercheurs et les développeurs.

Après l’avoir testé sur Kaggle, OpenAI a développé un ensemble diversifié de tâches complexes qui mettent à l’épreuve les compétences d’ingénierie en ML du monde réel telles que l’entraînement des modèles, la préparation des ensembles de données et l’exécution d’expériences.

Performances globales

Héraulté comme un outil “benchmark”, MLE-bench a été conçu en utilisant des échafaudages d’agents open-source, visant à estimer divers “modèles de langage de frontière” sur le nouvel outil.

Conformément à Tech Xplore, MLE teste les systèmes d’IA sur leur capacité à accomplir des travaux d’ingénierie de façon autonome, y compris l’innovation. Les systèmes d’IA doivent probablement apprendre de leur propre travail pour améliorer leurs scores sur ces tests bench.

Spécifications supplémentaires

OpenAI allègue que le nouvel outil d’IA est la “meilleure configuration en termes de performances” après les tests sur Kaggle. Pour atteindre ses capacités de haute performance, le propriétaire de ChatGPT a combiné o1, le dernier grand modèle de langage (LLM) d’OpenAI avec l’échafaudage AIDE pour entraîner le MLE-bench.

En outre, le nouveau AI tool pour les développeurs dispose d’un ensemble de fonctionnalités pour renforcer ses capacités d’évaluation, y compris un détecteur de violation de règles et un détecteur de plagiat.

Source : em360tech.com

Mia Dufresne
Mia est une rédactrice spécialisée dans les produits tech et l'IA, avec une formation en data science et une passion pour l'innovation. Elle explore les dernières avancées en IA, leurs applications pratiques et leurs implications éthiques.
Voir toutes les publications