OpenAI introduces MLE-bench : nouvel outil AI pour ingénieurs en machine learning
OpenAI présente sa dernière nouveauté en matière d’intelligence artificielle (IA) appelée MLE-bench, un modèle conçu pour les développeurs d’IA. L’outil a été officiellement introduit sur le site web d’OpenAI la semaine dernière, le 10 octobre 2024.
Evaluation des performances des agents d’IA
MLE-bench est un outil d’IA open-source destiné aux ingénieurs pour évaluer les performances des agents d’IA en ingénierie de l’apprentissage automatique (ML). L’organisation américaine OpenAI a réalisé 75 tests d’apprentissage automatique pour Kaggle, une plateforme de compétition en science des données et une communauté en ligne pour les apprenants, les chercheurs et les développeurs.
Après l’avoir testé sur Kaggle, OpenAI a développé un ensemble diversifié de tâches complexes qui mettent à l’épreuve les compétences d’ingénierie en ML du monde réel telles que l’entraînement des modèles, la préparation des ensembles de données et l’exécution d’expériences.
Performances globales
Héraulté comme un outil “benchmark”, MLE-bench a été conçu en utilisant des échafaudages d’agents open-source, visant à estimer divers “modèles de langage de frontière” sur le nouvel outil.
Conformément à Tech Xplore, MLE teste les systèmes d’IA sur leur capacité à accomplir des travaux d’ingénierie de façon autonome, y compris l’innovation. Les systèmes d’IA doivent probablement apprendre de leur propre travail pour améliorer leurs scores sur ces tests bench.
Spécifications supplémentaires
OpenAI allègue que le nouvel outil d’IA est la “meilleure configuration en termes de performances” après les tests sur Kaggle. Pour atteindre ses capacités de haute performance, le propriétaire de ChatGPT a combiné o1, le dernier grand modèle de langage (LLM) d’OpenAI avec l’échafaudage AIDE pour entraîner le MLE-bench.
En outre, le nouveau AI tool pour les développeurs dispose d’un ensemble de fonctionnalités pour renforcer ses capacités d’évaluation, y compris un détecteur de violation de règles et un détecteur de plagiat.
Source : em360tech.com