Les dernières innovations en IA dévoilées : découvrez les détails fascinants
Les dernières avancées en intelligence artificielle sont au coeur de notre attention cette semaine. Découvrez les dernières innovations en la matière sélectionnées spécialement pour vous !
OpenAI dévoile PaperBench pour évaluer les agents d’IA
OpenAI a récemment présenté PaperBench, un benchmark conçu pour évaluer les capacités des agents d’intelligence artificielle à reproduire de manière autonome les recherches de pointe en matière d’apprentissage automatique. Ce benchmark évalue en particulier la capacité des systèmes d’IA à interpréter précisément des articles de recherche, développer indépendamment les bases de code nécessaires et mener des expériences pour reproduire les résultats empiriques. PaperBench est composé de 20 articles sélectionnés parmi ceux de la conférence ICML 2024, couvrant des domaines tels que le renforcement, la robustesse et les méthodes probabilistes. Des grilles d’évaluation détaillées, élaborées en collaboration avec les auteurs des articles originaux, spécifient 8 316 tâches individuellement évaluables pour faciliter une évaluation précise des capacités de l’IA.
Meta AI présente Multi-Token Attention (MTA) pour les LLM
Meta AI propose Multi-Token Attention (MTA), un mécanisme d’attention avancé qui permet aux LLM de conditionner leurs poids d’attention sur plusieurs vecteurs de requête et de clé simultanément. MTA intègre des opérations de convolution sur les requêtes, les clés et les têtes d’attention, améliorant ainsi la précision et l’efficacité de la récupération d’informations contextuelles. Ce framework MTA se compose de deux composants de convolution : la convolution clé-requête, qui agrège plusieurs signaux de jetons au sein des têtes d’attention individuelles, et la convolution de mélange de tête, qui facilite le partage d’informations entre différentes têtes d’attention. De plus, la mise en œuvre utilise une normalisation de groupe avec un passage de gradient dépendant de la profondeur pour stabiliser le flux de gradient, améliorant ainsi la stabilité et l’efficacité de l’entraînement du modèle.
Salesforce AI lance BingoGuard, un système de modération basé sur les LLM
Salesforce AI introduit BingoGuard, un système de modération basé sur les LLM conçu pour prédire à la fois les étiquettes de sécurité binaires et les niveaux de gravité détaillés. BingoGuard utilise une taxonomie structurée, classant le contenu potentiellement nocif en onze domaines spécifiques, tels que le crime violent, le contenu sexuel, la vulgarité, l’invasion de la vie privée et le contenu lié aux armes. Chaque catégorie intègre cinq niveaux de gravité clairement définis allant de bénin (niveau 0) à risque extrême (niveau 4). Cette structure permet aux plateformes de calibrer précisément leurs paramètres de modération selon leurs directives de sécurité spécifiques, assurant une gestion appropriée du contenu dans différents contextes de gravité.
Snowflake propose ExCoT, un nouveau cadre d’IA
Snowflake présente ExCoT, un cadre structuré conçu pour optimiser les LLM open-source en combinant le raisonnement CoT avec une optimisation itérative des préférences, en utilisant spécifiquement des DPO en hors-politique et en sur-politique guidés exclusivement par les retours de précision de l’exécution. ExCoT se passe de modèles de récompense externes et d’annotations humaines, reposant plutôt sur des étapes de raisonnement générées en interne et des résultats d’exécution. La méthode fonctionne en deux phases principales : tout d’abord, elle génère des données de CoT candidats validées via DPO hors-politique, formant la base d’un ajustement fin supervisé. Ensuite, le modèle génère et affine de manière itérative les données de CoT via DPO sur-politique, améliorant progressivement la précision à travers des retours dérivés de la justesse de l’exécution.
L’apprentissage et la pratique sont essentiels. Découvrez un tutoriel pour créer un agent de science des données en utilisant le modèle gemini-2.0-flash-lite via l’API Google, google.generativeai, Pandas et IPython.display pour une analyse de données interactive. Un cahier Colab est inclus pour une implémentation concrète.
Source : www.airesearchinsights.com