Les performances de Reflection 70B remises en question par des experts AI

Rate this post

Rejoignez nos newsletters quotidiennes et hebdomadaires pour les dernières mises à jour et le contenu exclusif sur la couverture AI de premier plan dans l’industrie. En savoir plus

Sommaire masquer

1 Réflexion 70B : la crédibilité remise en question

2 Des résultats remis en question

3 Des critiques et des doutes

4 Des questions cruciales

5 Actualités similaires :

Réflexion 70B : la crédibilité remise en question

Il a suffi d’un week-end pour que le nouveau roi autoproclamé des modèles AI open source voie sa couronne ternie.

Réflexion 70B, une variante du modèle de langage Llama 3.1 open source de Meta – ou attendez, était-ce une variante du Llama 3 plus ancien? – qui avait été entraînée et publiée par la petite startup new-yorkaise HyperWrite (anciennement OthersideAI) et vantait des benchmarks impressionnants sur des tests tiers, est désormais remise en cause de manière agressive alors que d’autres évaluateurs tiers n’ont pas réussi à reproduire certaines de ces mesures de performances.

Des résultats remis en question

Le modèle a été annoncé triomphalement dans un post sur le réseau social X par Matt Shumer, co-fondateur et PDG de HyperWrite AI, le vendredi 6 septembre 2024, comme “le meilleur modèle open source au monde”.

Dans une série de publications publiques sur X documentant une partie du processus d’entraînement de Reflection 70B et une entrevue ultérieure sur les messages directs de X avec VentureBeat, Shumer a expliqué plus en détail comment le nouveau LLM utilisait “Reflection Tuning”, une technique précédemment documentée développée par d’autres chercheurs en dehors de l’entreprise, qui permet aux LLM de vérifier la correction ou de “réfléchir” à leurs propres réponses générées avant de les transmettre aux utilisateurs, améliorant ainsi la précision sur un certain nombre de tâches en écriture, en mathématiques et dans d’autres domaines.

Des critiques et des doutes

Cependant, le lendemain, le samedi 7 septembre, un jour après l’annonce initiale de HyperWrite et la publication de l’article de VentureBeat, Artificial Analysis, une organisation dédiée à “l’analyse indépendante des modèles AI et des fournisseurs d’hébergement”, a publié sa propre analyse sur X en déclarant que “notre évaluation du score MMLU de Reflection Llama 3.170B” – en référence au benchmark communément utilisé Massive Multitask Language Understanding (MMLU) – “a donné le même score que Llama 3 70B et sensiblement inférieur à Meta’s Llama 3.1 70B”, montrant ainsi une importante divergence par rapport aux résultats initialement publiés par HyperWrite/Shumer.

Sur X ce même jour, Shumer a déclaré que les poids de Reflection 70B – ou les paramètres du modèle open source – avaient été “modifiés lors du processus de téléchargement” vers Hugging Face, le dépôt et l’entreprise de code AI tierce, et que ce problème aurait pu avoir des conséquences sur les performances de qualité par rapport à la version “API interne” de HyperWrite.

Des questions cruciales

Le dimanche 8 septembre 2024, vers 22 heures ET, Artificial Analysis a déclaré sur X qu’elle avait “obtenu l’accès à une API privée que nous avons testée et qui a montré des performances impressionnantes mais pas au niveau des revendications initiales. Comme ce test a été effectué sur une API privée, nous n’avons pas pu vérifier de manière indépendante exactement ce que nous testions.”

L’organisation a détaillé deux questions clés qui remettent sérieusement en question les allégations de performances initiales de HyperWrite et Shumer, à savoir :

“Nous ne comprenons pas pourquoi une version serait publiée qui n’est pas la version que nous avons testée via l’API privée de Reflection.

Nous ne comprenons pas pourquoi les poids du modèle de la version que nous avons testée n’ont pas encore été publiés.

Dès que les poids seront publiés sur Hugging Face, nous prévoyons de re-tester et de comparer à notre évaluation du point de terminaison privé.”

Entre temps, les utilisateurs de diverses communautés ou sous-communautés Reddit sur l’apprentissage automatique et l’IA ont également remis en question les performances et les origines déclarées de Reflection 70B. Certains ont souligné qu’en se basant sur une comparaison de modèles publiée sur Github par un tiers, Reflection 70B semble être une variante de Llama 3 plutôt qu’une variante de Llama 3.1, jetant ainsi davantage le doute sur les allégations initiales de Shumer et HyperWrite.

Cela a conduit au moins un utilisateur de X, Shin Megami Boson, à accuser ouvertement Shumer de “fraude dans la communauté de recherche en IA” à 20h07 ET le dimanche 8 septembre, en publiant une longue liste de captures d’écran et d’autres preuves.

Certains accusent même le modèle d’être en réalité un “enrobage” ou une application construite au-dessus du rival propriétaire/fermé Claude 3 d’Anthropic.

Cependant, d’autres utilisateurs de X ont pris la défense de Shumer et de Reflection 70B, et certains ont publié des performances impressionnantes du modèle de leur côté.

Quoi qu’il en soit, le déploiement du modèle, les revendications ambitieuses, et maintenant les critiques montrent à quel point le cycle de battage médiatique autour de l’IA peut s’effondrer brusquement.

Pour l’instant, la communauté de recherche en IA attend avec impatience la réponse de Shumer et la publication des nouveaux poids du modèle sur Hugging Face. VentureBeat a également contacté Shumer pour obtenir une réponse directe à ces allégations de fraude et mettra à jour dès que nous aurons des nouvelles.

Source : venturebeat.com

Mia Dufresne
Mia est une rédactrice spécialisée dans les produits tech et l'IA, avec une formation en data science et une passion pour l'innovation. Elle explore les dernières avancées en IA, leurs applications pratiques et leurs implications éthiques.
Voir toutes les publications