Alibaba domine le nouveau classement LLM de Hugging Face
Hugging Face dévoile son nouveau classement des meilleurs modèles de langage
Un nouveau standard pour évaluer les performances des grands modèles de langage ouverts
Hugging Face a publié son deuxième classement des meilleurs modèles de langage qu’il a testés. Ce nouveau classement vise à être une norme uniforme plus exigeante pour évaluer les performances des grands modèles de langage ouverts (LLM) sur une variété de tâches. Les modèles Qwen d’Alibaba semblent dominer les premiers classements du classement, occupant trois places dans le top dix.
Des évaluations plus complexes et variées
La deuxième leaderboard de Hugging Face teste les modèles de langage sur quatre tâches : tests de connaissances, raisonnement sur des contextes extrêmement longs, capacités mathématiques complexes et suivi des instructions. Six benchmarks sont utilisés pour tester ces qualités, notamment la résolution d’énigmes de meurtres de 1 000 mots, l’explication de questions de niveau doctorat en termes simples et, plus redoutable encore, les équations mathématiques de lycée.
Le leader de ce nouveau classement est Qwen, le LLM d’Alibaba, qui occupe la 1ère, 3ème et 10ème place avec ses quelques variantes. Se distinguent également Llama3-70B, le LLM de Meta, ainsi que quelques projets open source plus petits qui ont réussi à surpasser le groupe. Notons l’absence de ChatGPT ; le classement de Hugging Face n’évalue pas les modèles fermés pour garantir la reproductibilité des résultats.
Une collaboration ouverte et transparente
Les tests pour se qualifier sur le classement sont exclusivement effectués sur les propres ordinateurs de Hugging Face, alimentés par 300 Nvidia H100 GPUs. Grâce à sa nature open source et collaborative, tout le monde est libre de soumettre de nouveaux modèles pour les tester et les intégrer au classement, avec un nouveau système de vote priorisant les nouvelles entrées populaires pour les tests.
En tant que pilier de l’espace LLM, Hugging Face est devenu une source de confiance pour l’apprentissage des LLM et la collaboration communautaire. Après le succès de son premier classement l’année dernière, la plateforme a publié une deuxième version pour relever le défi des modèles de plus en plus performants et optimisés.
Certains LLMs, y compris de nouvelles variantes du Llama de Meta, ont sous-performé dans le nouveau classement par rapport à leurs bons résultats dans le premier. Cela est dû à une tendance à sur-entraîner les LLMs uniquement sur les benchmarks du premier classement, conduisant à une régression des performances en conditions réelles.
Source : www.tomshardware.com