Meta dévoile Llama 3.1 405B : un nouveau jalon pour les modèles de langage ouverts
Meta LlAMA 405B : Un Nouveau Chapitre Pour les Modèles Open Source
Llama 3.1 Introduction
Avec le lancement récent de la Llama 3.1 405B par Meta, un tournant majeur s’opère dans le domaine des modèles de langage large open-source. Meta considère qu’il s’agit du modèle de base le plus important et largement disponible au monde. Le 405B rivalise avec les meilleurs modèles d’IA en termes de maniabilité, de connaissance générale, d’utilisation d’outils, de mathématiques et de traduction multilingue. Ce nouveau modèle offre des opportunités sans précédent pour l’exploration et la croissance, et est destiné à ouvrir de nouvelles perspectives en matière de paradigmes et d’applications de modèles, y compris la génération de données synthétiques. De plus, il permettra la formation et l’amélioration de modèles plus petits ainsi que la distillation de modèles.
Meta LlAMA 405B Debut – Évaluations Et Architecture
Meta a évalué les performances de ce modèle sur plus de 150 ensembles de données de référence couvrant diverses langues. De plus, des évaluations humaines substantielles ont été menées pour comparer la Llama 3.1 aux modèles de base leaders tels que le GPT-4, le GPT-40 et le Claude 3.5 Sonnet. Les modèles plus petits peuvent rivaliser à la fois avec des modèles ouverts et fermés comportant un nombre équivalent de paramètres.
Mark Zuckerberg, à la tête de Meta, a révélé que l’entraînement du 405B sur plus de 15 billions de jetons a été un défi majeur.
Où Peut-il Être Utilisé ?
Le 405B est le premier modèle Llama entraîné à cette échelle. Meta a optimisé l’ensemble du processus d’entraînement et a étendu celui-ci à plus de seize mille GPU H100 pour permettre des sessions d’entraînement à cette envergure et obtenir rapidement des résultats. Meta souhaite que chacun puisse bénéficier au maximum du 405B, notamment pour :
- La pré-formation continue
- L’appel de fonctions
- La génération de données synthétiques
- L’inférence en temps réel et par lots
- Le réglage fin supervisé
- La génération de données synthétiques et bien plus encore
Ainsi, la nouvelle du lancement du Meta LlAMA 405B aidera la communauté à réaliser des projets formidables.
Source : ictmirror.com