Découvrez les nouvelles possibilités de Meta Llama 3.2 en raisonning vision

Rate this post

Meta a récemment dévoilé une nouvelle avancée pour son modèle d’IA Llama, le Llama 3.2, qui offre une fonctionnalité de traitement de la vision qui rivalise avec l’annonce de la réflexion d’OpenAI il y a quelques semaines à peine. Cette nouvelle fonctionnalité est le fruit d’une compétition intense entre les leaders actuels de l’IA pour la suprématie sur le marché. Destiné aux spécialistes du marketing cherchant à mettre en place une assistance basée sur l’IA pour l’expérience client, le Llama 3.2 offre de nouvelles possibilités à travers la fonctionnalité de vision reasoning. Découvrons en détail cette innovation et ses répercussions potentielles.

Sommaire masquer

1 Les dernières avancées majeures du Llama : aller vers le petit

2 Une nouvelle vision : la vision reasoning

3 Construire la bonne pile pour votre développement d’IA

4 Actualités similaires :

Les dernières avancées majeures du Llama : aller vers le petit

Depuis l’introduction du Llama2, Meta a suscité l’intérêt des professionnels en développant des services basés sur l’IA grâce à des modèles de langage ouverts. La mise à jour précédente, le Llama 3.1, avait introduit un grand modèle, le 405B, ainsi que d’autres améliorations de performances. Avec le Llama 3.2, Meta va encore plus loin en introduisant deux petits modèles qui offrent des performances à l’autre extrémité de l’échelle : sur une petite échelle. Les modèles 1B et 3B sont conçus pour être légers, uniquement basés sur du texte, et adaptés aux appareils mobiles et aux appareils edge. Ils offrent une capacité avancée au développement de la LLM que les développeurs peuvent intégrer dans des applications pour tablette ou smartphone. Ils prennent en charge une longueur de contexte de 128 000 tokens, une spécification importante alors que les modèles offrent une plus grande capacité multimodale dans un package plus petit.

Une nouvelle vision : la vision reasoning

Les modèles de taille moyenne, les modèles 11B et 90B, bénéficient de l’avancée la plus significative en termes de fonctionnalités. Ce sont les premiers modèles Llama à prendre en charge les tâches de vision à travers la fonctionnalité de vision reasoning. La vision reasoning permet de “réfléchir” sur les médias images présents dans une requête. Les modèles Llama peuvent ainsi comprendre et raisonner en combinant à la fois des images et des textes dans une requête, avec une légère préférence pour les images, pour gérer la précision des réponses. Pour les spécialistes du marketing, cela signifie disposer d’un modèle capable d’identifier des éléments dans une image et de les comparer avec un texte de requête afin de fournir de meilleures réponses de service impliquant un chatbot alimenté par l’IA.

L’originalité du raisonnement de LLama réside dans le fait que Meta a mis l’accent sur le développeur de la fonction de codage d’image dans le processus de réponse à la requête. Cela rend les capacités agentiques des modèles Llama 3.2 capables de raisonner rapidement sur l’impact des documents contenant des médias ou des informations image sur une réponse donnée.

Construire la bonne pile pour votre développement d’IA

Meta a longtemps mis l’accent sur une stratégie de développement d’écosystème d’application d’IA. Dans cette optique, Meta a introduit Llama Stack, une distribution d’API qui simplifie le travail des développeurs avec les modèles Llama 3.2 dans différents environnements. L’objectif du Llama Stack est d’établir une interface standardisée pour personnaliser les modèles Llama et construire des applications agentiques basées sur ces modèles.

Cela signifie que les API sont conçues pour permettre un certain nombre de services d’intérêt pour les équipes marketing construisant une application agentique utilisant le Llama. Ces services sont disponibles sur diverses plateformes, telles que sur site, dans le cloud et sur les appareils. Ils peuvent également gérer des services spécialisés tels que le déploiement clé en main de la génération augmentée par récupération (RAG). Le Llama 3.2 est désormais disponible sur plusieurs plates-formes de développement d’IA, telles que HuggingChat et dans l’assistant de Meta, Meta AI. Les équipes marketing travaillant avec des développeurs peuvent choisir un environnement pour explorer le développement de modèles selon leurs besoins.

Source : www.cmswire.com

Mia Dufresne
Mia est une rédactrice spécialisée dans les produits tech et l'IA, avec une formation en data science et une passion pour l'innovation. Elle explore les dernières avancées en IA, leurs applications pratiques et leurs implications éthiques.
Voir toutes les publications