Les tech géants en guerre pour la suprématie en IA en 2023
Introduction : L’avenir des grandes modèles de langage
Lorsque vous interagissez avec un chatbot AI comme ChatGPT, Claude, Copilot ou Gemini, il peut sembler que vous communiquez avec une personne. En réalité, ces chatbots ne comprennent pas le sens des mots de la même manière que nous. Ce sont des interfaces que nous utilisons pour interagir avec de grands modèles de langage, ou LLM. Cette technologie sous-jacente est entraînée à reconnaître comment les mots sont utilisés et quels mots apparaissent fréquemment ensemble, afin de prédire les futurs mots, phrases ou paragraphes.
Les outils d’IA générative affinent constamment leur compréhension des mots pour faire de meilleures prédictions. Certains, comme Lumiere de Google et Sora d’OpenAI, apprennent même à générer des images, des vidéos et de l’audio.
La rivalité entre les différentes technologies a été initiée par l’introduction de ChatGPT à la fin de 2022, suivie par l’arrivée de la recherche IA améliorée de Microsoft et de Bard de Google (maintenant Gemini). Au fil des mois, Microsoft a présenté Copilot, Meta a mis à jour Llama, OpenAI a publié Dall-E 3 et GPT-4 Turbo, Google a annoncé Gemini Ultra 1.0 et a teasé Gemini 1.5 Pro, tandis qu’Anthropic a lancé Claude 3. Google et Adobe ont donné un aperçu des outils pouvant générer des jeux et de la musique virtuels pour montrer aux consommateurs la direction dans laquelle la technologie se dirige.
Cette technologie de pointe n’a peut-être jamais été aussi accessible. Les entreprises qui la développent cherchent à vous attirer dans leurs écosystèmes et à revendiquer leur part d’un marché estimé à 1,3 billion de dollars d’ici 2032.
Si vous vous demandez quel est le lien entre les LLM et l’IA, cet article est fait pour vous. (et assurez-vous de consulter notre nouveau guide AI Atlas pour des critiques de produits pratiques, ainsi que des actualités, des conseils, des vidéos et plus encore.)
Qu’est-ce qu’un modèle de langage ?
Un modèle de langage peut être comparé à un devin des mots.
“Un modèle de langage est quelque chose qui tente de prédire ce à quoi ressemble le langage que produisent les humains”, a déclaré Mark Riedl, professeur à l’École d’informatique interactive de Georgia Tech et directeur adjoint du Centre d’apprentissage machine de Georgia Tech. “Ce qui détermine qu’une chose est un modèle de langage, c’est sa capacité à prédire les mots futurs en fonction des mots précédents.”
C’est la base de la fonction d’autocomplétion lorsque vous envoyez des SMS, tout comme les chatbots d’IA.
Qu’est-ce qu’un grand modèle de langage ?
Un grand modèle de langage est, par définition, un grand modèle de langage.
Quelle est sa taille ?
Ces modèles sont mesurés en “paramètres”.
Qu’est-ce qu’un paramètre ?
Eh bien, les LLM utilisent des réseaux neuronaux, qui sont des modèles d’apprentissage machine qui prennent une entrée et effectuent des calculs mathématiques pour produire une sortie. Le nombre de variables dans ces calculs sont les paramètres. Un grand modèle de langage peut avoir 1 milliard de paramètres ou plus.
“Nous savons qu’ils sont grands quand ils produisent un paragraphe complet de texte cohérent et fluide”, a déclaré Riedl.
Y a-t-il quelque chose comme un petit modèle de langage ?
Oui. Des entreprises technologiques comme Microsoft déploient des modèles plus petits, conçus spécifiquement pour les téléphones et les PC, qui ne nécessitent pas les mêmes ressources de calcul qu’un LLM, mais aident néanmoins les utilisateurs à exploiter la puissance de l’IA générative.
Qu’y a-t-il sous le capot d’un grand modèle de langage ?
Lorsqu’Anthropic a cartographié “l’esprit” de son grand modèle de langage Claude 3.0 Sonnet, il a découvert que chaque état interne, ou “ce à quoi le modèle ‘pense’ avant d’écrire sa réponse”, est créé en combinant des caractéristiques ou des motifs d’activation de neurones. (Les neurones artificiels dans les réseaux neuronaux imitent le comportement des neurones de notre cerveau.)
En extrayant ces activations neuronales de Claude 3.0 Sonnet, Anthropic a pu voir une carte de ses états internes lors de la génération de réponses. La startup en IA a constaté que les motifs d’activations neuronales étaient axés sur les villes, les personnes, les éléments atomiques, les domaines scientifiques et la syntaxe de programmation, ainsi que des concepts plus abstraits comme les bogues dans le code informatique, les biais de genre au travail et les conversations sur le fait de garder des secrets.
Finalement, Anthropic a déclaré que “l’organisation interne des concepts dans le modèle IA correspond, du moins en partie, à nos notions humaines de similarité”.
Source : www.businessghana.com