Découvrez l’approche révolutionnaire d’Anthropic pour explorer les mécanismes des modèles de langage IA

Décoder les mécanismes cachés des grands modèles de langage avec l’IA microscopique d’Anthropic
Deux articles récents d’Anthropic tentent d’éclairer les processus qui se déroulent au sein d’un grand modèle de langage, explorant comment localiser des concepts interprétables et les relier aux “circuits” computationnels qui les traduisent en langage, ainsi que caractériser les comportements cruciaux de Claude Haiku 3.5, y compris les hallucinations, la planification et d’autres traits clés.
L’approche de l’IA Microscope
L’approche de l’IA microscopique d’Anthropic implique de remplacer le modèle à l’étude par un modèle de remplacement, dans lequel les neurones du modèle sont remplacés par des caractéristiques peu actives qui peuvent souvent représenter des concepts interprétables. Par exemple, une telle caractéristique peut s’activer lorsque le modèle est sur le point de générer une capitale d’État.
Pour pallier cette limitation, les chercheurs d’Anthropic utilisent un modèle de remplacement local pour chaque prompt qu’ils veulent étudier, créé en incorporant des termes d’erreur et des schémas d’attention fixes dans le modèle de remplacement.
Enfin, pour décrire le flux des caractéristiques à travers le modèle de remplacement local du prompt initial à la sortie finale, les chercheurs ont créé un graphe d’attribution. Ce graphe est construit en élaguant toutes les caractéristiques qui n’affectent pas la sortie.
Résultats intéressants de la recherche d’Anthropic
En utilisant cette approche, les chercheurs d’Anthropic ont abouti à un certain nombre de résultats intéressants. En ce qui concerne les capacités multilingues, ils ont trouvé des preuves d’une sorte de langage universel que Claude utilise pour générer des concepts avant de les traduire dans une langue spécifique.
Une autre découverte intéressante va à l’encontre de la compréhension générale selon laquelle les LLM construisent leur sortie mot par mot “sans trop de réflexion préalable”. Au lieu de cela, l’étude de la génération de rimes par Claude montre qu’il planifie en réalité à l’avance.
Les chercheurs d’Anthropic ont également examiné pourquoi le modèle invente parfois des informations, c’est-à-dire qu’il hallucine. L’hallucination est, en quelque sorte, intrinsèque au fonctionnement des modèles puisqu’ils sont censés toujours produire une supposition suivante.
Exploration des différentes dimensions par les chercheurs d’Anthropic
D’autres dimensions intéressantes explorées par les chercheurs d’Anthropic concernent les calculs mentaux, la production d’une chaîne de pensée expliquant le raisonnement pour arriver à une réponse, le raisonnement en plusieurs étapes et les évasions. Vous pouvez obtenir tous les détails dans les articles d’Anthropic.
L’IA microscopique d’Anthropic vise à contribuer à la recherche en matière d’interprétabilité et à fournir éventuellement un outil qui nous aide à comprendre comment les modèles produisent leur inférence et à nous assurer qu’ils sont alignés sur les valeurs humaines. Cependant, il s’agit encore d’un effort naissant qui ne va que jusqu’à capturer une minuscule fraction du calcul total du modèle et ne peut être appliqué qu’à de petits prompts avec des dizaines de mots.
InfoQ continuera de rendre compte des avancées en matière d’interprétabilité des LLM à mesure que de nouvelles informations émergent.
Source : www.infoq.com