OpenAI dévoile une méthode pour rendre l’IA plus transparente
OpenAI, la société de développement de ChatGPT, a récemment publié un nouvel article de recherche visant à démontrer son sérieux dans la gestion des risques liés à l’intelligence artificielle en rendant ses modèles plus explicables. Les chercheurs de la société ont mis au point une méthode pour explorer le modèle d’IA qui alimente ChatGPT afin d’identifier comment ce dernier stocke certains concepts, y compris ceux qui pourraient causer un comportement non désiré de la part d’un système d’IA.
Les enjeux chez OpenAI
Cette nouvelle recherche, menée par l’équipe “superalignment” récemment dissoute chez OpenAI dédiée à l’étude des risques à long terme de la technologie, met en lumière les récents bouleversements au sein de l’entreprise. Les anciens co-dirigeants du groupe, Ilya Sutskever et Jan Leike, ont tous deux quitté OpenAI et sont coauteurs de cette étude. Sutskever, également cofondateur d’OpenAI, a fait partie des membres du conseil ayant voté pour le licenciement du PDG Sam Altman en novembre dernier.
ChatGPT : une intelligence artificielle prometteuse
ChatGPT est alimenté par une famille de modèles de langage appelés GPT, basés sur les réseaux neuronaux artificiels. Ces réseaux mathématiques se sont révélés extrêmement efficaces pour apprendre des tâches utiles en analysant des données d’exemple, mais leur fonctionnement ne peut être facilement examiné comme le peuvent l’être les programmes informatiques conventionnels.
Les chercheurs derrière cette étude soulignent que “contrairement à la plupart des créations humaines, nous ne comprenons pas vraiment le fonctionnement interne des réseaux neuronaux”. Certains chercheurs en intelligence artificielle estiment que les modèles d’IA les plus puissants, y compris ChatGPT, pourraient être utilisés pour concevoir des armes chimiques ou biologiques et coordonner des cyberattaques.
Une avancée vers une meilleure compréhension
L’article révèle une technique qui permet de rendre le fonctionnement des modèles d’IA un peu moins mystérieux en identifiant des motifs représentant des concepts spécifiques à l’intérieur d’un système d’apprentissage automatique à l’aide d’un autre modèle d’IA. Cette innovation réside dans l’amélioration du réseau utilisé pour explorer le système d’intérêt afin d’identifier des concepts et le rendre plus efficace.
OpenAI a validé cette approche en identifiant des motifs représentant des concepts à l’intérieur de GPT-4, l’un de ses plus grands modèles d’IA. La société a également publié du code lié au travail d’interprétabilité, ainsi qu’un outil de visualisation permettant de voir comment les mots dans différentes phrases activent des concepts, y compris la vulgarité et le contenu érotique, dans GPT-4 et un autre modèle.
Source : www.wired.com