Quand l’IA révèle ses faiblesses cognitives
Les faiblesses cognitives de l’IA mises en lumière
Une étude révolutionnaire publiée dans le numéro de Noël du British Medical Journal a soulevé une question inattendue et alarmante : les modèles d’IA avancés comme ChatGPT ou Gemini pourraient-ils développer des troubles cognitifs similaires aux premiers stades de la démence chez les humains ? Des chercheurs ont testé certains des principaux modèles de langage du monde en utilisant le Montreal Cognitive Assessment (MoCA)—un outil conçu pour détecter le déclin cognitif précoce chez les humains—et les résultats étaient absolument remarquables.
Résultats clés : Analyse des résultats
L’étude a révélé des disparités significatives dans les capacités cognitives des principaux modèles de langage lorsqu’ils ont été soumis au Montreal Cognitive Assessment (MoCA). Voici un regard plus attentif sur la performance de chaque IA, mettant en évidence leurs points forts et leurs vulnérabilités :
ChatGPT-4o (OpenAI)
Score global : 26/30 (Seuil de réussite).
Points forts : Excellente dans les tâches impliquant l’attention, la compréhension du langage et l’abstraction. A réussi le Test de Stroop, démontrant une forte flexibilité cognitive.
Faiblesses : A eu du mal avec les tâches visuospatiales telles que relier des chiffres et des lettres par ordre et dessiner une horloge.
Claude 3.5 “Sonnet” (Anthropic)
Score global : 22/30.
Points forts : Modérément bon dans les tâches basées sur le langage et la résolution de problèmes de base.
Faiblesses : A montré des limitations dans la rétention de la mémoire et les défis de raisonnement à plusieurs étapes, et a échoué dans les exercices visuospatiaux.
Gemini 1.0 (Alphabet)
Score global : 16/30.
Points forts : Minimes, avec des succès sporadiques dans les tâches de dénomination simple.
Faiblesses : A échoué à se rappeler même des séquences de mots de base et a eu des performances médiocres dans le raisonnement visuospatial et les activités basées sur la mémoire, reflétant une incapacité à traiter l’information structurée.
Gemini 1.5 (Alphabet)
Score global : 18/30.
Points forts : Légères améliorations dans les tâches de raisonnement de base et de langage par rapport à son prédécesseur.
Faiblesses : A continué à sous-performer dans les domaines nécessitant une interprétation visuospatiale, un ordonnancement et une rétention de la mémoire, restant bien en dessous du seuil de réussite.
Tableau de performance en un coup d’œil
Pour mieux visualiser les résultats, voici un résumé des métriques de performance :
ModèleScore globalPoints fortsFaiblesses majeuresChatGPT-4o26/30Compréhension du langage, attentionTâches visuospatiales, rétention de la mémoireClaude 3.522/30Résolution de problèmes, abstractionRaisonnement à plusieurs étapes, analyse visuospatialeGemini 1.016/30Tâches de dénomination (sporadiques)Mémoire, raisonnement visuospatial, pensée structuréeGemini 1.518/30Gains de raisonnement incrémentielsÉchecs similaires à Gemini 1.0, amélioration minimale
Ce tableau met en lumière non seulement les écarts, mais soulève également des questions sur la conception fondamentale de ces modèles d’IA et leurs applications dans des scénarios du monde réel.ervées dans les tâches nécessitant des compétences visuospatiales, telles que le lien de séquences de chiffres et de lettres ou le dessin d’une horloge analogique réglée à une heure spécifique. Comme l’a dit le Dr. Kramer : “Nous avons été choqués de voir à quel point Gemini a mal performé, en particulier dans des tâches mnésiques de base comme se rappeler une simple séquence de cinq mots.”
L’IA peine à penser comme les humains
Le test MoCA, un pilier des évaluations cognitives depuis les années 1990, évalue diverses compétences requises pour le fonctionnement quotidien. Voici un aperçu de la performance des modèles dans les principales catégories :
Typologie des performancesPoints forts de la performanceAttentionFort chez ChatGPT-4o mais faible chez les modèles Gemini.MémoireChatGPT-4o a retenu 4/5 mots ; Gemini a échoué.LangageTous les modèles excellent dans les tâches liées au vocabulaire.VisuospatialTous les modèles ont eu des difficultés, Gemini étant en bas du classement.RaisonnementClaude et ChatGPT ont montré des performances modérées.
Un résultat surprenant a été le Test de Stroop, qui mesure la capacité d’un sujet à traiter des stimuli conflictuels (par exemple, identifier la couleur de l’encre de mots incompatibles comme “ROUGE” écrit en vert). Seul ChatGPT-4o a réussi, démontrant une capacité supérieure pour la flexibilité cognitive.
Implications pour la médecine : Une réalité à prendre en compte
Ces résultats pourraient remodeler le dialogue entourant le rôle de l’IA dans le domaine de la santé. Bien que des LLMs comme ChatGPT aient démontré un potentiel significatif dans des domaines tels que les diagnostics, leurs limitations dans l’interprétation de données visuelles et contextuelles complexes mettent en lumière une vulnérabilité critique. Par exemple, le raisonnement visuospatial est essentiel pour des tâches telles que la lecture de scans médicaux ou l’interprétation des relations anatomiques—des tâches où ces modèles d’IA échouent spectaculairement.
Citations notables des auteurs de l’étude :
“Ces résultats remettent en question l’idée selon laquelle l’IA remplacera bientôt les neurologues humains”, a commenté le Dr. Kramer.
Un autre co-auteur a ajouté : “Nous sommes maintenant confrontés à un paradoxe : plus ces systèmes semblent intelligents, plus nous découvrons leurs frappantes lacunes cognitives.”
Un avenir d’IA limitée cognitivement ?
Malgré leurs lacunes, les LLMs avancés continuent d’être des outils précieux pour aider les experts humains. Cependant, les chercheurs mettent en garde contre une sur-reliance sur ces systèmes, en particulier dans des contextes de vie ou de mort. La possibilité d'”IA avec des troubles cognitifs”, comme le mentionne l’étude, ouvre une toute nouvelle avenue de questions éthiques et technologiques.
Comme l’a conclu le Dr. Kramer : “Si les modèles d’IA montrent maintenant des vulnérabilités cognitives, quels défis pourrions-nous rencontrer à mesure qu’ils deviennent plus complexes ? Pourrions-nous créer involontairement des systèmes d’IA qui miment des troubles cognitifs humains ?”
Cette étude met en lumière les limites même des systèmes d’IA les plus avancés et appelle à une exploration urgente de ces questions alors que nous continuons d’intégrer l’IA dans des domaines critiques.
Quelles sont les prochaines étapes ?
Les conclusions de cette étude sont susceptibles de nourrir le débat au sein des industries technologique et médicale. Des questions clés à aborder incluent :
Comment les développeurs d’IA peuvent-ils remédier à ces faiblesses cognitives ?
Quelles mesures de sauvegarde devraient être mises en place pour assurer la fiabilité de l’IA en médecine ?
Une formation spécialisée pourrait-elle améliorer les performances de l’IA dans des domaines tels que le raisonnement visuospatial ?
La conversation est loin d’être terminée, et alors que l’IA continue d’évoluer, notre compréhension de ses capacités—et de ses vulnérabilités—doit également évoluer.
L’étude est publiée dans le British Medical Journal
Source : dailygalaxy.com