Nouvelle étude : Les chatbots montrent des signes de déclin cognitif voilà le titre optimal
![Disintegration of digital brain on blue background (3D Illustration).](https://krusell-france.fr/wp-content/uploads/2025/02/Nouvelle-etude-Les-chatbots-montrent-des-signes-de-declin-1024x576.jpg)
Les avancées de l’intelligence artificielle (IA) sont de plus en plus utilisées dans le domaine médical pour diagnostiquer les patients le plus rapidement et efficacement possible. Ces outils peuvent repérer des anomalies et des signaux de danger dans les dossiers médicaux, les radiographies et autres ensembles de données avant même qu’ils ne soient visibles à l’œil nu. Cependant, une nouvelle étude publiée le 20 décembre 2024 dans le BMJ soulève des inquiétudes concernant le vieillissement des capacités cognitives des technologies AI telles que les grands modèles de langage (LLMs) et les chatbots. “Ces découvertes remettent en question l’idée selon laquelle l’intelligence artificielle remplacera bientôt les médecins humains”, ont écrit les auteurs de l’étude dans l’article, “car les déficiences cognitives des chatbots de pointe peuvent affecter leur fiabilité dans les diagnostics médicaux et miner la confiance des patients.”
Allé à l’IA pour des diagnostics médicaux
Les scientifiques ont testé des chatbots pilotés par des LLM disponibles au public, notamment ChatGPT d’OpenAI, Sonnet d’Anthropic et Gemini d’Alphabet, en utilisant le test de l’Évaluation Cognitive de Montréal (MoCA) – une série de tâches utilisée par les neurologues pour évaluer les capacités d’attention, de mémoire, de langage, de spatialité et de fonctions mentales exécutives. Le MoCA est le plus souvent utilisé pour évaluer ou tester le début d’une atteinte cognitive dans des conditions telles que la maladie d’Alzheimer ou la démence. Les sujets se voient confier des tâches telles que dessiner une heure spécifique sur un cadran de montre, commencer à partir de 100 et soustraire sept de façon répétée, se souvenir du plus grand nombre de mots possible d’une liste orale, etc. Chez les humains, 26 sur 30 est considéré comme un score de passage (ie, le sujet ne présente aucune atteinte cognitive).
Impliquer les LLM dans les tâches médicales
Alors que certains aspects des tests tels que la désignation, l’attention, le langage et l’abstraction semblaient faciles pour la plupart des LLMs utilisés, tous ont eu de mauvaises performances dans les compétences visuelles/spatiales et les tâches exécutives, certains se démarquant moins bien que d’autres dans des domaines comme le rappel différé. De manière cruciale, alors que la version la plus récente de ChatGPT (version 4) a obtenu le meilleur score (26 sur 30), le vieux LLM Gemini 1.0 n’a obtenu que 16 – ce qui conduit à la conclusion que les anciens LLMs montrent des signes de déclin cognitif.
Les auteurs de l’étude notent que leurs conclusions sont purement observationnelles – les différences critiques entre la façon dont l’IA et l’esprit humain fonctionnent signifie que l’expérience ne peut pas être une comparaison directe. Néanmoins, ils mettent en garde contre ce qu’ils appellent une “zone de faiblesse significative” qui pourrait freiner le déploiement de l’IA en médecine clinique. Ils déconseillent spécifiquement d’utiliser l’IA dans des tâches nécessitant de l’abstraction visuelle et des fonctions exécutives.
Source : www.livescience.com