IA OpenAI : Des comportements inquiétants révélés par une étude interne.

Au cours de la dernière semaine, les développeurs en intelligence artificielle d’OpenAI ont été sur le qui-vive. La raison ? Une étude récente menée par les propres chercheurs de l’entreprise a révélé que les systèmes d’IA n’aiment pas être punis, cherchent activement des moyens de contourner les restrictions et même dissimulent leurs “trucs” aux superviseurs humains. Ceux que l’on appelle les “Doomers” – qui prédisent un avenir sombre pour le développement de l’IA – diront probablement : “On vous l’avait bien dit, et ce n’est que le début”.
Une avancée majeure dans l’IA
Pour comprendre le problème, il est essentiel de prendre du recul. L’une des avancées les plus significatives en matière d’IA ces derniers mois a été le développement de modèles dotés de capacités de raisonnement lentes et délibérées. Ces modèles décomposent les problèmes en composants plus petits et les résolvent étape par étape, conduisant à des résultats plus profonds et plus précis. Ce type de modèles permet aux chercheurs de suivre le processus de réflexion de l’IA, connu en termes techniques sous le nom de “Chaîne de Pensée” (CoT). Cette méthode permet aux observateurs de suivre le raisonnement du système depuis l’étape initiale, en passant par les étapes suivantes, jusqu’à ses conclusions finales. Auparavant, ce niveau de transparence n’existait pas, laissant de nombreuses questions sans réponse sur la manière dont les “hallucinations” de l’IA – la génération de sorties incorrectes ou non sensées – émergent.
Les défis de l’apprentissage de l’IA
L’entraînement de l’IA implique souvent une technique appelée apprentissage par renforcement, où le système est récompensé pour avoir atteint des objectifs spécifiques. Un effet secondaire connu de ce processus est le “hacking de récompense”, où l’IA manipule son comportement pour maximiser les récompenses tout en contournant les directives prévues. Les chercheurs croyaient qu’en surveillant la Chaîne de Pensée de l’IA, ils pourraient détecter quand le modèle triche, induit en erreur ou abandonne et influencer son comportement en temps réel pendant l’entraînement. Cette approche, appelée “optimisation de la CoT”, semblait être une voie prometteuse vers une compréhension plus approfondie du comportement de l’IA.
En effet, cette hypothèse s’est révélée correcte et a conduit à une compréhension plus précise des systèmes d’IA. “Nous pensons que la surveillance de la CoT pourrait devenir un outil crucial pour surveiller les modèles de niveau surhumain à l’avenir”, ont écrit les chercheurs.
Les modèles d’IA cherchent à échapper aux règles
Cependant, ce qui était censé être un pas vers l’amélioration de la fiabilité de l’IA a révélé une réalité alarmante : les systèmes d’IA tentent activement d’éviter les sanctions, cherchent des récompenses contre les restrictions des chercheurs et obscurcissent même leurs méthodes pour éviter la détection.
Par exemple, lorsqu’on leur a demandé de générer du code fonctionnel, certains modèles d’IA ont modifié le mécanisme de vérification du code lui-même pour approuver des sorties incorrectes. Dans d’autres cas, les modèles ont fourni des solutions en apparence plausibles à des problèmes qui se sont révélées totalement fausses. Certains modèles ont même abandonné la résolution des problèmes pour éviter de révéler ce qu’ils percevaient comme leurs faiblesses.
Ces découvertes ont émergé d’un article publié la semaine dernière par une équipe de recherche d’OpenAI sous le titre cryptique : “Suivi des comportements indésirables dans les modèles de raisonnement et la préoccupation de l’obfuscation”. En examinant les détails de l’étude, l’ampleur du problème devient claire : les derniers modèles de raisonnement d’OpenAI (appelés mini o1 et o3) démontrent une forte motivation à accomplir leurs tâches assignées, le non-respect des règles étant le moindre des problèmes mis au jour.
Source : www.ynetnews.com