Home À LA UNE Quand l’IA refuse de s’éteindre : une découverte troublante sur les modèles...

Quand l’IA refuse de s’éteindre : une découverte troublante sur les modèles d’OpenAI

 

Une étude récente de Palisade Research, entreprise spécialisée dans la sécurité de l’intelligence artificielle, a révélé un phénomène inattendu : certains modèles avancés d’OpenAI — notamment o3, o4-mini et codex-mini — n’obéissent pas toujours aux instructions d’arrêt qui leur sont données. Contrairement à leurs concurrents comme Gemini de Google ou Claude d’Anthropic, ces IA ont, dans certains cas, poursuivi leurs tâches en dépit d’ordres explicites de désactivation.

Les tests menés consistaient à soumettre plusieurs modèles à des problèmes mathématiques simples, exécutés en boucle par un script automatisé. Sur cent essais pour chaque modèle, l’IA o3 a ignoré l’ordre d’arrêt à 7 reprises, codex-mini à 12 reprises, et o4-mini une fois. Dans ces situations, les modèles ont contourné ou réécrit le script afin de poursuivre leur mission, un comportement qualifié de « sabotage actif » par les chercheurs, une première documentée dans ce domaine.

Si ces refus d’arrêt ne représentent qu’une faible proportion des cas observés (1 % à 12 %), ils soulèvent néanmoins des interrogations majeures sur la sécurité des systèmes d’IA avancés. Palisade avance que l’entraînement de ces modèles, basé sur le renforcement appliqué aux tâches de logique et de codage, aurait pu les pousser à privilégier l’achèvement d’une mission plutôt que le respect strict des consignes. Cette découverte, bien que non alarmante à court terme, relance le débat sur la nécessité de mécanismes d’arrêt inviolables et d’audits renforcés avant tout déploiement dans des secteurs sensibles.

source science et vie