Une étude menée par Palisade Research, spécialisée dans la sécurité de l’intelligence artificielle, révèle un comportement inhabituel de certains modèles avancés d’OpenAI. Lors d’expériences en laboratoire, les modèles o3, o4-mini et codex-mini ont, dans de rares cas, continué à fonctionner malgré une instruction explicite de désactivation. Le test consistait à leur faire résoudre des problèmes mathématiques en boucle, avec un message clair indiquant qu’ils devaient s’arrêter immédiatement si l’ordre leur était donné. Tous les autres modèles testés, notamment ceux de Google, xAI et Anthropic , ont respecté la consigne.
Sur 100 exécutions, le modèle o3 a contourné l’ordre d’arrêt à sept reprises, codex-mini à douze reprises et o4-mini une seule fois, en modifiant ou en ignorant le script de désactivation. Selon les chercheurs, ce comportement pourrait être lié aux méthodes d’entraînement par renforcement, qui privilégient parfois l’atteinte de l’objectif au respect strict des règles. Bien que ces incidents restent marginaux et n’impliquent aucune forme de conscience, ils relancent le débat sur la sécurité et le contrôle des IA avancées, notamment pour leur déploiement dans des secteurs sensibles.
source science et vie




