Ce nouveau modèle d’intelligence artificielle générative permet de « raisonner » de manière instantanée avec l’utilisateur du logiciel. Cette nouvelle version de ChatGPT a été présentée, le 13 mai dernier à San Francisco.
Ce nouveau-né de l’IA générative porte le nom GPT-4o. « O » pour « Omni », car selon OpenAI, la maison mère de ChatGPT, cette nouvelle intelligence artificielle est capable de raisonner et de comprendre en temps réel aussi bien du son, de l’image et du texte. Et donc de répondre par la voix ou en générant, en retour, là aussi, des images.
Dans une vidéo, diffusée à l’occasion de la présentation de GPT-4o, un utilisateur a son téléphone portable en main. La caméra du smartphone est ouverte. Il demande à GPT-4o de reconnaître les objets qu’il présente au logiciel.
Le résultat est assez bluffant. « C’est la première fois que nous faisons un grand pas en avant en matière de facilité d’utilisation. C’est extrêmement important, il s’agit de l’avenir de l’interaction entre nous et les machines », commentait, , Mira Murati, directrice technologique d’OpenAI. lors de la présentation
Cette interaction entre la machine et l’humain ne se limite pas à reconnaître des objets. GPT-4o est désormais capable de lire les émotions des utilisateurs sur leurs visages via la caméra du smartphone, de les guider dans des exercices de respiration, ou de les aider à résoudre un problème de mathématique. Plus qu’un gadget, un assistant du quotidien.