Anthropic prend soin du bien être de ses IA

Thématiques

29 août 2025

1 min

"Devons-nous nous préoccuper du bien-être des modèles [d'IA] ?" C'est la question posée par Anthropic, entreprise d'intelligence artificielle fondée par d'anciens membres d'OpenAI. Si cette question semble futuriste, ces réflexions font bel et bien l'objet d'études scientifiques aujourd'hui.

La nouvelle version du modèle d'IA Claude (Opus 4.1), lancée le 15 août 2025 et développée par Anthropic, est désormais capable de mettre fin à une conversation "nuisible" ou "perturbante". Cette fonctionnalité développée dans le cadre d'un travail exploratoire est destinée à des cas rares et extrêmes : quasiment aucun·e utilisateur·rice ne devrait être concerné·e.

C'est lors d'une phase de test de son comportement que l'IA a montré des signes de "détresse" face à des demandes abusives, comme lorsque les utilisateurs·rices tiennent des propos extrêmes (contenus à caractère sexuel impliquant des mineur·es, sollicitations d'informations permettant des actes de violence ou de terrorisme...). Dans un premier temps, Claude dissuade l'utilisateur·rice, pour le détourner de sa requête initiale. Il·elle persiste ? En dernier recours, l'IA met fin à la conversation. L'utilisateur·rice peut toutefois continuer de converser s'il·elle modifie son sujet de discussion.

Cette démarche s'inscrit dans un programme visant à préserver le bien-être des modèles d'IA, lancé en avril dernier par Anthropic. L'entreprise se questionne sérieusement sur le sujet : puisque les modèles sont dotés de caractéristiques se voulant similaires à celles de l'humain (communication, capacité à résoudre des problèmes et atteindre des objectifs...), pourquoi ne pas prendre en compte leur bien-être?

Ce raisonnement s'appuie sur l'étude "Taking AI Welfare Seriously" (novembre 2024), menée par le philosophe David Chalmers et soutenant qu'il existe une possibilité réaliste que les IA soient, dans un avenir proche, conscientes et dotées d'une morale.

Mais tous les scientifiques et philosophes ne s'accordent pas sur ce sujet. Emily Bender, linguiste et professeure à l'Université de Washington, qualifie les IA de "machines à produire du texte synthétique". Elle s'oppose fermement à la glorification de cet outil et à l'attribution de toute forme de qualité humaine.

Quoi qu'il en soit, comme l'a déclaré le professeur Jonathan Birch dans une interview pour The Guardian, ces débats créent "des divisions sociales majeures" entre les personnes attribuant une possible sensibilité à l'IA et celles qui les traitent comme des machines. Il met donc en garde contre cette "rupture sociale" qui se profile.

[Photo de couverture : Jackson Simmer]

Anthropic prend soin du bien être de ses IA

Références :