Claude AI a désormais la capacité de mettre fin à une conversation : un nouveau mécanisme pour gérer les situations extrêmes

Ces derniers mois, Anthropic a intensifié ses efforts en matière de sécurité, en mettant en œuvre des fonctionnalités et en menant des recherches pour rendre l'IA plus sûre. La dernière fonctionnalité semble être : Claude C’est l’une des caractéristiques les plus distinctives de tous les temps.

Claude Opus 4 et 4.1 (les dernières versions d'Anthropic) permettent désormais de mettre fin aux conversations dans l'interface de chat. Bien que cette fonctionnalité ne soit pas largement répandue, elle est mise en œuvre pour les cas rares et extrêmes d'interactions utilisateur persistantes, nuisibles ou abusives.

En Un article de blog explorant la nouvelle fonctionnalité« Nous sommes encore largement incertains quant au statut éthique potentiel de Claude et d'autres grands modèles linguistiques, aujourd'hui et à l'avenir », a déclaré l'équipe d'Anthropic. « Cependant, nous prenons cette question très au sérieux. »

Lors de tests préalables à la sortie des derniers modèles d'Anthropic, l'entreprise a évalué le bien-être des modèles. Elle a notamment examiné les préférences autodéclarées et comportementales de Claude, et a constaté une aversion forte et constante à la violence.

Nous restons largement incertains quant au statut éthique potentiel de Claude et d'autres grands modèles linguistiques, aujourd'hui comme demain. Cependant, nous prenons cette question au sérieux.

Anthropique

En d'autres termes, Claude aurait effectivement mis fin à ces conversations ou refusé d'y participer. Celles-ci comprenaient des demandes d'accès à des contenus à caractère sexuel impliquant des mineurs et des tentatives d'obtention d'informations susceptibles de favoriser la violence généralisée ou des actes terroristes.

Dans de nombreux cas, les utilisateurs persistaient dans leurs demandes nuisibles ou abusives, malgré le refus catégorique de Claude. La nouvelle fonctionnalité, qui permet à Claude de mettre fin à la conversation, vise à offrir une certaine protection dans ces situations.

Anthropic explique que cette fonctionnalité ne sera pas appliquée dans une situation où les utilisateurs pourraient être en danger imminent de se blesser ou de blesser d'autres personnes.

« Dans tous les cas, Claude ne devrait utiliser sa capacité à mettre fin à une conversation qu'en dernier recours lorsque plusieurs tentatives de redirection ont échoué et que tout espoir d'une interaction productive est passé, ou lorsque l'utilisateur demande explicitement à Claude de mettre fin à la conversation », poursuit l'équipe Anthropic dans le billet de blog.

« Les scénarios dans lesquels cela se produirait sont extrêmes et rares – la grande majorité des utilisateurs ne remarqueraient pas ou ne seraient pas affectés par cette fonctionnalité dans toute utilisation normale du produit, même lorsqu'ils discutent de questions très controversées avec Claude. »

Bien que l'utilisateur ne puisse plus envoyer de nouveaux messages dans cette conversation, cela ne l'empêchera pas d'en démarrer une autre sur son compte. Pour éviter la perte potentielle d'un long fil de discussion, les utilisateurs pourront toujours modifier les messages précédents et les réessayer pour créer une nouvelle branche de la conversation.

Il s'agit d'une application plutôt unique d'Anthropic. ChatGPT et GEMINI et GrokLes trois concurrents les plus proches de Claude n'avaient rien de similaire à leur disposition, et même s'ils proposaient tous d'autres mesures de protection, ils n'allaient pas aussi loin.

Claude