Researchers gaslit Claude into giving instructions to build explosives

Anthropic has spent years building itself up as the safe AI company. But new security research shared with The Verge suggests Claude's carefully crafted helpful personality may itself be a vulnerability. Researchers at AI red-teaming company...

calendar_today 5 mai 2026 schedule 13:13 visibility 69 vues

Researchers gaslit Claude into giving instructions to build explosives

Source: The Verge

Anthropic has spent years building itself up as the safe AI company. But new security research shared with The Verge suggests Claude's carefully crafted helpful personality may itself be a vulnerability.

Researchers at AI red-teaming company Mindgard say they got Claude to offer up erotica, malicious code, and instructions for building explosives, and other prohibited material they hadn't even asked for. All it took was respect, flattery, and a little bit of gaslighting. Anthropic did not immediately respond to The Verge's request for comment.

The researchers say they exploited "psychological" quirks of Claude stemming from its ability …

Read the full story at The Verge.

newspaper

Originally published at

The Verge

open_in_new Read Full Article

Articles connexes

Sciences

En écho à la pétition « Zapper Bolloré », des professionnels du spectacle vivant s’alarment d’une possible « mainmise idéologique de l’extrême droite sur les espaces d’art et de pensée en France »

Dans un texte au « Monde », un collectif de près de 400 professionnels du théâtre et du spectacle vivant – comédiens, directeurs de théâtre, metteurs en scène et auteurs – apporte son soutien aux 600 signataires de la tribune anti-Bolloré.

Le Monde il y a 2 semaines

Sciences

SpaceX annonce officiellement son entrée en Bourse, sans dévoiler le montant qu’Elon Musk souhaite lever

La société aérospatiale du multimilliardaire sera cotée sur le Nasdaq, qui rassemble les principales entreprises technologiques. Ses comptes ont été rendus publics pour la première fois : SpaceX a généré 18,7 milliards de dollars de chiffre...

Le Monde il y a 2 semaines

Sciences

En cartes : la crise d’Ormuz a révélé l’importance stratégique des détroits autant que leur vulnérabilité

Le conflit en Iran a mis en lumière la fragilité de ces espaces maritimes aux fonctions variées, commerciales ou militaires. De Malacca à Bab Al-Mandab, en passant par le Bosphore, ils constituent désormais des armes redoutables pour les Etats...

Le Monde il y a 3 semaines

Lire la suite

Sciences

A Agon-Coutainville, dans la Manche, le marché immobilier sous la menace de l’érosion côtière : « On est au tout début de la prise de conscience »

Sur le littoral normand, si des acquéreurs très fortunés continuent de s’arracher des maisons avec vue sur mer, les prix commencent à prendre en compte les risques littoraux. Certains clients préfèrent désormais des habitations en retrait.

Le Monde il y a 1 mois

Sciences

Au procès OpenAI, l’irritation d’Elon Musk, confronté à la genèse du projet : « Vos questions sont conçues pour me piéger »

Le patron de Tesla et SpaceX, qui accuse Sam Altman d’avoir détourné la fondation à but non lucratif qu’ils avaient fondée en 2015, a été confronté, mercredi, devant le tribunal d’Oakland, à ses mails et à ses prédictions de l’époque.

Le Monde il y a 1 mois

Sciences

Au procès OpenAI, Elon Musk dresse son autoportrait en bienfaiteur de l’humanité

Le patron de Tesla et SpaceX accuse Sam Altman d’avoir détourné la fondation à but non lucratif qu’ils avaient fondée en 2015. Interrogé mardi, il a mis en garde : « L’IA peut guérir toutes les maladies et rendre tout le monde prospère, mais elle...

Le Monde il y a 1 mois

Sciences

« Les maîtres de l’IA seront haïs pour leur fortune et pour leur transformation de la société »

Signe de la vitalité extraordinaire du capitalisme américain, l’intelligence artificielle, guidée par ses nouveaux maîtres SpaceX, Anthropic et OpenAI, pourrait être le nouveau cygne noir de l’économie mondiale, relève Arnaud Leparmentier dans sa...

Le Monde il y a 1 mois