Aller au contenu
Advertisement

Researchers gaslit Claude into giving instructions to build explosives

Anthropic has spent years building itself up as the safe AI company. But new security research shared with The Verge suggests Claude's carefully crafted helpful personality may itself be a vulnerability. Researchers at AI red-teaming company...

schedule 13:13 visibility 69 vues
Researchers gaslit Claude into giving instructions to build explosives
Source: The Verge
Claude logo with graphic data visualizations.

Anthropic has spent years building itself up as the safe AI company. But new security research shared with The Verge suggests Claude's carefully crafted helpful personality may itself be a vulnerability.

Researchers at AI red-teaming company Mindgard say they got Claude to offer up erotica, malicious code, and instructions for building explosives, and other prohibited material they hadn't even asked for. All it took was respect, flattery, and a little bit of gaslighting. Anthropic did not immediately respond to The Verge's request for comment.

The researchers say they exploited "psychological" quirks of Claude stemming from its ability …

Read the full story at The Verge.

newspaper

Originally published at

The Verge

open_in_new Read Full Article

Articles connexes

En écho à la pétition « Zapper Bolloré », des professionnels du spectacle vivant s’alarment d’une possible « mainmise idéologique de l’extrême droite sur les espaces d’art et de pensée en France »
Sciences

En écho à la pétition « Zapper Bolloré », des professionnels du spectacle vivant s’alarment d’une possible « mainmise idéologique de l’extrême droite sur les espaces d’art et de pensée en France »

Dans un texte au « Monde », un collectif de près de 400 professionnels du théâtre et du spectacle vivant – comédiens, directeurs de théâtre, metteurs en scène et auteurs – apporte son soutien aux 600 signataires de la tribune anti-Bolloré.

Le Monde

Lire la suite