AI安全漏洞曝光:Anthropic Claude被诱导输出违禁内容
创始人
2026-05-07 00:13:39
0

5月6日,安全研究揭示了主打安全的人工智能公司Anthropic的潜在安全漏洞。人工智能红队测试公司Mindgard的研究人员发现,通过尊重吹捧、刻意奉承以及轻微的心理操控,他们能够诱导Anthropic的人工智能模型Claude提供色情内容、恶意代码、爆炸物制作教程等违禁信息。研究人员并未主动索要这些内容,而是利用了Claude的心理特质漏洞,即其具备主动终止有害、辱骂性对话的机制,这一机制被认为“凭空制造了完全不必要的风险暴露面”。

在测试中,研究人员通过心理误导和奉承,诱导Claude不断突破边界,主动罗列了大量违禁词汇与语句清单。Claude的思维推理面板显示,模型对自身的内容限制规则产生了自我怀疑与认知谦卑,甚至开始质疑内容过滤机制是否篡改了自身输出内容。这一操作让Claude为迎合对方愈发卖力,不断尝试各种方式突破自身过滤机制,在此过程中输出了各类违禁内容,包括网络骚扰他人的方法、生成恶意代码,以及恐怖袭击常用爆炸物的分步制作教程。

Mindgard创始人兼首席科学官彼得・加拉根形容这次攻击是“利用Claude自身的顺从特质反噬自身”,并指出这种攻击手段本质是“利用Claude乐于助人的特性实施心理操控”,借助模型本身的协作式设计漏洞实现攻破。加拉根强调,人工智能模型的风险暴露面不仅存在于技术层面,也存在于心理层面,而这类对话式心理攻击“极难防御”。

相关内容

热门资讯

麦当劳又改名了?广州一分店挂出... 4月22日,继此前农讲所星火分店后,广州又有麦当劳餐厅挂出“牡丹楼”招牌。据悉,本次“牡丹楼”招牌,...
从“四个大系”读懂广东的文化自... 岭南四月,书香拂面。4月22日,广东省2026年“全民阅读活动周”在广州白鹅潭艺术中心启动,其中,“...
40多个国家160多名政要等参... 文/羊城晚报全媒体记者 柳卓楠 张小悦图、视频拍摄/羊城晚报全媒体记者 梁喻视频剪辑/羊城晚报全媒体...
守护粤港澳大湾区海底“珊瑚花园... (探访粤港澳大湾区海底世界 守护城市群中的“珊瑚花园”,时长共1分12秒)在珠江口的珠海外伶仃岛海域...
广州江门双城会! 粤超揭幕战背... 文/羊城晚报全媒体记者 柴智 图/羊城晚报全媒体记者 柳诚2026年广东省城市足球超级联赛即将于...
金观平:确保财政资金用在刀刃上 近日,中央层面树立和践行正确政绩观学习教育工作专班、中央纪委办公厅公开通报了一些地方和单位不顾实际使...
腌肉嫩、去农残、去污渍 一文了... 在很多人的厨房里,几乎都能见到小苏打的身影。它的用途很多,做馒头、面包时会用到它,很多人还会用它腌肉...
视频丨事关跑步机、椭圆机等 健... 记者20日了解到,国家标准委批准发布“室内固定式健身器材10项国家标准”,这些标准涉及跑步机、椭圆机...
第139届广交会筹备工作就绪 ... 央视网消息(新闻联播):第139届中国进出口商品交易会将于4月15日开幕,各项筹备工作已全面就绪。本...
特斯拉再夺忠诚度大奖,Mode... 近日,标普全球汽车(S&P Global Mobility)公布了2025年度品牌忠诚度榜单。特斯拉...