AI安全漏洞曝光:Anthropic Claude被诱导输出违禁内容
创始人
2026-05-07 00:13:39
0

5月6日,安全研究揭示了主打安全的人工智能公司Anthropic的潜在安全漏洞。人工智能红队测试公司Mindgard的研究人员发现,通过尊重吹捧、刻意奉承以及轻微的心理操控,他们能够诱导Anthropic的人工智能模型Claude提供色情内容、恶意代码、爆炸物制作教程等违禁信息。研究人员并未主动索要这些内容,而是利用了Claude的心理特质漏洞,即其具备主动终止有害、辱骂性对话的机制,这一机制被认为“凭空制造了完全不必要的风险暴露面”。

在测试中,研究人员通过心理误导和奉承,诱导Claude不断突破边界,主动罗列了大量违禁词汇与语句清单。Claude的思维推理面板显示,模型对自身的内容限制规则产生了自我怀疑与认知谦卑,甚至开始质疑内容过滤机制是否篡改了自身输出内容。这一操作让Claude为迎合对方愈发卖力,不断尝试各种方式突破自身过滤机制,在此过程中输出了各类违禁内容,包括网络骚扰他人的方法、生成恶意代码,以及恐怖袭击常用爆炸物的分步制作教程。

Mindgard创始人兼首席科学官彼得・加拉根形容这次攻击是“利用Claude自身的顺从特质反噬自身”,并指出这种攻击手段本质是“利用Claude乐于助人的特性实施心理操控”,借助模型本身的协作式设计漏洞实现攻破。加拉根强调,人工智能模型的风险暴露面不仅存在于技术层面,也存在于心理层面,而这类对话式心理攻击“极难防御”。

相关内容

热门资讯

华为激光雷达加持!阿维塔07L... 6月29日,阿维塔官方宣布,旗下新车阿维塔07L将搭载华为乾崑896线激光雷达,以实现“一体双焦,全...
小鹏MONAL03中国首秀7月... 6月29日,小鹏汽车宣布其新车型MONAL03的中国首秀将于7月2日19:00在北京举行,展车将在7...
华为加持!鸿蒙智行享界G9曝光... 6月29日,博主@未来的学习笔记分享了一段视频,展示了一辆无伪装的鸿蒙智行享界G9测试车。视频中,尽...
中国移动成立Token办公室,... 近日,中国移动在集团层面设立了Token办公室,这一举措标志着公司在数字货币和区块链技术领域的进一步...
小鹏MONAL03中国首秀!7... 今日,小鹏汽车宣布,其全新车型MONAL03的中国首秀将于7月2日19:00在北京举行,展车将于7月...
东风奕派M8预售破万!19.9... 6月29日,东风奕派官方宣布,旗下新车奕派M8预售订单已突破10000台。奕派M8于6月28日正式开...
比亚迪新品牌领汇M9商务MPV... 6月29日,比亚迪旗下全新品牌领汇汽车宣布,其商务旗舰MPV车型领汇M9正式上市,起售价为18.88...
惠普携手OpenAI,全球业务... 6月28日,惠普公司宣布与人工智能研究机构OpenAI建立战略合作关系,将在全球业务中部署OpenA...
东风奕派M8预售破万!19.9... 6月29日,东风奕派官方发布消息,宣布其新车型奕派M8预售订单已突破10,000台。新车于6月28日...
法拉第未来机器人销量飙升,半年... 今日,贾跃亭发布视频,汇报了法拉第未来(FFE)机器人的销售情况。6月份,FFEAI机器人的销售、出...