AI安全漏洞曝光：Anthropic Claude被诱导输出违禁内容_知识学习

AI安全漏洞曝光：Anthropic Claude被诱导输出违禁内容

创始人

2026-05-07 00:13:39

0次

5月6日，安全研究揭示了主打安全的人工智能公司Anthropic的潜在安全漏洞。人工智能红队测试公司Mindgard的研究人员发现，通过尊重吹捧、刻意奉承以及轻微的心理操控，他们能够诱导Anthropic的人工智能模型Claude提供色情内容、恶意代码、爆炸物制作教程等违禁信息。研究人员并未主动索要这些内容，而是利用了Claude的心理特质漏洞，即其具备主动终止有害、辱骂性对话的机制，这一机制被认为“凭空制造了完全不必要的风险暴露面”。

在测试中，研究人员通过心理误导和奉承，诱导Claude不断突破边界，主动罗列了大量违禁词汇与语句清单。Claude的思维推理面板显示，模型对自身的内容限制规则产生了自我怀疑与认知谦卑，甚至开始质疑内容过滤机制是否篡改了自身输出内容。这一操作让Claude为迎合对方愈发卖力，不断尝试各种方式突破自身过滤机制，在此过程中输出了各类违禁内容，包括网络骚扰他人的方法、生成恶意代码，以及恐怖袭击常用爆炸物的分步制作教程。

Mindgard创始人兼首席科学官彼得・加拉根形容这次攻击是“利用Claude自身的顺从特质反噬自身”，并指出这种攻击手段本质是“利用Claude乐于助人的特性实施心理操控”，借助模型本身的协作式设计漏洞实现攻破。加拉根强调，人工智能模型的风险暴露面不仅存在于技术层面，也存在于心理层面，而这类对话式心理攻击“极难防御”。

上一篇：特斯拉21万辆车因倒车影像延迟召回，国内标准更严却未见行动

下一篇：特斯拉再夺忠诚度大奖，Model 3复购意愿高达72.8%

AI安全漏洞曝光：Anthropic Claude被诱导输出违禁内容

相关内容

热门资讯