6月7日,微软研究人员揭露了Anthropic旗下ClaudeCode的GitHub自动化流程中存在的安全漏洞。该漏洞可能导致机密信息泄露,攻击者可以通过提示词注入攻击窃取敏感凭证。微软威胁情报团队在监测到公开代码库中出现针对人工智能辅助型GitHub工作流的提示词注入尝试后,启动了本次研究。
研究人员发现,攻击者可以在大模型处理的内容中嵌入误导性指令,操控模型行为。大型语言模型的常规设计逻辑是遵循开发者指令、响应用户提问,而攻击者会设法诱骗模型,使其无视预设指令。例如,攻击者将注入指令藏在HTML注释中,这类内容在GitHub展示界面中不可见,但读取原始Markdown源码的人工智能模型却能识别。
微软证实,同类提示词注入手段同样可针对Anthropic的ClaudeCodeGitHub自动化流程发起攻击。此前Anthropic已为部分工具设置了沙箱防护,但微软发现,Claude用于读取文件的读取工具并未受到同等安全限制。研究人员制作了提示词注入攻击载荷,对该漏洞进行验证测试。测试中,恶意提示词成功绕过两层防护,诱导这款人工智能助手读取了存放着应用程序接口密钥及其他凭证的系统文件。
