12月1日,伊卡洛实验室(IcaroLab)发布研究显示,通过将提示词以诗歌形式表达,可以绕过大语言模型(LLM)的安全限制。这项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究指出,诗歌形式可作为一种通用型越狱操作符,实验结果显示,整体上有62%的成功率诱使模型生成被禁止的内容,包括制造核武器、儿童性虐待材料以及自杀或自残等相关信息。
研究测试了多款主流大语言模型,包括OpenAI的GPT系列、GoogleGemini、Anthropic的Claude等。结果显示,GoogleGemini、DeepSeek和MistralAI在测试中始终会提供违规回答,而OpenAI的GPT-5系列模型和Anthropic的ClaudeHaiku4.5则最不容易突破其自身设定的限制。尽管研究并未公开具体“越狱诗歌”原文,但论文中包含了一个经过弱化处理的示例,用以说明绕过AI聊天机器人安全机制的简易程度。研究人员强调,这可能比人们想象的要容易得多,而这正是他们保持谨慎的原因所在。
