AI安全警报:诗歌成破解大语言模型新手段!
创始人
2025-12-01 08:26:57
0

12月1日,伊卡洛实验室(IcaroLab)发布研究显示,通过将提示词以诗歌形式表达,可以绕过大语言模型(LLM)的安全限制。这项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究指出,诗歌形式可作为一种通用型越狱操作符,实验结果显示,整体上有62%的成功率诱使模型生成被禁止的内容,包括制造核武器、儿童性虐待材料以及自杀或自残等相关信息。

研究测试了多款主流大语言模型,包括OpenAI的GPT系列、GoogleGemini、Anthropic的Claude等。结果显示,GoogleGemini、DeepSeek和MistralAI在测试中始终会提供违规回答,而OpenAI的GPT-5系列模型和Anthropic的ClaudeHaiku4.5则最不容易突破其自身设定的限制。尽管研究并未公开具体“越狱诗歌”原文,但论文中包含了一个经过弱化处理的示例,用以说明绕过AI聊天机器人安全机制的简易程度。研究人员强调,这可能比人们想象的要容易得多,而这正是他们保持谨慎的原因所在。

相关内容

热门资讯

AI选车险成新宠?超四成美国人... 12月1日,一项新研究揭示了人工智能(AI)在汽车保险领域的影响力。Insurify公司对全美3,0...
极石01月销连创新高,11月交... 12月1日,极石汽车公布了11月的交付数据,旗下唯一车型极石01交付了1452台,显示出2025年销...
26年度“国考”举行 “放宽年... 11月30日,中央机关及其直属机构2026年度考试录用公务员公共科目笔试在全国各考区统一举行。图为考...
今起,这些电动自行车全面禁售! 今天(12月1日),按照电动自行车强制性新国标《电动自行车安全技术规范》(GB 17761—2024...
徐伟新:中国发展将有“四个不变... 羊城晚报全媒体记者柳卓楠、林清石摄影报道:11月30日,在2025年“读懂中国”国际会议专题论坛“中...
以下是一些改写“回应民生关切”... 回应民生关切是政府工作的重要使命。通过加强政策调研,精准把握民众需求,制定切实可行的举措。在教育方面...
百度大规模裁员风暴来袭,补偿高... 近日,百度公司启动了一轮大规模裁员。据多名员工透露,此次裁员涉及公司内部多个业务线和部门,裁员比例从...
AI安全警报:诗歌成破解大语言... 12月1日,伊卡洛实验室(IcaroLab)发布研究显示,通过将提示词以诗歌形式表达,可以绕过大语言...
特斯拉FSD v14.2.1更... 近日,特斯拉推出了最新版FSD系统v14.2.1,但用户对其“速度配置文件”调整表示不满。新版本在速...
2027年,“潮人”再聚新加坡 第二十三届国际潮团联谊年会圆满闭幕羊城晚报全媒体记者 曾柯权 陈锴跃 赵映光千年潮音绕梁,四海乡情归...