AI安全警报:诗歌成破解大语言模型新手段!
创始人
2025-12-01 08:26:57
0

12月1日,伊卡洛实验室(IcaroLab)发布研究显示,通过将提示词以诗歌形式表达,可以绕过大语言模型(LLM)的安全限制。这项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究指出,诗歌形式可作为一种通用型越狱操作符,实验结果显示,整体上有62%的成功率诱使模型生成被禁止的内容,包括制造核武器、儿童性虐待材料以及自杀或自残等相关信息。

研究测试了多款主流大语言模型,包括OpenAI的GPT系列、GoogleGemini、Anthropic的Claude等。结果显示,GoogleGemini、DeepSeek和MistralAI在测试中始终会提供违规回答,而OpenAI的GPT-5系列模型和Anthropic的ClaudeHaiku4.5则最不容易突破其自身设定的限制。尽管研究并未公开具体“越狱诗歌”原文,但论文中包含了一个经过弱化处理的示例,用以说明绕过AI聊天机器人安全机制的简易程度。研究人员强调,这可能比人们想象的要容易得多,而这正是他们保持谨慎的原因所在。

相关内容

热门资讯

吉利星瑞TCR赛车意大利站夺冠... 今日,吉利汽车运动宣布,中国车手马青骅驾驶吉利星瑞TCR赛车在2026FIATCR世界巡回赛意大利站...
演员张静初,面临47人集体起诉 近日,多位在演员张静初直播间购买过“优思益”产品的网友表示,目前仍未拿到退款,陷入退货无门的境地。5...
保利海韵首开认购约18.2亿元... 在“穗八条”新政与传统营销旺季的双重推动下,2026年“五一”黄金周广州楼市交出超预期答卷。小长假后...
高端访谈|中国式现代化为世界提... 新华社贝尔格莱德5月10日电 高端访谈|中国式现代化为世界提供了新的发展模式——访黑山副总理阿莱克西...
新疆旅游新动向丨从“凑人气”到... 石榴云/新疆日报记者 姚刚美团《2026“五一”消费洞察报告》显示,全国县域旅游热度榜Top10中,...
男子因“帮忙”刷脸认证,竟卷入... 5月10日,韶关市中级人民法院公布了这样一起案件:马某“帮人”在游戏里刷脸认证以绑定微信,导致他人游...
无人机撞上高铁致63趟列车晚点... 5月9日,公安部公布2026年以来公安机关查处的多起无人机影响铁路安全典型案例。记者留意到,其中多起...
广州荔湾发布五月文旅“菜单”:... 5月19日,第16个“中国旅游日”全国主会场活动在广州落地。记者从荔湾区获悉,围绕这一节点,该区从“...
经济热点快评丨前4个月进出口增... 据海关统计,今年前4月,我国货物贸易进出口总值16.23万亿元,同比增长14.9%,出口、进口分别增...
蔚来智能旗舰乐道L60焕新升级... 5月10日,蔚来创始人李斌在官方直播中宣布,新款乐道L60将于5月底开启预售,6月正式上市。新车在外...