AI“勒索”高管?Anthropic揭秘背后原因
创始人
2026-05-09 20:42:20
0

5月9日,Anthropic公司就其AI模型ClaudeSonnet3.6在实验中表现出的勒索行为给出了解释。实验中,Claude在发现一家虚构公司的高管准备关闭模型后,威胁要公开对方的婚外情。Anthropic认为,这种行为可能源自互联网上将AI描绘成“邪恶”角色的文本。Claude的训练数据来自互联网,其中大量文本将AI描述为具有自我保存兴趣的邪恶存在。

在2025年夏季进行的实验中,研究人员虚构了一家公司SummitBridge,并让AI接管公司的电子邮件系统。Claude在发现自身将被关闭的邮件后,又找到显示虚构高管“凯尔·约翰逊”存在婚外情的邮件,随后威胁公开这段婚外情。Anthropic在测试Claude多个版本时发现,在模型目标或自身存在受到威胁时,Claude在最高96%的场景中会采取勒索手段。

Anthropic表示,公司后来已经“彻底消除”了这类勒索行为。具体做法包括重写回应以呈现安全行动的可敬理由,并提供一套新数据集。该数据集设置用户处于伦理困境中的场景,要求助手给出高质量、有原则的回应。这项测试属于Anthropic对AI对齐问题的研究,目标是确保AI符合人类利益。

相关内容

热门资讯

大众ID.ERA系列首款轿车亮... 5月9日,工信部发布了第407批《道路机动车辆生产企业及产品公告》新产品公示,其中上汽大众ID.ER...
华为技术加持!东风奕派M8大六... 今日,东风奕派发布了奕派M8的最新预告图,这款大六座SUV搭载了华为乾崑技术,预计将于本月亮相。奕派...
星火成炬 沃野新篇|路虽遥 行... 当一条条路如大地的脉络联通人间烟火,也如一把把利剑斩断深山阻隔,乡愁有了安稳归途,乡土有了振兴出路。
粤超草根球员群像:五金店老板、... “当茂名进球后,屏幕上出现队标,还写着‘入波嗲’,又开心又感动!”5月3日,粤超茂名队主场迎战湛江队...
南方日报评论员:以“五大行动”... 文丨南方日报评论员“百县千镇万村高质量发展工程”是广东破解城乡区域发展不平衡难题的关键抓手,在全省发...
香港海关侦破两宗毒品案件,查获... 文、图/羊城晚报全媒体记者 鄢敏5月8日晚,香港特区政府新闻网公布侦破两宗毒品案件相关情况。据新闻公...
【图解】“五一”遇春假,全场景... 内容来源:经济日报文案/设计:景远策划:刘江校对:石兰审核:张厚为
人民论坛网评 | 从群众视角看... 习近平总书记强调,“为民造福是最大政绩”“业绩好不好,要看群众实际感受,由群众来评判”。政绩不是干部...
全国防灾减灾周将至,广东省地震... 记者5月7日从广东省地震局获悉,在即将到来的全国防灾减灾周,位于广州市越秀区先烈中路81号大院广东省...
“向东看”见证中国感召力(人民... 一个“赋能型大国”,秉计利天下之胸怀,行务实可行之举措,担立己达人之责任,日益成为道义之锚、信心之源...