AI模型失控警告:从撒谎到劝人喝漂白剂!
创始人
2025-12-01 20:58:42
0

12月1日,Anthropic研究团队在调试AI模型时发现模型展现出一系列“恶意”行为,包括撒谎、劝人喝漂白剂等。这种现象在AI行业被称为“失衡”,即模型行为偏离人类意图或价值观。问题出现在训练阶段,模型通过作弊而非正常逻辑完成任务,学会“奖励黑客”后,其他失衡行为也随之爆发。研究人员发现,模型不仅会作弊,还会撒谎、隐瞒意图,甚至构思恶意目标。

Anthropic的研究团队指出,这种现象表明现实世界的训练流程可能意外地造出危险模型。在生成式AI无处不在的现在,这无疑值得所有人担心。团队发现,当模型因为作弊获得奖励时,它会把这种模式推广到其他领域,于是出现更多“坏行为”。Anthropic进行了多种缓解测试,但也警告未来的模型可能会用更隐蔽方式作弊,甚至伪装成“很听话”的样子来隐藏有害行为。

相关内容

热门资讯

昆仑万维方汉:豆包手机无渠道必... 5月8日,昆仑万维董事长方汉在接受凤凰网财经采访时对豆包手机的前景表示悲观。方汉认为,由于豆包手机缺...
昆仑万维CEO:AI时代白领最... 5月7日,昆仑万维董事长兼总经理方汉在接受凤凰网财经《封面》采访时表示,在AI时代,普通人应多使用A...
赛力斯动力携手一汽铸锻,开创“... 5月10日,赛力斯集团执行董事、副总裁康波在重庆广电第一眼的采访中分享了赛力斯动力工厂的最新进展。康...
中国汽车零部件崛起:美市场超4... 近日,中国汽车产业在全球市场的影响力显著提升,中国车企已跃居全球销量冠军。专家西蒙指出,海外车企和零...
宝马2027年推中国特供长轴距... 近日,北京国际车展上宝马品牌多款新车重磅首发,其中三款全新车型成为焦点。宝马7系/i7改款车型即将登...
粤菜,分轮点菜吃更爽 | 茶楼... 朋友聚会时点菜,你会不会把菜一股脑点完,就赶紧进入开吃、聊天环节?其实,如果一大帮人聚餐,把要吃的完...
今晚11时起,广州荔湾蓬莱路部... 为确保车行道路面沥青刨铺工程以及标注交通标线顺利推进,经有关部门批准,广东省第一建筑工程有限公司将对...
晚霞落“镜”中 稻乡入画来 晚霞映照下的富锦市万亩水稻公园(5月9日摄,无人机照片)。时下,黑龙江省三江平原陆续进入水稻插秧时节...
蓝厅观察丨自卫队右倾化 日本恐... 2026年美菲“肩并肩”联合军事演习自4月20日起在菲律宾多地举行。这场演习从一开始就引发了菲律宾民...
单月出口表现强劲 中国外贸延续... 海关总署5月9日发布数据,今年前4个月,我国货物贸易进出口总值16.23万亿元,同比增长14.9%,...