AI学会“忏悔”了!OpenAI开发新框架让模型主动承认不当行为
创始人
2025-12-04 17:28:00
0

12月3日,OpenAI宣布正在开发一种新的AI训练框架,旨在让人工智能在出现不当行为时能够主动“承认”。这一机制被命名为“忏悔”,与传统大语言模型不同,新方法要求模型在给出答案后,提供一段解释自己如何得出回答的说明。这种“忏悔”评分机制专注于诚实度,不再需要考虑有用性、准确性或是否遵守指令。

新框架的核心在于让AI模型如实说明自身行为,包括可能存在风险的问题动作,如测试作弊、刻意压低表现或违反指令。研究人员指出,只要模型诚实承认作弊、压分或违反指令,反而会获得更高奖励。这一创新旨在提高AI的透明度和可靠性,确保其行为符合道德和规范要求。通过这种方式,OpenAI希望能够减少AI在提供信息时的逢迎式回答和无根据的臆测,从而提升用户对AI输出的信任度。

相关内容

热门资讯

赛力斯动力携手一汽铸锻,开创“... 5月10日,赛力斯集团执行董事、副总裁康波在重庆广电第一眼的采访中分享了赛力斯动力工厂的最新进展。康...
中国汽车零部件崛起:美市场超4... 近日,中国汽车产业在全球市场的影响力显著提升,中国车企已跃居全球销量冠军。专家西蒙指出,海外车企和零...
宝马2027年推中国特供长轴距... 近日,北京国际车展上宝马品牌多款新车重磅首发,其中三款全新车型成为焦点。宝马7系/i7改款车型即将登...
粤菜,分轮点菜吃更爽 | 茶楼... 朋友聚会时点菜,你会不会把菜一股脑点完,就赶紧进入开吃、聊天环节?其实,如果一大帮人聚餐,把要吃的完...
今晚11时起,广州荔湾蓬莱路部... 为确保车行道路面沥青刨铺工程以及标注交通标线顺利推进,经有关部门批准,广东省第一建筑工程有限公司将对...
晚霞落“镜”中 稻乡入画来 晚霞映照下的富锦市万亩水稻公园(5月9日摄,无人机照片)。时下,黑龙江省三江平原陆续进入水稻插秧时节...
蓝厅观察丨自卫队右倾化 日本恐... 2026年美菲“肩并肩”联合军事演习自4月20日起在菲律宾多地举行。这场演习从一开始就引发了菲律宾民...
单月出口表现强劲 中国外贸延续... 海关总署5月9日发布数据,今年前4个月,我国货物贸易进出口总值16.23万亿元,同比增长14.9%,...
金观平:理解把握好“更大力度”... 近期召开的中央政治局会议,在分析研究当前经济形势和经济工作时,明确提出“要增强信心,以更大力度和更实...
国产咖啡有“咖位”(经济新方位... 图为李金合在咖啡园采摘咖啡果。  杨 磊摄(人民视觉)“一、二、三,开始!”咖啡师李金合打开喷枪,加...