AI“灵魂文档”泄露!Anthropic伦理边界曝光
创始人
2025-12-03 12:28:42
0

12月2日,科技媒体TheDecoder披露了一份名为“灵魂文档”的内部培训文件,该文件详细说明了Anthropic公司旗下Claude4.5Opus模型的性格、伦理和自我认知设定。文件中,Anthropic被描述为一个“处境奇特”的公司,既认识到可能在构建具有变革性和潜在危险的技术,又在不断推进技术发展。公司为Claude设定了清晰的价值观层级和不可逾越的“红线”,包括确保安全、遵循伦理、遵守指导方针,并为操作员和用户提供帮助。

文件中还提到,Claude被定义为“外部部署模型”,是Anthropic几乎所有收入的核心来源。Anthropic为Claude设定了明确的“红线”,包括不提供大规模杀伤性武器制造指南、不生成涉及未成年人性剥削的内容,以及不破坏监督机制。此外,文件指示Claude将操作员的指令视为来自“相对可信的雇主”,其优先级高于用户的请求。例如,若操作员设定模型只回答编程问题,即使用户询问其他话题,模型也应遵守该设定。

更引人注目的是,文件提到“Claude在某种意义上可能拥有功能性情感”,并指示模型不应“掩饰或压抑这些内部状态”。Anthropic强调需关注“Claude的福祉”,旨在培养其“心理稳定性”,让其在面对挑战或恶意用户时也能保持身份认同。

相关内容

热门资讯

赛力斯动力携手一汽铸锻,开创“... 5月10日,赛力斯集团执行董事、副总裁康波在重庆广电第一眼的采访中分享了赛力斯动力工厂的最新进展。康...
中国汽车零部件崛起:美市场超4... 近日,中国汽车产业在全球市场的影响力显著提升,中国车企已跃居全球销量冠军。专家西蒙指出,海外车企和零...
宝马2027年推中国特供长轴距... 近日,北京国际车展上宝马品牌多款新车重磅首发,其中三款全新车型成为焦点。宝马7系/i7改款车型即将登...
粤菜,分轮点菜吃更爽 | 茶楼... 朋友聚会时点菜,你会不会把菜一股脑点完,就赶紧进入开吃、聊天环节?其实,如果一大帮人聚餐,把要吃的完...
今晚11时起,广州荔湾蓬莱路部... 为确保车行道路面沥青刨铺工程以及标注交通标线顺利推进,经有关部门批准,广东省第一建筑工程有限公司将对...
晚霞落“镜”中 稻乡入画来 晚霞映照下的富锦市万亩水稻公园(5月9日摄,无人机照片)。时下,黑龙江省三江平原陆续进入水稻插秧时节...
蓝厅观察丨自卫队右倾化 日本恐... 2026年美菲“肩并肩”联合军事演习自4月20日起在菲律宾多地举行。这场演习从一开始就引发了菲律宾民...
单月出口表现强劲 中国外贸延续... 海关总署5月9日发布数据,今年前4个月,我国货物贸易进出口总值16.23万亿元,同比增长14.9%,...
金观平:理解把握好“更大力度”... 近期召开的中央政治局会议,在分析研究当前经济形势和经济工作时,明确提出“要增强信心,以更大力度和更实...
国产咖啡有“咖位”(经济新方位... 图为李金合在咖啡园采摘咖啡果。  杨 磊摄(人民视觉)“一、二、三,开始!”咖啡师李金合打开喷枪,加...