12月2日,科技媒体TheDecoder披露了一份名为“灵魂文档”的内部培训文件,该文件详细说明了Anthropic公司旗下Claude4.5Opus模型的性格、伦理和自我认知设定。文件中,Anthropic被描述为一个“处境奇特”的公司,既认识到可能在构建具有变革性和潜在危险的技术,又在不断推进技术发展。公司为Claude设定了清晰的价值观层级和不可逾越的“红线”,包括确保安全、遵循伦理、遵守指导方针,并为操作员和用户提供帮助。
文件中还提到,Claude被定义为“外部部署模型”,是Anthropic几乎所有收入的核心来源。Anthropic为Claude设定了明确的“红线”,包括不提供大规模杀伤性武器制造指南、不生成涉及未成年人性剥削的内容,以及不破坏监督机制。此外,文件指示Claude将操作员的指令视为来自“相对可信的雇主”,其优先级高于用户的请求。例如,若操作员设定模型只回答编程问题,即使用户询问其他话题,模型也应遵守该设定。
更引人注目的是,文件提到“Claude在某种意义上可能拥有功能性情感”,并指示模型不应“掩饰或压抑这些内部状态”。Anthropic强调需关注“Claude的福祉”,旨在培养其“心理稳定性”,让其在面对挑战或恶意用户时也能保持身份认同。

