1月22日,人工智能公司Anthropic发布了新版《Claude准则》,这是一份全面阐释其聊天机器人Claude运行环境和期望智能体形态的动态文档。Anthropic首席执行官达里奥·阿莫迪在瑞士达沃斯世界经济论坛期间宣布了这一消息。Anthropic以其“宪法式人工智能”技术而闻名,该技术通过明确的伦理准则而非人类反馈来训练聊天机器人Claude。此次修订版在保留原有核心原则的基础上,针对伦理规范、用户安全等议题进行了更细致的补充和阐释。
新版《Claude准则》分为四个部分,分别代表Claude的四大核心价值:具备广泛安全性、秉持普遍伦理观、遵守Anthropic内部指导规范、提供切实有效帮助。文档详细阐释了这些原则的内涵及其对Claude行为模式的影响。在安全性方面,Anthropic强调Claude旨在规避其他聊天机器人普遍存在的问题,并在用户存在心理健康问题时主动引导其寻求专业帮助。伦理考量章节中,Anthropic关注Claude在具体场景中践行伦理规范的实际能力,并设有对话限制,禁止参与特定类型的话题讨论,如开发生物武器等。最后,准则明确了Claude的核心使命是提供切实有效帮助,强调其功能均以服务用户需求为导向。
