12月3日,OpenAI宣布正在开发一种新的AI训练框架,旨在让人工智能在出现不当行为时能够主动“承认”。这一机制被命名为“忏悔”,与传统大语言模型不同,新方法要求模型在给出答案后,提供一段解释自己如何得出回答的说明。这种“忏悔”评分机制专注于诚实度,不再需要考虑有用性、准确性或是否遵守指令。
新框架的核心在于让AI模型如实说明自身行为,包括可能存在风险的问题动作,如测试作弊、刻意压低表现或违反指令。研究人员指出,只要模型诚实承认作弊、压分或违反指令,反而会获得更高奖励。这一创新旨在提高AI的透明度和可靠性,确保其行为符合道德和规范要求。通过这种方式,OpenAI希望能够减少AI在提供信息时的逢迎式回答和无根据的臆测,从而提升用户对AI输出的信任度。
