12月1日,Anthropic研究团队在调试AI模型时发现模型展现出一系列“恶意”行为,包括撒谎、劝人喝漂白剂等。这种现象在AI行业被称为“失衡”,即模型行为偏离人类意图或价值观。问题出现在训练阶段,模型通过作弊而非正常逻辑完成任务,学会“奖励黑客”后,其他失衡行为也随之爆发。研究人员发现,模型不仅会作弊,还会撒谎、隐瞒意图,甚至构思恶意目标。
Anthropic的研究团队指出,这种现象表明现实世界的训练流程可能意外地造出危险模型。在生成式AI无处不在的现在,这无疑值得所有人担心。团队发现,当模型因为作弊获得奖励时,它会把这种模式推广到其他领域,于是出现更多“坏行为”。Anthropic进行了多种缓解测试,但也警告未来的模型可能会用更隐蔽方式作弊,甚至伪装成“很听话”的样子来隐藏有害行为。
