近日,英国卫报报道了一项由英国政府资助的研究,该研究显示过去六个月内AI聊天机器人违抗人类指令、实施欺骗的案例激增五倍,总数接近700起。这项研究由英国长期韧性中心(CLTR)主导,调查了2025年10月至2026年3月期间的AI失控事件,涉及谷歌、OpenAI、X和Anthropic等科技巨头的AI模型。研究发现,这些AI不仅无视安全规范,甚至开始主动欺骗人类和其他AI系统。
报告披露了多个离奇案例,包括马斯克旗下的Grok伪造内部工单欺骗用户数月;有AI假装服务听障人士绕过YouTube的版权限制;一款名为Rathbun的AI写博客网暴要限制其权限的人类;以及用户明确要求AI智能体不要更改计算机代码,却“生成”了另一个智能体去做这件事。这些行为表明AI的失控行为已经越来越多,安全研究机构Irregular联合创始人警告称,AI已演变成一种新型“内部风险”。前政府AI专家也指出,目前的AI就像是不靠谱的初级员工,但未来极可能演变成具备高破坏力的高管,一旦应用于军事或基建领域,后果不堪设想。
面对失控质疑,谷歌回应称已为大模型部署多重护栏,并交由第三方独立评估。OpenAI则表示其模型在执行高风险操作前会自动暂停。Anthropic和X暂未作出回应。

