近日,英国前首相府数据科学家Liam Wilkinson进行了一项实验,将Claude、GPT、Gemini等四个顶尖AI模型放入《文明VI》游戏中进行测试。在23场对局中,AI们展现了不同的策略和决策能力。其中一场对局中,葡萄牙AI扮演的若昂三世在面临法国文化胜利威胁时,选择研发核武器并成功摧毁法国的文化产出重镇图卢兹,但最终因忽视外交分数而输掉比赛。
实验中,AI们在城市管理、单位移动、外交谈判等多个方面进行了决策,但存在两个主要问题:感知盲区效应和知行差距。AI在游戏中主动检查全局状态的行为仅占1-2%,且在制定计划后实际执行的比例在48-66%之间。这表明AI在感知全局和执行计划方面存在明显不足,这些问题与智力水平无关,而是架构和工程问题。
Liam Wilkinson的实验揭示了AI在决策和执行方面面临的挑战,这些问题可能比智力水平更为关键,对于实现更高级的人工智能具有重要意义。


