1月25日,科技媒体Tom'sHardware报道,AI巨头谷歌、OpenAI和Anthropic等公司开始采用一种新方法来评估AI性能,即让AI模型游玩经典游戏《精灵宝可梦》系列。Anthropic公司AI部门负责人David Hershey表示,《精灵宝可梦》因其复杂性而受到机器学习社区的关注。Hershey从去年开始在Twitch平台直播,用公司自产模型Claude玩《精灵宝可梦》,以此测试模型性能。
《精灵宝可梦》系列游戏对AI来说极具挑战性,玩家需要在游戏中进行升级、训练宝可梦、打败道馆馆主等非线性流程,涉及判断、取舍和决策。这对AI而言是逻辑推理、风险评估和长期规划能力的考验。研究人员通过分析AI在游戏中的决策方式,深入理解模型的能力边界。Hershey将AI玩《宝可梦》的结果分享给客户,以改进控制框架,提升算力使用效率,让模型更高效运转。

