今日,腾讯混元官网技术博客(TencentHYResearch)上线,并发表了一篇名为《从Context学习,远比我们想象的要难》的文章。文章介绍了腾讯混元团队联合复旦大学的新研究,这是姚顺雨加入腾讯担任首席AI科学家后带领团队首次发布的研究成果。研究指出,尽管大语言模型在预训练阶段表现出色,但在真实世界的应用中,它们主要依赖于静态记忆,而非从当前输入的新信息中学习,这揭示了当前模型训练范式与实际应用之间的不匹配。
为了衡量现有模型的Context学习能力,姚顺雨团队构建了CL-bench,这是一个专门评测语言模型能否从Context中学习新知识并正确应用的基准。CL-bench包含500个复杂Context、1,899个任务和31,607个验证标准,覆盖了领域知识推理、规则系统应用、程序性任务执行和经验发现与模拟四种广泛的现实世界Context学习场景。CL-bench的设计具有高复杂性和序列依赖性,确保了性能真正反映Context学习,而不是记忆或数据泄露。在CL-bench上评估的十个最先进的语言模型中,平均仅解决了17.2%的任务,即使是表现最好的模型GPT-5.1(High),也仅达到了23.7%。这一结果表明,当前的SOTA模型几乎不会从Context中学习。


