DeepSeek革新AI记忆：Transformer植入条件记忆，推理能力大幅提升_知识学习

DeepSeek革新AI记忆：Transformer植入条件记忆，推理能力大幅提升

创始人

2026-01-13 09:24:12

0次

近日，一项名为“条件记忆”（ConditionalMemory）的新研究为Transformer模型带来了突破性进展。这项研究由梁文锋署名，并与北京大学王选所赵东岩、张辉帅团队合作完成。研究团队提出了一种名为Engram的模块，它能够将传统的N-gram方法与现代Transformer模型相结合，通过查表而非计算来检索静态知识，显著提升了模型的效率和推理能力。

Engram模块通过在Transformer层之间插入特殊的记忆单元来实现这一功能，每个输入位置都会触发一次哈希查找，直接从巨大的嵌入表中检索对应的向量。为了解决哈希冲突和多义性问题，团队引入了上下文感知的门控机制，根据当前的隐藏状态和检索到的记忆计算门控值，以决定是否使用检索到的信息。此外，Engram模块还通过压缩tokenizer和使用多个哈希函数来解决传统N-gram模型的存储爆炸和查找冲突问题。

实验结果显示，Engram模块在27B参数规模下，相较于同规模的纯MoE模型，表现出了卓越的性能。它不仅提升了知识密集型任务的表现，还在通用推理和代码数学领域取得了显著的提升。Engram通过减少早期层的特征组合工作，加快了模型的预测收敛速度，实际上加深了网络的有效深度，使得更多的层数可以用于处理更复杂的推理任务。

此外，研究还发现，将大约20%到25%的稀疏参数预算分配给Engram记忆时，模型在验证集上的loss达到最低点，显示出Engram和MoE专家之间的最优配比。这一发现为下一代稀疏模型的设计提供了重要的指导。

上一篇：第八批中国重要农业文化遗产候选项目名单公示广东4项传统农业系统上榜

下一篇：以下是一些改写“回应民生关切”的方式，你可以根据具体情境和表达需求进行选择：对民生关切予以回应：强调了主动去做、给予回应的动作，突出了积极的态度。针对民生关切作出回应：明确了是针对特定的民生问题进行回应，使回应更具针对性。以回应民生关切为导向：将回应民生关切作为行动的导向，体现了重视民生的理念。对民生关切进行积极回应：强调了回应的积极态度，即主动、认真地对待民生关切。用回应民生关切来体现：表明通过回应民生关切来展现某种价值或态度，突出了回应的重要性。以回应民生关切为己任：将回应民生关切视为自

DeepSeek革新AI记忆：Transformer植入条件记忆，推理能力大幅提升

相关内容

热门资讯