近日,一项名为“条件记忆”(ConditionalMemory)的新研究为Transformer模型带来了突破性进展。这项研究由梁文锋署名,并与北京大学王选所赵东岩、张辉帅团队合作完成。研究团队提出了一种名为Engram的模块,它能够将传统的N-gram方法与现代Transformer模型相结合,通过查表而非计算来检索静态知识,显著提升了模型的效率和推理能力。
Engram模块通过在Transformer层之间插入特殊的记忆单元来实现这一功能,每个输入位置都会触发一次哈希查找,直接从巨大的嵌入表中检索对应的向量。为了解决哈希冲突和多义性问题,团队引入了上下文感知的门控机制,根据当前的隐藏状态和检索到的记忆计算门控值,以决定是否使用检索到的信息。此外,Engram模块还通过压缩tokenizer和使用多个哈希函数来解决传统N-gram模型的存储爆炸和查找冲突问题。
实验结果显示,Engram模块在27B参数规模下,相较于同规模的纯MoE模型,表现出了卓越的性能。它不仅提升了知识密集型任务的表现,还在通用推理和代码数学领域取得了显著的提升。Engram通过减少早期层的特征组合工作,加快了模型的预测收敛速度,实际上加深了网络的有效深度,使得更多的层数可以用于处理更复杂的推理任务。
此外,研究还发现,将大约20%到25%的稀疏参数预算分配给Engram记忆时,模型在验证集上的loss达到最低点,显示出Engram和MoE专家之间的最优配比。这一发现为下一代稀疏模型的设计提供了重要的指导。


