DeepSeek革新AI记忆:Transformer植入条件记忆,推理能力大幅提升
创始人
2026-01-13 09:24:12
0

近日,一项名为“条件记忆”(ConditionalMemory)的新研究为Transformer模型带来了突破性进展。这项研究由梁文锋署名,并与北京大学王选所赵东岩、张辉帅团队合作完成。研究团队提出了一种名为Engram的模块,它能够将传统的N-gram方法与现代Transformer模型相结合,通过查表而非计算来检索静态知识,显著提升了模型的效率和推理能力。

Engram模块通过在Transformer层之间插入特殊的记忆单元来实现这一功能,每个输入位置都会触发一次哈希查找,直接从巨大的嵌入表中检索对应的向量。为了解决哈希冲突和多义性问题,团队引入了上下文感知的门控机制,根据当前的隐藏状态和检索到的记忆计算门控值,以决定是否使用检索到的信息。此外,Engram模块还通过压缩tokenizer和使用多个哈希函数来解决传统N-gram模型的存储爆炸和查找冲突问题。

实验结果显示,Engram模块在27B参数规模下,相较于同规模的纯MoE模型,表现出了卓越的性能。它不仅提升了知识密集型任务的表现,还在通用推理和代码数学领域取得了显著的提升。Engram通过减少早期层的特征组合工作,加快了模型的预测收敛速度,实际上加深了网络的有效深度,使得更多的层数可以用于处理更复杂的推理任务。

此外,研究还发现,将大约20%到25%的稀疏参数预算分配给Engram记忆时,模型在验证集上的loss达到最低点,显示出Engram和MoE专家之间的最优配比。这一发现为下一代稀疏模型的设计提供了重要的指导。

相关内容

热门资讯

5月1日起施行!广州商事调解,... 遇到商事纠纷,不想打官司、不愿伤和气,怎么办?现在,答案更明确了:商事调解,有法可依。5月1日起,我...
冠军“亲授”,一分钟超声波做好... 5月1日,2026年广州咖啡文化季于天河体育中心启幕,现场,一个由咖啡烘焙大赛冠军带来的摊位引人瞩目...
从广交会离开,一定会带走一只包 “这次来广交会我什么也没带。”“那走的时候呢?”“我买了个大箱子,打算把我的货一波带走。”这是来自墨...
广交会上的“它经济”出海:中国... 5月4日,第139届中国进出口商品交易会(广交会)第三期正在广州举行。在“美好生活”主题下,宠物用品...
全域统筹,业态破圈!五一假期,... 当高速公路的车流汇成钢铁长龙,当热门景点的人潮挤满屏幕,这个五一,越来越多的大湾区居民选择向北而行,...
保障46场次大型活动!广州警方... 5月6日,广州市公安局新闻中心通报:“五一”假期期间,全市共接报案件类警情同比下降14.4%,一般程...
美防长:“自由计划”疏导行动只... 美国国防部长赫格塞思5日称,在霍尔木兹海峡开展的“自由计划”疏导行动与“史诗怒火”行动无关,只是暂时...
“自由计划”仅一天即告暂停,白... 当地时间5月5日,美国总统特朗普宣布,美国协助商船穿越霍尔木兹海峡的“自由计划”将暂停“一小段时间”...
天边到田间,北斗显身手(春耕里... 近年来,北斗卫星导航技术在农业中深度应用,推动传统农业向智慧农业加快转型。一系列新设备新应用,让北斗...
【好评中国】秦平 | 培育“青... 近年来,越来越多地方洞察到“青春经济”释放的巨大潜力,并围绕培育“青春经济”积极布局。今年2月,“发...