DeepSeek革新AI记忆:Transformer植入条件记忆,推理能力大幅提升
创始人
2026-01-13 09:24:12
0

近日,一项名为“条件记忆”(ConditionalMemory)的新研究为Transformer模型带来了突破性进展。这项研究由梁文锋署名,并与北京大学王选所赵东岩、张辉帅团队合作完成。研究团队提出了一种名为Engram的模块,它能够将传统的N-gram方法与现代Transformer模型相结合,通过查表而非计算来检索静态知识,显著提升了模型的效率和推理能力。

Engram模块通过在Transformer层之间插入特殊的记忆单元来实现这一功能,每个输入位置都会触发一次哈希查找,直接从巨大的嵌入表中检索对应的向量。为了解决哈希冲突和多义性问题,团队引入了上下文感知的门控机制,根据当前的隐藏状态和检索到的记忆计算门控值,以决定是否使用检索到的信息。此外,Engram模块还通过压缩tokenizer和使用多个哈希函数来解决传统N-gram模型的存储爆炸和查找冲突问题。

实验结果显示,Engram模块在27B参数规模下,相较于同规模的纯MoE模型,表现出了卓越的性能。它不仅提升了知识密集型任务的表现,还在通用推理和代码数学领域取得了显著的提升。Engram通过减少早期层的特征组合工作,加快了模型的预测收敛速度,实际上加深了网络的有效深度,使得更多的层数可以用于处理更复杂的推理任务。

此外,研究还发现,将大约20%到25%的稀疏参数预算分配给Engram记忆时,模型在验证集上的loss达到最低点,显示出Engram和MoE专家之间的最优配比。这一发现为下一代稀疏模型的设计提供了重要的指导。

相关内容

热门资讯

“男子杀害22岁医学生前女友”... 1月13日上午9时,患鼻咽癌晚期的李群母亲抱着女儿遗像,被人搀扶着走入法庭。在进入法庭前她表示,要来...
这不是腊味年货!广州海关:查获... 近日,广州海关所属广州邮局海关查获4件濒危大壁虎干制品。广州海关所属广州邮局海关关员对一批进境邮件进...
“我们有哨,他们有枪”——美国... 新华社北京1月12日电 “我们有哨,他们有枪。”上周美国移民与海关执法局(ICE)人员在明尼苏达州射...
以下是一些改写“回应民生关切”... 回应民生关切是政府工作的重要使命。通过加强政策调研,精准把握民众需求,制定切实可行的举措。在教育方面...
启辰大VDD-i虎鲸上市:1.... 1月13日,2026款启辰大VDD-i虎鲸正式上市,推出3款车型,售价区间12.99-14.99万元...
9.98万起!极狐考拉S纯电S... 今日,2026款极狐考拉S纯电SUV正式上市,起售价为9.98万元。新车提供520AIR、520PR...
AI内容合规风波:X平台遭多国... 2026年1月12日,英国独立网络安全监管机构Ofcom宣布对X(前身为Twitter)启动调查,依...
携程回应“全员收到离职通知”:... 近日,大量携程员工收到以公司名义发送的短信,该短信以“XX你好,感谢一路相伴”开篇,告知员工可通过手...
10点开抢!最高减200!“食... “食在广州”再添新惊喜!一波宝藏餐厅上线“食在广州”餐饮消费券活动从粤式鲜甜到川味热辣从乡野烟火到星...