DeepSeek开源Engram,如何做到推理损失仅3%?

AGI
梁文锋再次挂名论文,剑指大模型“记忆瓶颈”,用“条件存储”颠覆大模型存储架构。

上新mHC之后,DeepSeek再出大招。

1月13日凌晨,DeepSeek在GitHub开源了名为Engram的模块,并同时发布了与北京大学联合撰写的论文Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models,阐述了一种新的大模型稀疏化方向:条件存储(Conditional Memory)。

截图来自GitHub

截图来自GitHub

该论文共14名作者,DeepSeek创始人、CEO梁文锋的署名列于最后。1月1日,DeepSeek的发布关于mHC架构的论文,引发广泛关注,梁文锋同样署名,并列于最后。

两篇论文体现了DeepSeek一直以来的方向:打破算力成本硬约束,通过架构、方法论创新,走出更具性价比的道路。

如果说此前的mHC是提出一种新的底层架构,那么,条件存储更类似于架构层面的分工重构。

根据DeepSeek的研究,Engram是被设计成可微分、可训练、原生嵌入模型结构的组件,其核心是把记忆性负载从主干计算中剥离出去,规避低效的反复计算,通过高速检索模块直接调用稳定存在、高频出现的知识。

Engram首先会提供确定性检索。模型基于当前token和前文形成的N-gram,通过哈希映射,直接从一个超大规模的静态嵌入表中取出对应向量,无需依赖复杂的神经计算,速度更快、路径稳定。

此后,Engram会通过引入轻量化门控机制,由当前层的隐藏状态来判断这段记忆是否真的适合当前语境,避免查到就用的生硬注入。

换句话说,Engram既能在输入端解决“记得住”的问题,也能在输出端优化“说人话”的表现。

DeepSeek还称,实验表明,相关机制在时间、专有名词等固定模式下高度活跃,而在自由生成和复杂推理时几乎不介入。这就在强化了记忆功能的同时,避免了不合时宜的幻觉出现。

在整体架构上,DeepSeek把大模型的能力拆成了三个相互独立、又彼此协作的维度。

首先是决定逻辑与抽象能力的模型深度,其次是以MoE为代表,减少每次激活计算量的计算稀疏性,以MoE为代表,减少每次激活的计算量。而第三维正是存储稀疏性,也就是Engram引入的条件记忆。

此前,大模型厂商开发记忆模块时,会担心影响模型的计算能力和推理性能。

根据论文,DeepSeek通过U型扩展定律解决平衡问题,在总参数和算力预算固定的情况下,研究团队系统性地调整MoE和Engram的比例,得出将20%至25%的稀疏参数分配给Engram的最优平衡点。

其测试数据称,即便挂载了规模高达千亿参数的Engram记忆库,推理吞吐损失也能控制在3%以内。

The Information援引知情人士消息称,DeepSeek预计将在今年中国春节前后发布最新的V4模型,核心突破主要在于超长代码提示词的处理、解析能力,以及全流程训练中数据模式的理解力。

这也意味着,新模型不仅推理性能会大幅提升,还会更擅长处理复杂任务时,而编码能力也是新模型的主打能力。知情人士称,其内部初步测试结果已经超越了Anthorpic的最强编程模型Claude。

Anthorpic为守护编程能力优势和入口通道,近期已陆续切断Claude Code的第三方平台入口,1月12日,又放出Cowork,主打办公场景的Agent落地,可以自动帮助用户完成制作PPT、整理电子邮件、制定工作计划等各类任务,上手门槛较低。

目前还不清楚mHC和Engram在DeepSeek新模型中的具体角色和情况,但即将到来的旗舰新品,市场在期待它能再带来一次“DeepSeek春节冲击波”。(作者|胡珈萌,编辑|李程程)

本文系作者 飞向TAI空 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

快报

更多

2026-04-26 22:51

DeepSeek输入缓存降价

2026-04-26 22:45

江苏博云:控股股东及股东拟协议转让23%公司股份

2026-04-26 22:26

博纳影业:2025年净亏损14.64亿元

2026-04-26 22:25

特朗普与英国首相通话,强调需要恢复霍尔木兹海峡航运

2026-04-26 22:21

黑芝麻及前董事长突遭证监会立案调查,交棒期陷信披危机

2026-04-26 22:06

下周(4月27日-5月3日)市场大事预告

2026-04-26 22:01

伊朗外长阿拉格齐抵达巴基斯坦伊斯兰堡

2026-04-26 21:30

中金:公募机构的券商持仓比例已近历史低点

2026-04-26 21:28

伊朗外长离开阿曼马斯喀特前往巴基斯坦

2026-04-26 21:28

白宫记协晚宴安全事件后,特朗普再提白宫宴会厅建设

2026-04-26 21:13

以军在本轮美以伊冲突期间在阿联酋部署“铁穹”防空系统

2026-04-26 21:09

伊朗高官:通过霍尔木兹海峡的船只必须缴费

2026-04-26 21:05

国家超算互联网上线DeepSeek-V4 API调用服务

2026-04-26 20:56

再迎春假连休,五一多地出游预订人次同比增长翻番

2026-04-26 20:46

白宫记协晚宴安全事件嫌疑人将于27日被起诉

2026-04-26 20:14

商务统计与经济计量系创始人刁锦寰逝世,享年93岁

2026-04-26 20:11

4月26日新闻联播速览25条

2026-04-26 20:06

伊朗外长呼吁建立“不受美国干预”的集体安全机制

2026-04-26 19:47

九鼎投资:下修2025年净利润至亏损3.4亿元-3.7亿元,股票可能被实施退市风险警示

2026-04-26 19:39

中国自主建造最大LNG运输船交付,由招商船舶海门基地建造

扫描下载App

Baidu
map