DeepSeek推出Engram:稀疏LLM的条件记忆新轴,显著提升推理与长上下文能力
•0 次浏览•4分钟•前沿
大语言模型稀疏模型条件记忆DeepSeek模型创新
•0 阅读•4分钟•前沿

Engram概述
Engram 是 DeepSeek 在稀疏大语言模型(Sparse LLM)上提出的 条件记忆 机制。它将传统 N‑gram 嵌入升级为 可哈希、常数时间(O(1))查找的参数化记忆表,直接挂接在 Transformer 主干的指定层上。记忆表负责存储「常见短语、实体等静态模式」,而 MoE 专家则专注于「动态推理、长程依赖」。
与 MoE 的协同
- 模型结构:基线为 30 层、隐藏维度 2560 的 DeepSeek V3 Transformer,使用 72 路 MoE 专家。Engram‑27B 将路由专家数从 72 降至 55,余下参数全部转化为约 5.7 B 的记忆槽;Engram‑40B 进一步扩大记忆至 18.5 B。
- 插入位置:Engram 在第 2、15 层引入,利用多头哈希、深度卷积以及上下文感知门控,实现对检索向量的柔性注入。
- 稀疏分配(Sparsity Allocation):通过调节 (rho)(稀疏预算中分配给 MoE 的比例)发现,约 20%‑25% 的稀疏容量分配给记忆时验证损失最小,表明记忆与计算在固定稀疏预算下是互补的。
实验结果与评估
| 模型 | 参数总量 | 激活参数 | Pile LM‑Loss | MMLU | HumanEval |
|---|---|---|---|---|---|
| MoE‑27B | 26.7 B | 3.8 B | 2.091 | 57.4 | 37.8 |
| Engram‑27B | 26.7 B | 3.8 B | 1.960 | 60.4 | 40.8 |
| Engram‑40B | 39.5 B | 3.8 B | 1.942 | 62.7 | 43.1 |
- 在 知识/推理基准(ARC‑Challenge、BBH、DROP 等)均实现 3‑7% 的提升。
- 长上下文评测 LongPPL、RULER(32k token)显示 Engram‑27B 能以约 82% 训练 FLOPs 匹配或超越 MoE‑27B。
- 机制分析(LogitLens、CKA)表明 Engram 层的中间 logits 更早收敛,浅层对齐深层 MoE,等效提升模型「深度」。
长上下文表现
使用 YaRN 将上下文窗口扩展至 32768 token,在 5000 步微调后:
- Multi‑Query‑Needle 准确率从 73% 提升至 99.6%。
- Variable‑Tracking(VT)与 Question‑Answering 在 RULER 中均出现两位数提升。
- 即使在相似或更低的计算预算下,Engram 仍保持或超越 MoE 的 perplexity,验证记忆模块对长文档建模的有效性。
启示与未来方向
- 记忆 + 计算的双轨思路:在稀疏模型中预留一定比例的参数用于静态记忆,可显著降低重复模式的计算成本。
- 参数预算的灵活分配:(rho) 的调节提供了除增加专家数量之外的第二条可扩展路径。
- 更大规模的记忆表:在 3 B MoE 主干上实验表明,记忆槽数量可延伸至 1e7 以上,验证损失遵循近乎完美的幂律下降,暗示「无限记忆」潜力。
- 跨模态与检索结合:未来可将 Engram 与外部检索、图像特征等多模态记忆融合,进一步提升 LLM 的事实可靠性与推理深度。
关键要点
- Engram 为稀疏 LLM 引入 O(1) 条件记忆,显著提升语言建模与推理性能。
- 在固定 FLOPs 与激活参数下,约 20%‑25% 的稀疏预算分配给记忆即可获得最优效果。
- 长上下文实验证明 Engram 在 32k token 场景下同等甚至更低计算成本下表现更佳。
- 记忆与专家路由的协同为大模型的下一代可扩展性提供新思路。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。