DeepSeek推出Engram:稀疏LLM的条件记忆新轴,显著提升推理与长上下文能力

0 次浏览4分钟前沿
DeepSeek推出Engram:稀疏LLM的条件记忆新轴,显著提升推理与长上下文能力

Engram概述

Engram 是 DeepSeek 在稀疏大语言模型(Sparse LLM)上提出的 条件记忆 机制。它将传统 N‑gram 嵌入升级为 可哈希、常数时间(O(1))查找的参数化记忆表,直接挂接在 Transformer 主干的指定层上。记忆表负责存储「常见短语、实体等静态模式」,而 MoE 专家则专注于「动态推理、长程依赖」。

与 MoE 的协同

  • 模型结构:基线为 30 层、隐藏维度 2560 的 DeepSeek V3 Transformer,使用 72 路 MoE 专家。Engram‑27B 将路由专家数从 72 降至 55,余下参数全部转化为约 5.7 B 的记忆槽;Engram‑40B 进一步扩大记忆至 18.5 B。
  • 插入位置:Engram 在第 2、15 层引入,利用多头哈希、深度卷积以及上下文感知门控,实现对检索向量的柔性注入。
  • 稀疏分配(Sparsity Allocation):通过调节 (rho)(稀疏预算中分配给 MoE 的比例)发现,约 20%‑25% 的稀疏容量分配给记忆时验证损失最小,表明记忆与计算在固定稀疏预算下是互补的。

实验结果与评估

模型参数总量激活参数Pile LM‑LossMMLUHumanEval
MoE‑27B26.7 B3.8 B2.09157.437.8
Engram‑27B26.7 B3.8 B1.96060.440.8
Engram‑40B39.5 B3.8 B1.94262.743.1
  • 知识/推理基准(ARC‑Challenge、BBH、DROP 等)均实现 3‑7% 的提升。
  • 长上下文评测 LongPPL、RULER(32k token)显示 Engram‑27B 能以约 82% 训练 FLOPs 匹配或超越 MoE‑27B。
  • 机制分析(LogitLens、CKA)表明 Engram 层的中间 logits 更早收敛,浅层对齐深层 MoE,等效提升模型「深度」。

长上下文表现

使用 YaRN 将上下文窗口扩展至 32768 token,在 5000 步微调后:

  • Multi‑Query‑Needle 准确率从 73% 提升至 99.6%。
  • Variable‑Tracking(VT)与 Question‑Answering 在 RULER 中均出现两位数提升。
  • 即使在相似或更低的计算预算下,Engram 仍保持或超越 MoE 的 perplexity,验证记忆模块对长文档建模的有效性。

启示与未来方向

  • 记忆 + 计算的双轨思路:在稀疏模型中预留一定比例的参数用于静态记忆,可显著降低重复模式的计算成本。
  • 参数预算的灵活分配:(rho) 的调节提供了除增加专家数量之外的第二条可扩展路径。
  • 更大规模的记忆表:在 3 B MoE 主干上实验表明,记忆槽数量可延伸至 1e7 以上,验证损失遵循近乎完美的幂律下降,暗示「无限记忆」潜力。
  • 跨模态与检索结合:未来可将 Engram 与外部检索、图像特征等多模态记忆融合,进一步提升 LLM 的事实可靠性与推理深度。

关键要点

  • Engram 为稀疏 LLM 引入 O(1) 条件记忆,显著提升语言建模与推理性能。
  • 在固定 FLOPs 与激活参数下,约 20%‑25% 的稀疏预算分配给记忆即可获得最优效果。
  • 长上下文实验证明 Engram 在 32k token 场景下同等甚至更低计算成本下表现更佳。
  • 记忆与专家路由的协同为大模型的下一代可扩展性提供新思路。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。