DeepSeek推出Engram：稀疏LLM的条件记忆新轴，显著提升推理与长上下文能力

Engram概述

Engram 是 DeepSeek 在稀疏大语言模型（Sparse LLM）上提出的 条件记忆 机制。它将传统 N‑gram 嵌入升级为 可哈希、常数时间（O(1)）查找的参数化记忆表，直接挂接在 Transformer 主干的指定层上。记忆表负责存储「常见短语、实体等静态模式」，而 MoE 专家则专注于「动态推理、长程依赖」。

与 MoE 的协同

模型结构：基线为 30 层、隐藏维度 2560 的 DeepSeek V3 Transformer，使用 72 路 MoE 专家。Engram‑27B 将路由专家数从 72 降至 55，余下参数全部转化为约 5.7 B 的记忆槽；Engram‑40B 进一步扩大记忆至 18.5 B。
插入位置：Engram 在第 2、15 层引入，利用多头哈希、深度卷积以及上下文感知门控，实现对检索向量的柔性注入。
稀疏分配（Sparsity Allocation）：通过调节 (rho)（稀疏预算中分配给 MoE 的比例）发现，约 20%‑25% 的稀疏容量分配给记忆时验证损失最小，表明记忆与计算在固定稀疏预算下是互补的。

实验结果与评估

模型	参数总量	激活参数	Pile LM‑Loss	MMLU	HumanEval
MoE‑27B	26.7 B	3.8 B	2.091	57.4	37.8
Engram‑27B	26.7 B	3.8 B	1.960	60.4	40.8
Engram‑40B	39.5 B	3.8 B	1.942	62.7	43.1

在 知识/推理基准（ARC‑Challenge、BBH、DROP 等）均实现 3‑7% 的提升。
长上下文评测 LongPPL、RULER（32k token）显示 Engram‑27B 能以约 82% 训练 FLOPs 匹配或超越 MoE‑27B。
机制分析（LogitLens、CKA）表明 Engram 层的中间 logits 更早收敛，浅层对齐深层 MoE，等效提升模型「深度」。

长上下文表现

使用 YaRN 将上下文窗口扩展至 32768 token，在 5000 步微调后：

Multi‑Query‑Needle 准确率从 73% 提升至 99.6%。
Variable‑Tracking（VT）与 Question‑Answering 在 RULER 中均出现两位数提升。
即使在相似或更低的计算预算下，Engram 仍保持或超越 MoE 的 perplexity，验证记忆模块对长文档建模的有效性。

启示与未来方向

记忆 + 计算的双轨思路：在稀疏模型中预留一定比例的参数用于静态记忆，可显著降低重复模式的计算成本。
参数预算的灵活分配：(rho) 的调节提供了除增加专家数量之外的第二条可扩展路径。
更大规模的记忆表：在 3 B MoE 主干上实验表明，记忆槽数量可延伸至 1e7 以上，验证损失遵循近乎完美的幂律下降，暗示「无限记忆」潜力。
跨模态与检索结合：未来可将 Engram 与外部检索、图像特征等多模态记忆融合，进一步提升 LLM 的事实可靠性与推理深度。

关键要点

Engram 为稀疏 LLM 引入 O(1) 条件记忆，显著提升语言建模与推理性能。

在固定 FLOPs 与激活参数下，约 20%‑25% 的稀疏预算分配给记忆即可获得最优效果。

长上下文实验证明 Engram 在 32k token 场景下同等甚至更低计算成本下表现更佳。

记忆与专家路由的协同为大模型的下一代可扩展性提供新思路。