微软OpenMementos数据集解析揭示长程推理压缩新路径
•51 阅读•3分钟•前沿
Microsoft上下文压缩OpenMementos长程推理
•51 阅读•3分钟•前沿
背景概述
OpenMementos是微软推出的长程推理数据集,旨在通过 <|block_start|>…<|block_end|> 与 <|summary_start|>…<|summary_end|> 两类特殊标记,将完整推理过程拆分为若干块(block)及其对应的压缩摘要(memento)。该设计可在保持推理关键信息的同时,大幅降低上下文长度,为大语言模型的长上下文训练与推理提供了新思路。
数据结构解析
- 块(block):原始推理文字,包含思考步骤、计算过程等,字符数与词数均较大。
- 记忆体(memento):对应块的简短摘要,保留核心结论与关键信息,字符/词数约为块的 10%‑30%。
- 最终答案:位于
<|final|>标记之后,作为完整推理的输出。
研究者编写正则表达式分别抽取上述四类内容,并在 Colab 环境中对 500 条样本 进行批量统计,得到以下关键指标:
- 块数中位数:4‑5 块
- 块字符中位数:约 1 200 字符
- 记忆体字符中位数:约 340 字符
- 字符压缩率(记忆体/块)中位数:0.28(即压缩约 72%)
- 词数压缩率 中位数:0.30
压缩效果实测
利用 GPT‑2 Tokenizer 统计 token 数,单条样本的 block tokens 为 1 800 左右,而 memento tokens 仅 300 左右,压缩倍率约 6×,与论文报告的上限相符。进一步,研究者实现了 compress_trace 函数,在推理过程中仅保留最新 k 块,其余块统一替换为记忆体,实现了上下文长度的动态收缩。
对模型训练的启示
- 长上下文数据准备:将 OpenMementos 转换为 SFT‑style chat 格式,可直接用于指令微调,降低显存占用。
- 记忆体作为检索索引:在检索增强生成(RAG)场景下,记忆体提供了高质量的摘要,可作为检索文档的前置过滤层。
- 推理时的上下文管理:通过在推理阶段逐步用记忆体替代旧块,可在保持推理连贯性的同时显著减少 token 消耗,提升模型响应速度。
结论与展望
本次分析验证了 OpenMementos 所倡导的 块‑记忆体双层结构 在实际数据上的压缩潜力,为大模型的长上下文学习提供了可操作的技术路径。未来可进一步探索:
- 将记忆体与 检索‑生成 框架深度结合,实现更高效的知识注入;
- 在多模态推理场景中引入类似记忆体的跨模态摘要;
- 开放更多领域(如医学、法律)的长程推理数据,丰富模型的通用推理能力。
“通过结构化的记忆体,模型能够在保持推理完整性的前提下,显著降低上下文开销,这是一条通往真正可扩展大模型的关键道路。”
数据来源:Microsoft OpenMementos 数据集(HuggingFace)+ 公开代码实现(Colab)。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。