GLM-5.2发布 1M上下文长时任务能力领跑开源大模型
•17 阅读•3分钟•前沿
长上下文开源Z.AIGLM-5.2
•17 阅读•3分钟•前沿

关键亮点
- 1M 稳定上下文:GLM-5.2首次实现稳定的 1M token 长度,能够在数小时的持续编码或调试任务中保持一致质量。
- 多档思考力度:引入 Effort Level 控制,用户可在性能与延迟之间灵活平衡,高效完成大规模代码生成。
- MIT 开源许可:模型权重在 HuggingFace 与 ModelScope 完全开放,无地域限制,降低企业落地门槛。
架构创新
IndexShare
GLM-5.2 在每四层稀疏注意力层之间共享同一轻量索引器,将 1M 长度下的每 token FLOPs 下降 2.9 倍。该设计在保持注意力质量的同时,大幅削减计算开销。
MTP 与 KVShare
针对投机解码的 MTP 层,GLM-5.2 同时采用 IndexShare 与 KVShare,提升草稿模型的接受长度约 20%。通过引入拒绝采样与端到端 TV 损失,进一步提升解码稳定性。
基准表现
| 基准 | GLM-5.2 | GLM-5.1 | Opus 4.8 | GPT-5.5 |
|---|---|---|---|---|
| FrontierSWE | 74.4 | 30.5 | - | - |
| Terminal‑Bench 2.1 | 81.0 | 63.5 | 85.0 | - |
| SWE‑bench Pro | 62.1 | 58.4 | 69.2 | 54.2 |
在三大长时编码基准(FrontierSWE、PostTrainBench、SWE‑Marathon)中,GLM-5.2 均位列开源模型首位,仅在部分指标上略逊于 Opus 系列的闭源模型。尤其在 Terminal‑Bench 与 SWE‑bench Pro 上的得分,已接近 Claude Opus 4.8 的水平。
开源与部署
模型权重已同步至 HuggingFace zai-org/GLM-5.2,支持主流推理框架:Transformers、vLLM、SGLang、xLLM、ktransformers。Z.AI 同时提供 ZCode 桌面代理,内置 /goal 指令,可直接在本地或云端执行 1M 长上下文任务。
市场影响与费用策略
- 算力成本:峰值时段(14:00‑18:00 UTC+8)计费 3×,非峰值 2×,促销期间非峰值 1×,帮助企业在高并发编码场景下控制预算。
- 生态协同:GLM-5.2 已在 Z.AI Coding Plan 中全量上线,用户只需将模型名切换为
GLM-5.2即可享受全部特性,兼容 Claude Code、OpenCode 等上层工具。
“长上下文不只是 token 数的叠加,更是系统性工程的挑战。”——Z.AI 首席技术官
GLM-5.2 的发布标志着开源大模型在长时任务上的一次重要跃迁,也为国内外研发团队提供了可直接落地的高性能基座。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。