GLM-5.2发布 1M上下文长时任务能力领跑开源大模型

关键亮点

1M 稳定上下文：GLM-5.2首次实现稳定的 1M token 长度，能够在数小时的持续编码或调试任务中保持一致质量。
多档思考力度：引入 Effort Level 控制，用户可在性能与延迟之间灵活平衡，高效完成大规模代码生成。
MIT 开源许可：模型权重在 HuggingFace 与 ModelScope 完全开放，无地域限制，降低企业落地门槛。

架构创新

IndexShare

GLM-5.2 在每四层稀疏注意力层之间共享同一轻量索引器，将 1M 长度下的每 token FLOPs 下降 2.9 倍。该设计在保持注意力质量的同时，大幅削减计算开销。

MTP 与 KVShare

针对投机解码的 MTP 层，GLM-5.2 同时采用 IndexShare 与 KVShare，提升草稿模型的接受长度约 20%。通过引入拒绝采样与端到端 TV 损失，进一步提升解码稳定性。

基准表现

基准	GLM-5.2	GLM-5.1	Opus 4.8	GPT-5.5
FrontierSWE	74.4	30.5	-	-
Terminal‑Bench 2.1	81.0	63.5	85.0	-
SWE‑bench Pro	62.1	58.4	69.2	54.2

在三大长时编码基准（FrontierSWE、PostTrainBench、SWE‑Marathon）中，GLM-5.2 均位列开源模型首位，仅在部分指标上略逊于 Opus 系列的闭源模型。尤其在 Terminal‑Bench 与 SWE‑bench Pro 上的得分，已接近 Claude Opus 4.8 的水平。

开源与部署

模型权重已同步至 HuggingFace zai-org/GLM-5.2，支持主流推理框架：Transformers、vLLM、SGLang、xLLM、ktransformers。Z.AI 同时提供 ZCode 桌面代理，内置 /goal 指令，可直接在本地或云端执行 1M 长上下文任务。

市场影响与费用策略

算力成本：峰值时段（14:00‑18:00 UTC+8）计费 3×，非峰值 2×，促销期间非峰值 1×，帮助企业在高并发编码场景下控制预算。
生态协同：GLM-5.2 已在 Z.AI Coding Plan 中全量上线，用户只需将模型名切换为 GLM-5.2 即可享受全部特性，兼容 Claude Code、OpenCode 等上层工具。

“长上下文不只是 token 数的叠加，更是系统性工程的挑战。”——Z.AI 首席技术官

GLM-5.2 的发布标志着开源大模型在长时任务上的一次重要跃迁，也为国内外研发团队提供了可直接落地的高性能基座。