GLM-5.2发布 1M上下文长时任务能力领跑开源大模型

17 阅读3分钟前沿
GLM-5.2发布 1M上下文长时任务能力领跑开源大模型

关键亮点

  • 1M 稳定上下文:GLM-5.2首次实现稳定的 1M token 长度,能够在数小时的持续编码或调试任务中保持一致质量。
  • 多档思考力度:引入 Effort Level 控制,用户可在性能与延迟之间灵活平衡,高效完成大规模代码生成。
  • MIT 开源许可:模型权重在 HuggingFace 与 ModelScope 完全开放,无地域限制,降低企业落地门槛。

架构创新

IndexShare

GLM-5.2 在每四层稀疏注意力层之间共享同一轻量索引器,将 1M 长度下的每 token FLOPs 下降 2.9 倍。该设计在保持注意力质量的同时,大幅削减计算开销。

MTP 与 KVShare

针对投机解码的 MTP 层,GLM-5.2 同时采用 IndexShare 与 KVShare,提升草稿模型的接受长度约 20%。通过引入拒绝采样与端到端 TV 损失,进一步提升解码稳定性。

基准表现

基准GLM-5.2GLM-5.1Opus 4.8GPT-5.5
FrontierSWE74.430.5--
Terminal‑Bench 2.181.063.585.0-
SWE‑bench Pro62.158.469.254.2

在三大长时编码基准(FrontierSWE、PostTrainBench、SWE‑Marathon)中,GLM-5.2 均位列开源模型首位,仅在部分指标上略逊于 Opus 系列的闭源模型。尤其在 Terminal‑BenchSWE‑bench Pro 上的得分,已接近 Claude Opus 4.8 的水平。

开源与部署

模型权重已同步至 HuggingFace zai-org/GLM-5.2,支持主流推理框架:Transformers、vLLM、SGLang、xLLM、ktransformers。Z.AI 同时提供 ZCode 桌面代理,内置 /goal 指令,可直接在本地或云端执行 1M 长上下文任务。

市场影响与费用策略

  • 算力成本:峰值时段(14:00‑18:00 UTC+8)计费 3×,非峰值 2×,促销期间非峰值 1×,帮助企业在高并发编码场景下控制预算。
  • 生态协同:GLM-5.2 已在 Z.AI Coding Plan 中全量上线,用户只需将模型名切换为 GLM-5.2 即可享受全部特性,兼容 Claude Code、OpenCode 等上层工具。

“长上下文不只是 token 数的叠加,更是系统性工程的挑战。”——Z.AI 首席技术官

GLM-5.2 的发布标志着开源大模型在长时任务上的一次重要跃迁,也为国内外研发团队提供了可直接落地的高性能基座。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。