DeepSeek发布V4，百万级上下文让智能体持续思考并高效执行长任务

关键创新

DeepSeek‑V4 系列包括两套 checkpoint：

模型在保持竞争力的同时，引入了两项核心技术：Compressed Sparse Attention (CSA) 与 Heavily Compressed Attention (HCA)，实现了上下文长度的成本压缩。

算力下降：相较于 V3.2，V4‑Pro 单 token 前向 FLOPs 下降至 27%，V4‑Flash 进一步降至 10%。
KV 缓存压缩：使用 FP8 主存、FP4 索引器，KV 缓存仅为传统 Grouped Query Attention 的约 2%。在 1 M Token 场景下，GPU 显存占用大幅降低，部署门槛显著下降。

这些改进让模型在长序列推理时保持每秒数十 token 的吞吐，满足数千步 tool‑call 轨迹的实际需求。

跨轮推理保留：V4 在包含工具调用的对话中，保留全部思考链路，即使用户在多轮交互后发送新指令，模型仍能利用之前的推理上下文，避免重复计算。
专用工具调用标记：引入 |DSML| 特殊 token 与 XML‑style 参数格式，区分字符串与结构化参数，显著降低 JSON‑in‑string 解析错误。
DSec 沙箱：基于 Rust 的 DeepSeek Elastic Compute，统一提供函数、容器、MicroVM、全 VM 四种执行子层，支持大规模并发 RL rollout，提升训练效率。

Benchmark	DeepSeek‑V4‑Pro‑Max	GLM‑5.1	K2.6	GPT‑5.4‑xHigh	Gemini‑3.1‑Pro
Terminal Bench 2.0	67.9	63.5	66.7	75.1	68.5
SWE Verified	80.6	—	—	80.8	80.6
MCPAtlas	73.6	—	—	73.8	—
Toolathlon	51.8	—	50.0	—	48.8

在内部 R&D 编码基准中，V4‑Pro‑Max 的通过率为 67%，仅次于 Opus‑4.5 的 70%。同时，85 位 DeepSeek 开发者调研显示，52% 认为 V4‑Pro 已可取代其日常使用的编码模型。

推理模式：模型提供三种思考模式——Non‑think（快速无链路思考）、Think High（显式块状推理）和 Think Max（最高推理深度，需 ≥384K Token）。针对长工具链任务推荐使用 Think Max。
采样参数：统一建议 temperature=1.0，top_p=1.0，以保持生成多样性。
硬件配置：在支持 FP8/FP4 的 GPU（如 NVIDIA H100）上可实现 1 M Token 的实时推理；若使用更低算力卡，可通过启用 Flash 版本降低 FLOPs。

DeepSeek‑V4 的发布标志着开源大模型在长上下文与 agent 场景的可用性进入新阶段，社区可基于其公开的架构与代码继续探索更高效的工具协同方案。