DeepSeek发布V4,百万级上下文让智能体持续思考并高效执行长任务

47 阅读4分钟前沿
DeepSeek发布V4,百万级上下文让智能体持续思考并高效执行长任务

关键创新

DeepSeek‑V4 系列包括两套 checkpoint:

  • DeepSeek‑V4‑Pro:1.6 T 参数,激活 49 B,采用 1 M Token 上下文窗口;
  • DeepSeek‑V4‑Flash:284 B 参数,激活 13 B,同样支持 1 M Token。

模型在保持竞争力的同时,引入了两项核心技术:Compressed Sparse Attention (CSA)Heavily Compressed Attention (HCA),实现了上下文长度的成本压缩。

长上下文效率

  • 算力下降:相较于 V3.2,V4‑Pro 单 token 前向 FLOPs 下降至 27%,V4‑Flash 进一步降至 10%。
  • KV 缓存压缩:使用 FP8 主存、FP4 索引器,KV 缓存仅为传统 Grouped Query Attention 的约 2%。在 1 M Token 场景下,GPU 显存占用大幅降低,部署门槛显著下降。

这些改进让模型在长序列推理时保持每秒数十 token 的吞吐,满足数千步 tool‑call 轨迹的实际需求。

Agent 专用改进

  1. 跨轮推理保留:V4 在包含工具调用的对话中,保留全部思考链路,即使用户在多轮交互后发送新指令,模型仍能利用之前的推理上下文,避免重复计算。
  2. 专用工具调用标记:引入 |DSML| 特殊 token 与 XML‑style 参数格式,区分字符串与结构化参数,显著降低 JSON‑in‑string 解析错误。
  3. DSec 沙箱:基于 Rust 的 DeepSeek Elastic Compute,统一提供函数、容器、MicroVM、全 VM 四种执行子层,支持大规模并发 RL rollout,提升训练效率。

基准表现

BenchmarkDeepSeek‑V4‑Pro‑MaxGLM‑5.1K2.6GPT‑5.4‑xHighGemini‑3.1‑Pro
Terminal Bench 2.067.963.566.775.168.5
SWE Verified80.680.880.6
MCPAtlas73.673.8
Toolathlon51.850.048.8

在内部 R&D 编码基准中,V4‑Pro‑Max 的通过率为 67%,仅次于 Opus‑4.5 的 70%。同时,85 位 DeepSeek 开发者调研显示,52% 认为 V4‑Pro 已可取代其日常使用的编码模型。

使用建议

  • 推理模式:模型提供三种思考模式——Non‑think(快速无链路思考)、Think High(显式块状推理)和 Think Max(最高推理深度,需 ≥384K Token)。针对长工具链任务推荐使用 Think Max。
  • 采样参数:统一建议 temperature=1.0,top_p=1.0,以保持生成多样性。
  • 硬件配置:在支持 FP8/FP4 的 GPU(如 NVIDIA H100)上可实现 1 M Token 的实时推理;若使用更低算力卡,可通过启用 Flash 版本降低 FLOPs。

DeepSeek‑V4 的发布标志着开源大模型在长上下文与 agent 场景的可用性进入新阶段,社区可基于其公开的架构与代码继续探索更高效的工具协同方案。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。