OpenAI推出GPT‑5.6三模组，Claude Tag改写交互，Stratix杯赛显现新评估范式

模型新篇章：OpenAI GPT‑5.6系列

OpenAI 在本周正式开放 GPT‑5.6 的限量预览，推出三款定位明确的模型：

Sol：面向深度推理与前沿研究的旗舰模型；
Terra：兼顾性能与成本的主流模型，适用于企业级自动化；
Luna：轻量高速版，专为高吞吐场景设计。

与以往单一版本的发布不同，GPT‑5.6 采用分层安全架构、政府协同层以及分阶段访问策略，标志着大模型从“软件更新”向“关键基础设施”转变。业界开始关注模型的访问权限、监管约束以及防御者的响应速度，而非单纯的性能指标。

交互升级：Anthropic Claude Tag

Anthropic 在本周悄然推出 Claude Tag，一种在提示与回复中嵌入语义标记的机制。用户可以为对话设定角色、意图、上下文块，模型在长链交互中能够更精准地追踪信息流。该功能虽小，却为未来“机器可读工作流”奠定基础，使得提示工程从技巧转向结构化设计。

行动数据新前沿：General Intuition

游戏公司 General Intuition 宣布完成 3.2 亿美元融资，聚焦将数十亿游戏视频片段转化为带动作标签的训练数据。其核心论点是：视频游戏本身是“压缩实验室”，包含感知、决策、奖励与失败的完整闭环。通过在 Minecraft、Fortnite 等开放世界中捕获玩家行为，模型能够获得语言模型缺失的时序因果信息，为机器人和真实世界任务提供更强的通用性。

评估新范式：Stratix Cup 足球对抗赛

由 LayerLens 举办的 Stratix Cup 将 16 个大模型置于足球赛场，模型自行制定战术、控制球员并在回合间适应对手。最终 Claude Opus 4.8 以 1‑0 战胜 GPT‑5.5。这场对决突破了传统的文字答题评测，转向“可执行行为”与“即时策略”评估，凸显模型在不完美信息、反馈循环下的真实决策能力。

研究快报

Autodata（Meta）提出让 AI 代理扮演数据科学家，循环生成并优化合成训练数据，显著提升复杂推理任务表现。
iLLaDA（北京大学 & 字节跳动）发布 8B 参数的双向扩散语言模型，支持可变长度生成与置信度打分，在 12 万亿 token 规模下竞争力逼近主流自回归模型。
MEMPROBE（芝加哥大学等）提供长时记忆基准，揭示当前代理在跨会话状态恢复上的瓶颈。

资本动向

Patronus AI 完成 5 亿美元 B 轮融资，推出面向 AI 代理的数字世界仿真平台。
General Intuition 再获 3.2 亿美元融资，估值 23 亿美元，进一步深化动作模型研发。
Netris 获得 1500 万美元 A 轮融资，聚焦 AI‑云网络自动化。

结语

本周的新闻链条展示了 AI 生态从模型规模向安全部署、从文本学习向动作感知、从静态测评向动态竞技的多维演进。未来的竞争焦点将不再是单纯的参数量，而是构建高质量交互环境、可靠治理框架以及能够在真实世界中行动的评估沙盒。