OpenAI推出GPT-5.6系列，Sol、Terra、Luna三层模型开启分层推理新模式

模型分层与全新命名

OpenAI 将 GPT-5.6 定义为一个家族，而非单一模型。家族内划分为三条命名明确的层级：

Sol：旗舰模型，定位最高智能与最强推理能力；
Terra：面向日常生产任务的主流模型，保持 GPT-5.5 的性能但成本约为其一半；
Luna：低成本、低时延的轻量模型，适用于高频、简单任务。

这种层级化设计让开发者可以根据任务的复杂度、响应速度与费用预算进行更细致的模型选型。

两种新推理模式

GPT-5.6 引入 max 与 ultra 两种推理控制：

max 模式让 Sol 在单一推理链路上投入更长时间，以获得更深层次的思考；
ultra 模式则采用子代理（sub‑agents）并行处理，将复杂任务拆分为多个子任务并行执行，从而在保持准确度的同时降低整体时延。

两者均在成本与时延上进行权衡，适配不同的长时程或实时场景。

基准表现

OpenAI 提供的预览基准显示，Sol 在 Terminal‑Bench 2.1 上取得 91.91%（ultra）和 88.76%（max）的得分，显著领先 Claude Mythos（58%）和 GPT-5.5（83.4%）。在 Agent’s Last Exam 中，Sol 首次突破 50% 关卡；在 GeneBench v1 上对比 GPT-5.5，Sol 在基因组长程分析上使用更少的 token 即实现更高准确率。

定价与访问策略

GPT-5.6 按每百万 token 收费，具体如下：

Sol：$5 输入 / $30 输出
Terra：$2.5 输入 / $15 输出
Luna：$1 输入 / $6 输出

缓存机制也升级：显式缓存断点支持 30 分钟最短缓存生命周期，缓存写入费用为未缓存输入费率的 1.25 倍，读取仍享 90% 折扣。OpenAI 计划在 7 月使用 Cerebras 硬件让 Sol 达到 750 token/秒的吞吐。

典型应用场景

长程编码代理：Sol 在 Terminal‑Bench 上的表现适合多步 CLI 自动化，如代码生成‑编辑‑测试‑迭代的完整闭环。
大规模文档处理：Terra 的成本优势使其可用于每日数千条客服工单的批量摘要。
即时响应：Luna 适配自动邮件分类、路由等低时延需求，随后将复杂边缘案例交给更强模型。
安全审计：Sol 可用于漏洞扫描与补丁生成，提供深度代码审查能力。

业界影响与未解问题

GPT-5.6 的层级化与超推理模式为企业提供了更灵活的成本‑性能平衡，也为后续模型迭代提供了独立进化的路径。然而，目前仅有约 20 家合作伙伴获得预览，公开基准数据仍不完整；安全防护机制在实际双用途安全工作中的表现也有待观察。随着正式发布，业界将关注其在算力成本、延迟以及跨模型协同方面的真实表现。

“分层模型与子代理模式是 OpenAI 在可扩展推理上的一次重要实验，可能会重新定义大模型在企业级应用中的部署策略。” — 业内分析师