NVIDIA发布Nemotron两塔模型，实现2.42倍文本生成吞吐并保持98.7%质量

背景与意义

NVIDIA 在 2026 年 7 月正式发布了 Nemotron‑Labs‑TwoTower（以下简称 TwoTower），这是一款基于已冻结的 Nemotron‑3‑Nano‑30B‑A3B 自回归骨干的离散扩散语言模型。相较于传统的自回归（AR）解码一次只能生成一个 token，TwoTower 通过并行扩散在块级别一次生成多达 16 个 token，从而突破了文本生成的吞吐瓶颈。

架构细节

双塔设计：模型由两座塔组成，分别为
1. AR 上下文塔：保持原始 Nemotron‑3‑Nano 的自回归能力，负责生成 KV 缓存和 Mamba‑2 状态。
2. 扩散去噪塔：在每个块内部使用双向注意力对噪声块进行迭代去噪，只训练此塔，保持冻结。
层级交叉注意：去噪塔的第 i 层会跨注意第 i 层的上下文塔，实现多尺度特征共享。
专家混合（MoE）：每塔拥有 128 个可路由专家，实际激活 6 个专家 + 2 个共享专家，活跃参数约 3 B。
参数规模：两塔共约 60 B 参数，单塔 52 层（23 Mamba‑2、6 自注意、23 MoE）。

训练与推理

训练数据：去噪塔在约 2.1 T token 上进行微调，远低于骨干的 25 T 预训练。
推理模式：提供三种路径
1. 完整两塔扩散（2 × H100，BF16，每卡约 59 GB）
2. Mock‑AR（模拟自回归）
3. 纯 AR（单卡 80 GB）
代码示例（Python）：

from transformers import AutoTokenizer, AutoModelForCausalLM
model_name = "nvidia/Nemotron-Labs-TwoTower-30B-A3B-Base-BF16"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name, torch_dtype=torch.bfloat16, trust_remote_code=True)
model.place_towers_on_devices("cuda:0", "cuda:1")
prompt = "France is a country "
inputs = tokenizer(prompt, return_tensors="pt").to("cuda:0")
outputs = model.generate_mask_diffusion(
    inputs["input_ids"], max_new_tokens=128, block_size=16,
    steps_per_block=16, mask_token_id=3, temperature=0.1,
    confidence_threshold=0.8, eos_token_id=tokenizer.eos_token_id)
print(tokenizer.decode(outputs[0][inputs["input_ids"].shape[1]:],
                       skip_special_tokens=True))

性能评估

任务	AR 基线	TwoTower（扩散）	质量保留
MMLU (5‑shot)	78.56	78.24	99.6%
ARC‑Challenge	91.72	92.66	+1.0%
HumanEval	79.27	75.58	-4.7%
GSM8K	92.49	90.14	-2.4%

吞吐提升：默认 γ=0.8、块大小 S=16 下，生成速度为 AR 的 2.42×。
质量保持：在通用知识和多语言任务上仅有约 1% 的下降，代码与数学任务下降略显明显。

优势与局限

优势

完全开源，遵循 NVIDIA Nemotron Open Model License，可直接商业使用。
在保持 98.7% AR 质量的前提下，实现 2.42 倍吞吐，适合大批量合成。
单一 checkpoint 支持三种推理模式，降低部署成本。

局限

完整两塔扩散需要两块 H100，显存占用约 118 GB（每卡 59 GB），硬件门槛仍高。
代码与数学推理的质量下降显著，需后期指令调优。
当前为基础模型，尚未进行指令微调或安全对齐。

行业意义

TwoTower 的发布标志着扩散技术在大语言模型上的成熟落地，为「高吞吐‑低延迟」的文本生成提供了新思路。对内容生产、对话系统以及大规模合成任务均具备直接价值。随着显存成本的进一步下降和多卡并行调度的优化，预计会有更多企业在合成媒体、数据增强和快速原型开发中采用类似的双塔扩散方案。

“我们希望通过开放模型和灵活的推理路径，让社区能够在保持质量的同时，突破传统自回归的速度瓶颈。” — NVIDIA 研发团队