NVIDIA发布Nemotron两塔模型,实现2.42倍文本生成吞吐并保持98.7%质量
•5 阅读•6分钟•前沿
生成式AINVIDIAMoEGPUNemotron
•5 阅读•6分钟•前沿
背景与意义
NVIDIA 在 2026 年 7 月正式发布了 Nemotron‑Labs‑TwoTower(以下简称 TwoTower),这是一款基于已冻结的 Nemotron‑3‑Nano‑30B‑A3B 自回归骨干的离散扩散语言模型。相较于传统的自回归(AR)解码一次只能生成一个 token,TwoTower 通过并行扩散在块级别一次生成多达 16 个 token,从而突破了文本生成的吞吐瓶颈。
架构细节
- 双塔设计:模型由两座塔组成,分别为
- AR 上下文塔:保持原始 Nemotron‑3‑Nano 的自回归能力,负责生成 KV 缓存和 Mamba‑2 状态。
- 扩散去噪塔:在每个块内部使用双向注意力对噪声块进行迭代去噪,只训练此塔,保持冻结。
- 层级交叉注意:去噪塔的第 i 层会跨注意第 i 层的上下文塔,实现多尺度特征共享。
- 专家混合(MoE):每塔拥有 128 个可路由专家,实际激活 6 个专家 + 2 个共享专家,活跃参数约 3 B。
- 参数规模:两塔共约 60 B 参数,单塔 52 层(23 Mamba‑2、6 自注意、23 MoE)。
训练与推理
- 训练数据:去噪塔在约 2.1 T token 上进行微调,远低于骨干的 25 T 预训练。
- 推理模式:提供三种路径
- 完整两塔扩散(2 × H100,BF16,每卡约 59 GB)
- Mock‑AR(模拟自回归)
- 纯 AR(单卡 80 GB)
- 代码示例(Python):
from transformers import AutoTokenizer, AutoModelForCausalLM
model_name = "nvidia/Nemotron-Labs-TwoTower-30B-A3B-Base-BF16"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name, torch_dtype=torch.bfloat16, trust_remote_code=True)
model.place_towers_on_devices("cuda:0", "cuda:1")
prompt = "France is a country "
inputs = tokenizer(prompt, return_tensors="pt").to("cuda:0")
outputs = model.generate_mask_diffusion(
inputs["input_ids"], max_new_tokens=128, block_size=16,
steps_per_block=16, mask_token_id=3, temperature=0.1,
confidence_threshold=0.8, eos_token_id=tokenizer.eos_token_id)
print(tokenizer.decode(outputs[0][inputs["input_ids"].shape[1]:],
skip_special_tokens=True))
性能评估
| 任务 | AR 基线 | TwoTower(扩散) | 质量保留 |
|---|---|---|---|
| MMLU (5‑shot) | 78.56 | 78.24 | 99.6% |
| ARC‑Challenge | 91.72 | 92.66 | +1.0% |
| HumanEval | 79.27 | 75.58 | -4.7% |
| GSM8K | 92.49 | 90.14 | -2.4% |
- 吞吐提升:默认 γ=0.8、块大小 S=16 下,生成速度为 AR 的 2.42×。
- 质量保持:在通用知识和多语言任务上仅有约 1% 的下降,代码与数学任务下降略显明显。
优势与局限
优势
- 完全开源,遵循 NVIDIA Nemotron Open Model License,可直接商业使用。
- 在保持 98.7% AR 质量的前提下,实现 2.42 倍吞吐,适合大批量合成。
- 单一 checkpoint 支持三种推理模式,降低部署成本。
局限
- 完整两塔扩散需要两块 H100,显存占用约 118 GB(每卡 59 GB),硬件门槛仍高。
- 代码与数学推理的质量下降显著,需后期指令调优。
- 当前为基础模型,尚未进行指令微调或安全对齐。
行业意义
TwoTower 的发布标志着扩散技术在大语言模型上的成熟落地,为「高吞吐‑低延迟」的文本生成提供了新思路。对内容生产、对话系统以及大规模合成任务均具备直接价值。随着显存成本的进一步下降和多卡并行调度的优化,预计会有更多企业在合成媒体、数据增强和快速原型开发中采用类似的双塔扩散方案。
“我们希望通过开放模型和灵活的推理路径,让社区能够在保持质量的同时,突破传统自回归的速度瓶颈。” — NVIDIA 研发团队
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。