NVIDIA发布Nemotron 3.5 ASR 实现单模型覆盖40种语言实时转写

背景与意义

NVIDIA的Nemotron Speech团队在2026年6月正式发布了Nemotron 3.5 ASR，这是一款面向实时语音转写的多语言自动语音识别模型。相较于传统的批量模型，Nemotron 3.5 ASR在保持高准确率的同时，将端到端延迟压缩至80 ms，实现了真正的流式交互，满足智能客服、实时字幕等业务对低时延的苛刻要求。

模型架构

Cache‑Aware FastConformer‑RNNT：模型核心由24层FastConformer编码器和RNNT解码器组成。FastConformer在注意力计算上实现线性可扩展性，配合缓存机制避免重复计算。
缓存感知设计：在流式推理时，模型会缓存前一帧的自注意力与卷积激活，将其复用到后续帧，保证每帧音频仅处理一次，显著降低计算成本与功耗。

多语言覆盖与实时性能

Nemotron 3.5 ASR通过提示式语言ID条件化，单一600 M参数检查点即可覆盖包括英语、法语、德语、西班牙语、阿拉伯语、日语、韩语、普通话、印地语、泰语等在内的40种语言/地区。用户可显式指定target_lang获取最佳精度，或使用target_lang=auto让模型自行检测语言并在句末输出语言标签，实现混语音流的无缝转写。

延迟调节机制

模型提供att_context_size参数作为延迟‑精度旋钮。

[56,0] → 80 ms 超低时延，适用于语音助理等交互场景。
[56,13] → 1.12 s 高精度模式，适合需要最高识别准确率的批处理任务。同一检查点即可覆盖全范围，无需重新训练，极大提升部署灵活性。

微调效果与实测数据

NVIDIA在公开的FLEURS基准上对希腊语和保加利亚语进行了短时微调，使用相同的Cache‑Aware FastConformer‑RNNT流程。

希腊语：WER从35%降至24%，相对提升32%。
保加利亚语：WER从22%降至15%，相对提升31%。这些结果均在80 ms最低时延设置下测得，证明即便在极端低延迟下，模型仍具备可观的可调精度空间。

开源与可用性

模型权重采用OpenMDW‑1.1许可证，已同步至Hugging Face，支持自行部署。运行时依赖NVIDIA NeMo 2.6.6及以上版本，兼容Ampere、Hopper、Blackwell、Lovelace、Turing、Volta以及Jetson系列GPU。NVIDIA计划在本月内推出基于gRPC的NIM服务，进一步降低企业接入门槛。

行业对比与前景

与OpenAI Whisper large‑v3（离线批处理）以及Deepgram Nova‑3（流式但仅支持10+单语种）相比，Nemotron 3.5 ASR在模型体积、语言覆盖与原生流式能力上形成明显差异化；其17倍并发流的报告数据（基于H100）表明在大规模部署场景下可显著降低算力开支。随着多语言实时交互需求的增长，Nemotron 3.5 ASR有望成为企业级语音 AI 平台的首选底层模型。

关键要点

600 M 参数、单检查点覆盖40种语言；
Cache‑Aware FastConformer‑RNNT 实现每帧一次计算；
延迟可调 80 ms‑1.12 s，无需再训练；
开源权重、可自行部署，配套即将上线的NIM服务。

“Nemotron 3.5 ASR的出现，为实时多语言语音交互设定了新的基准。”——NVIDIA官方发布会

NVIDIA发布Nemotron 3.5 ASR 实现单模型覆盖40种语言实时转写