Interfaze推出首个多语言扩散式ASR模型diffusion-gemma-asr-small,支持六语种并行转写
•9 阅读•4分钟•前沿
开源多语言ASRDiffusionGemmaInterfaze
•9 阅读•4分钟•前沿
背景与创新
Interfaze作为YC扶持的AI初创,在语音识别领域推出了首个基于扩散模型的多语言ASR系统——diffusion-gemma-asr-small。与传统自回归模型不同,它采用并行去噪的扩散解码方式,使转写成本取决于去噪步数,而非文本长度,从而在长音频上保持稳定的计算开销。
模型架构
- 主干模型:Google 开源的 26B DiffusionGemma,采用 128 个专家、top‑8 路由,仅激活约 4B 参数。
- 音频前端:冻结的 Whisper‑small 编码器,将 30 秒音频映射为 1500 帧的 768 维声学特征。
- 投影层:约 19M 参数的卷积投影,将声学特征压缩至 188 条 2816 维的音频 token。
- 适配器:约 42M 参数的 LoRA 适配器,让 DiffusionGemma 能够关注音频 token。
- 解码器:DiffusionGemma 的离散扩散解码器在 192‑token 画布上进行双向去噪,默认 16 步,8 步即可达到近似最佳效果。
训练细节与性能
训练期间先使用 CTC 损失对投影层进行监督,突破了最初梯度消失的瓶颈。随后在 LibriSpeech、FLEURS、VoxPopuli 三大数据集上进行微调,得到以下指标(16 步去噪):
| 数据集 | WER | CER |
|---|---|---|
| LibriSpeech test‑clean (EN) | 6.6% | - |
| FLEURS EN | 15.7% | - |
| FLEURS HI | - | 15.8% |
| FLEURS ZH | - | 29.6% |
| VoxPopuli EN | 18.5% | - |
相较于同类扩散模型(TransFusion 约 6‑7% WER)保持领先,但仍落后于自回归 Whisper‑large‑v3(约 2% WER)。Interfaze 将差距归因于数据规模而非架构限制。
推理成本与实际使用
- 去噪步数 vs. 速度:8 步实时因子约 10.3×,16 步约 6.5×,48 步提升不到 0.1% WER,却导致延迟约 3 倍。
- 语言覆盖:单一适配器即可支持英语、德语、法语、西班牙语、印地语和中文,省去多模型部署成本。
- 并行优势:转写时间与音频长度几乎无关,10 秒音频与 2 秒音频的推理时间相差不大,适合批量转写流水线。
快速上手指南
pip install torch peft soundfile librosa huggingface_hub \"transformers @ git+https://github.com/huggingface/transformers.git\"
from huggingface_hub import snapshot_download
repo = snapshot_download("interfaze-ai/diffusion-gemma-asr-small")
from inference import load, transcribe
model, tok, fe = load(f"{repo}/diffusion_asr_small.pt", device="cuda")
import soundfile as sf
audio, sr = sf.read("audio.wav")
print(transcribe(audio, model, tok, fe, max_steps=16))
行业意义
diffusion-gemma-asr-small 为非自回归语音识别提供了可复现的基线,展示了利用冻结大模型加小适配器即可实现多语言支持的路径。它的并行去噪机制为高吞吐量的实时转写、跨语言媒体监控以及低功耗边缘部署提供了新思路,也为后续在更大音频模型上探索扩散式生成奠定了技术基础。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。