Treble Technologies与Hugging Face推出首个远场ASR基准榜单，真实场景误差显著

背景

随着语音交互从耳机、手机扩展到会议室、车载、机器人等远场场景，传统的近场、干净语料评测已难以预测实际部署效果。Treble Technologies 与 Hugging Face 联合推出 FFASR Leaderboard，首次以社区驱动、持续更新的方式公开评测远场自动语音识别（ASR）模型的鲁棒性。

基准构建

评测条件：
- Near‑field（干燥）——无混响的消声室录音；
- Far‑field 高 SNR（>14 dB）；
- Far‑field 中 SNR（8‑12 dB）；
- Far‑field 低 SNR（<6 dB）。
数据来源：采用 Treble 自研的混合波动模拟引擎，低频使用波动求解，高频采用几何声学，确保衍射、散射等物理现象得到保留。
实测验证：14 间实测房间（20‑470 m³）提供 Lab Measured 与 Lab Simulated 两条对比轨迹，直接验证模拟数据的真实性。
场景覆盖：浴室、客厅、办公室、教室、餐厅等多种房型；每个房间包含 1 名目标说话人 + 最多 3 种噪声（瞬时咳嗽、持续 HVAC），并提供移动声源分支（beta）。
指标：在统一的 NVIDIA L4 GPU 环境下记录 WER（字错误率）与 RTFx（推理实时因子），并在 Analysis 页签展示两者的 Pareto 前沿。

初步结果

截至 2026‑06‑24，已收录多款主流模型（Whisper、Wav2Vec2、HuBERT、SpeechBrain 等）。

所有模型在低 SNR 远场条件下的 WER 均明显高于近场基准，平均提升 2‑4 倍。
部分模型在速度（RTFx）上表现优异，却在远场准确率上出现明显退化，凸显 速度‑准确率 的权衡。
Pareto 前沿显示少数模型能够在保持低延迟的同时实现相对可接受的远场 WER，成为后续研发的参考对象。

如何提交

进入 FFASR Leaderboard 的 Submit 标签页；
填写 Hugging Face 模型 ID（例：openai/whisper-large-v2）；
系统自动在持有的 2,000 条隐蔽测试集上跑评测，返回 WER 与 RTFx；
如使用自定义前端（如语音增强+ASR），可提供 evaluate() 回调函数，经审核后运行。

提交后，结果会即时出现在榜单表格，并同步更新至 Analysis 页面，供社区对比与讨论。

未来展望

多说话人 场景：计划引入同一音频中多位说话人交叉出现的测试集。
麦克阵列 与 波束形成：评测基于多麦克阵列的空间滤波算法。
回声消除：针对播放音频同时录音的设备（如智能音箱）加入回声抑制评测。

FFASR 旨在通过公开、可复现的评测体系，让远场语音识别的真实挑战被量化、可视化，进而推动模型在真实环境中的鲁棒性提升。欢迎研究者与企业踊跃提交，共同塑造下一代语音交互体验。

Treble Technologies与Hugging Face推出首个远场ASR基准榜单，真实场景误差显著

背景

基准构建

初步结果

如何提交

未来展望

标签分类

Treble Technologies与Hugging Face推出首个远场ASR基准榜单，真实场景误差显著