Gradium发布实时语音翻译模型stt-translate与s2s-translate,实现更高精度与更低时延
•2 阅读•6分钟•应用
Gradiumstt-translates2s-translate实时语音翻译
•2 阅读•6分钟•应用
关键发布
Gradium今日正式发布两款实时语音翻译模型:
- stt-translate:一次性完成语音转写与目标语言文本翻译;
- s2s-translate:在上述基础上直接合成目标语言语音,实现端到端语音‑到‑语音翻译。 两者均支持英语、法语、德语、西班牙语、葡萄牙语五种语言,组合形成20个语言对,全部通过单一 WebSocket 双工连接实时流式返回结果。
技术创新
- 单通路设计:传统三模型流水线(STT → 翻译 → TTS)被压缩为两模型,stt-translate 将转写与翻译合并为一次前向传播,显著削减模型切换开销。
- Hibiki‑Zero 框架:基于该框架的强化学习训练,使模型在低时延与高翻译质量之间实现协同优化。
- 可选语音克隆:用户可在目标语言中挑选预置声音或上传自有声纹进行克隆,提升跨语言直播与配音的沉浸感。
性能对比
| 指标 | Gradium (s2s‑translate) | gemini‑3.5‑live‑translate | gpt‑realtime‑translate |
|---|---|---|---|
| 平均时延 (s) | 3.0 | 2.9 | 3.6 |
| BLEU | 领先 | 低于Gradium | 低于Gradium |
| MetricX 错误率 | 与GPT持平,优于Gemini | 高于Gradium | 与Gradium持平 |
从表中可以看到,Gradium在准确率上全面领先于gpt‑realtime‑translate,在时延上仅略逊于gemini‑3.5‑live‑translate,但凭借语音克隆功能形成差异化竞争。
典型应用场景
- 实时配音与本地化:一次克隆演讲者声纹,将法语演讲实时翻译为西班牙语并保持原声色。
- 多语言客服机器人:来电者语音即时翻译为客服所在语言,客服回复再经s2s‑translate合成目标语言语音,实现无缝跨语言对话。
- 会议实时字幕:仅使用stt‑translate即可在会议软件中生成同步翻译字幕,降低会议成本。
使用示例(Python SDK)
import asyncio, numpy as np
from gradium import client as gradium_client
client = gradium_client.GradiumClient()
setup = {
"model_name": "s2s-translate",
"input_format": "pcm_24000",
"output_format": "pcm_48000",
"voice_id": "cLONiZ4hQ8VpQ4Sz", # 目标语言声纹
"stt_model_name": "stt-translate",
"tts_model_name": "default",
"target_language": "en"
}
with open("input_24k_mono.pcm", "rb") as f:
pcm = f.read()
async def main():
audio_out = []
async with client.s2s_realtime(wait_for_ready_on_start=True, **setup) as s2s:
async def send():
for i in range(0, len(pcm), 1920):
await s2s.send_audio(pcm[i:i+1920])
await s2s.send_eos()
async def recv():
async for msg in s2s:
if msg["type"] == "audio":
audio_out.append(msg["audio"])
elif msg["type"] == "text":
print(msg["text"], end=" ")
elif msg["type"] == "end_of_stream":
break
async with asyncio.TaskGroup() as tg:
tg.create_task(send())
tg.create_task(recv())
return np.frombuffer(b"".join(audio_out), dtype=np.int16)
translated_pcm = asyncio.run(main())
该示例展示了如何在浏览器或本地应用中通过单个 WebSocket 完成语音输入、实时翻译与语音合成的全链路。
优势与局限
- 优势:
- 单通路降低系统复杂度;
- BLEU 与 MetricX 双指标领先;
- 支持语音克隆,满足品牌化需求;
- 开放 SDK 与 REST API,易于集成。
- 局限:
- 仅覆盖五种语言,语言覆盖面仍待扩展;
- 与gemini‑3.5‑live‑translate的时延差距仅为0.1 s,极限场景仍有提升空间;
- 评测基于内部对话数据集,外部复现受限。
总体来看,Gradium通过模型结构创新与工程落地,提供了在准确率、时延和可定制语音方面兼具竞争力的实时语音翻译方案,为跨语言实时沟通打开了新路径。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。