实时语音研究

imoldpan · 2025 年3 月 25 日 02:49

当然可以，以下是这段 GitHub issue 讨论内容的整理与总结（Issue #91: “Do you support Chinese language”）：

讨论主题：

CSM 是否支持中文？

主要问题：

用户 @qiumiao1988 提问：

“请问 CSM 是否支持中文？我尝试使用中文文本生成语音，虽然能生成音频，但内容完全是噪音，不确定是配置问题还是模型本身不支持。”

讨论过程：

1. 初步答复

• @darkacorn 回复：

• 目前仅支持英文。

• 官方没有提供训练代码。

2. 用户进一步提问

• @qiumiao1988：

• 表示 CSM 更像是一个开放的 TTS（文本转语音）功能。

• 想了解是否有计划开源端到端语音对话模型，并询问大概时间线。

3. 社区成员解释架构

• @darkacorn 进一步说明：

• 自己不是官方团队，只是爱好者。

• 据 a16z 访谈中 Maya（可能为开发者或代表）所说，目前 CSM 官方 demo 也仅是一个 TTS。

• 推测架构为经典的语音对话流程：

ASR（自动语音识别）+ VAD（语音活动检测） → LLM → TTS

• 极可能使用的是 Gemma 27B 作为语言模型，或更小模型（如 8B / 300M）。

• 模型可能做了指令微调来提升表现，但整体仍是传统架构，只是质量与延迟优化做得非常好。

4. 用户致谢并更正理解

• @qiumiao1988：

• 表示自己误以为 CSM 是一个端到端实时语音对话系统。

• 在理解 @darkacorn 的说明后，表示感谢并澄清了之前的误解。

5. 其他用户补充反馈

• @dw61：

• 对系统的低延迟表示惊讶：“延迟如此低，太令人惊讶了。”

• @darkacorn 回复：

• 确认 CSM 的推理系统做了大量优化，达到了极高性能。

总结：

• 目前 CSM 仅支持英文，中文输入会导致音频为噪音。

• 模型架构为经典的：语音转文本（ASR）→ 大语言模型（LLM）→ 文本转语音（TTS） ，但在优化和效果上非常先进。

• CSM 并非端到端的语音对话系统，TTS 是核心组件。

• 官方暂无开源完整对话系统的计划或时间线公开。

如果你需要，我也可以帮你提炼成中文技术文档式的总结或用于项目汇报的格式。需要吗？