实时语音研究

当然可以,以下是这段 GitHub issue 讨论内容的整理与总结(Issue #91: “Do you support Chinese language”):


:thread: 讨论主题:

CSM 是否支持中文?


:pushpin: 主要问题:

用户 @qiumiao1988 提问:

“请问 CSM 是否支持中文?我尝试使用中文文本生成语音,虽然能生成音频,但内容完全是噪音,不确定是配置问题还是模型本身不支持。”


:speech_balloon: 讨论过程:

1. 初步答复

@darkacorn 回复:

• 目前仅支持英文。

• 官方没有提供训练代码。

2. 用户进一步提问

@qiumiao1988

• 表示 CSM 更像是一个开放的 TTS(文本转语音)功能。

• 想了解是否有计划开源端到端语音对话模型,并询问大概时间线。

3. 社区成员解释架构

@darkacorn 进一步说明:

• 自己不是官方团队,只是爱好者。

• 据 a16z 访谈中 Maya(可能为开发者或代表)所说,目前 CSM 官方 demo 也仅是一个 TTS。

• 推测架构为经典的语音对话流程:

ASR(自动语音识别)+ VAD(语音活动检测) → LLM → TTS

• 极可能使用的是 Gemma 27B 作为语言模型,或更小模型(如 8B / 300M)。

• 模型可能做了指令微调来提升表现,但整体仍是传统架构,只是质量与延迟优化做得非常好。

4. 用户致谢并更正理解

@qiumiao1988

• 表示自己误以为 CSM 是一个端到端实时语音对话系统

• 在理解 @darkacorn 的说明后,表示感谢并澄清了之前的误解。

5. 其他用户补充反馈

@dw61

• 对系统的低延迟表示惊讶:“延迟如此低,太令人惊讶了。”

@darkacorn 回复:

• 确认 CSM 的推理系统做了大量优化,达到了极高性能。


:white_check_mark: 总结:

目前 CSM 仅支持英文,中文输入会导致音频为噪音。

• 模型架构为经典的:语音转文本(ASR)→ 大语言模型(LLM)→ 文本转语音(TTS) ,但在优化和效果上非常先进。

• CSM 并非端到端的语音对话系统,TTS 是核心组件。

• 官方暂无开源完整对话系统的计划或时间线公开。


如果你需要,我也可以帮你提炼成中文技术文档式的总结或用于项目汇报的格式。需要吗?