当然可以,以下是这段 GitHub issue 讨论内容的整理与总结(Issue #91: “Do you support Chinese language”):
讨论主题:
CSM 是否支持中文?
主要问题:
用户 @qiumiao1988 提问:
“请问 CSM 是否支持中文?我尝试使用中文文本生成语音,虽然能生成音频,但内容完全是噪音,不确定是配置问题还是模型本身不支持。”
讨论过程:
1. 初步答复
• @darkacorn 回复:
• 目前仅支持英文。
• 官方没有提供训练代码。
2. 用户进一步提问
• @qiumiao1988:
• 表示 CSM 更像是一个开放的 TTS(文本转语音)功能。
• 想了解是否有计划开源端到端语音对话模型,并询问大概时间线。
3. 社区成员解释架构
• @darkacorn 进一步说明:
• 自己不是官方团队,只是爱好者。
• 据 a16z 访谈中 Maya(可能为开发者或代表)所说,目前 CSM 官方 demo 也仅是一个 TTS。
• 推测架构为经典的语音对话流程:
ASR(自动语音识别)+ VAD(语音活动检测) → LLM → TTS
• 极可能使用的是 Gemma 27B 作为语言模型,或更小模型(如 8B / 300M)。
• 模型可能做了指令微调来提升表现,但整体仍是传统架构,只是质量与延迟优化做得非常好。
4. 用户致谢并更正理解
• @qiumiao1988:
• 表示自己误以为 CSM 是一个端到端实时语音对话系统。
• 在理解 @darkacorn 的说明后,表示感谢并澄清了之前的误解。
5. 其他用户补充反馈
• @dw61:
• 对系统的低延迟表示惊讶:“延迟如此低,太令人惊讶了。”
• @darkacorn 回复:
• 确认 CSM 的推理系统做了大量优化,达到了极高性能。
总结:
• 目前 CSM 仅支持英文,中文输入会导致音频为噪音。
• 模型架构为经典的:语音转文本(ASR)→ 大语言模型(LLM)→ 文本转语音(TTS) ,但在优化和效果上非常先进。
• CSM 并非端到端的语音对话系统,TTS 是核心组件。
• 官方暂无开源完整对话系统的计划或时间线公开。
如果你需要,我也可以帮你提炼成中文技术文档式的总结或用于项目汇报的格式。需要吗?