如果你正在找一款能生成自然对话语气的 TTS,或者想为 AI 助手、播客内容配上更像真人的声音,ChatTTS 值得立刻关注。它专为对话场景设计,支持细粒度控制笑声、停顿、语气词,合成效果在自然度上明显优于传统拼接式或参数式 TTS,而且完全开源、可本地部署。
核心看点
– 对话级自然度:模型在大规模对话数据上训练,能自动生成“嗯”“啊”等语气词和恰当停顿,听感接近真人聊天。
– 细粒度控制:通过输入特定的音素标签或韵律标记,可精确调节语速、笑声强度、情感倾向,适合需要定制声音表现的场景。
– 轻量部署:模型权重约 1.5GB,支持 GPU 和 CPU 推理,Python 调用只需几行代码,也提供了 Gradio 交互界面。
适合谁

– 想做 AI 语音助手、有声读物或播客生成的内容创作者和开发者。
– 需要为虚拟角色、游戏 NPC 赋予自然声音的爱好者或小型团队。
– 对语音合成技术感兴趣,希望研究或微调 TTS 模型的研究者。
使用前需在 Hugging Face 同意模型许可证并下载权重;推荐有 4GB+ 显存的 GPU 以获得实时推理速度。项目采用 MIT 许可证(但模型权重另有协议),社区活跃,Issue 区有大量调参技巧。
直接去仓库体验在线 Demo 或看 README 的快速开始,也许你会立刻用它生成一条语音笔记:ChatTTS on GitHub

