Voicebox开源:本地克隆声音,给Claude Code配音,支持情绪标签

ElevenLabs 的声音克隆效果不错,但每月几十刀,加上音频数据要上传到他们服务器——这两道坎不小。Voicebox 是开源平替,28000+ Star,核心是本地优先。
几秒钟参考音频就能生成声音模型,覆盖23种语言。内置7个TTS引擎,各有侧重:Chatterbox Turbo 支持 [laugh]、[sigh] 这类情绪标签,让生成语音带真实情绪;Qwen3-TTS 擅长多语言克隆还能听懂「慢一点说」「用耳语」这种自然语言指令;没有显卡的可以选 Kokoro,82M模型CPU就能跑。
接入 Claude Code 只需一行:claude mcp add voicebox --transport http --url http://127.0.0.1:17493/mcp
接上之后,Claude Code 能用你克隆的声音说「测试通过,可以合并」。还能给不同 Agent 绑定不同声音,听声音就能分辨是哪个 Agent 在汇报。
还有一个「人格化」功能:给声音绑一段人设描述,比如「毒舌的代码审查官」,之后所有输出文本都会先按人设改写,再合成语音。说话风格也是你定的。
macOS 和 Windows 都有安装包,苹果 M 芯片上速度比通用方案快不少,NVIDIA 显卡自动走 CUDA。缺点是 Qwen3-TTS 模型文件有几个 G,首次下载得等。
项目下载:https://pan.quark.cn/s/6f22fd03bfd1
GitHub 项目地址:https://github.com/jamiepine/voicebox