DramaBoxStudio:8G显存就能跑的AI配音工具,自带语音库和对话工坊

想给视频配个AI旁白,结果发现那些语音克隆方案动辄要24G显存。
DramaBoxStudio 是Resemble AI旗下DramaBox的社区改编版,专门给中文用户做的本地化包装。核心卖点是8G显存就能跑,自带语音库管理和对话工坊。
能做什么
上传10秒左右的人声样本,模型就能模仿那个音色。用英文写说话人特征(性别、年龄、情绪),引号里放中文或英文台词,模型会按描述来演绎——包括笑声、叹气、停顿、语气转换。
语音库管理:上传的参考音频可以命名保存,后续直接点选调用,不用每次都重新上传。对话工坊:扔进去一段剧本,自动解析角色分配,批量生成对话音频。做有声书、广播剧、短视频配音的应该能省不少事。
内置18种非语言提示词(深呼吸、清嗓子、声音颤抖之类),一键插入。中文文本选中后自动套双引号,避免格式错误。显存自适应分三档配置,8G能跑,24G也能榨干。
写prompt的门道
基本结构:英文说话人描述,引号里是真正念出来的内容,引号外是表演指示。比如 “She sighs deeply” 会生成叹气声,但 “Sigh” 放引号里模型就会字面念出”叹息”——这是第一次用最容易踩的坑。
长句中间插动作描述来断句,比一口气念到底要自然。笑声、吸气这些拟声词可以塞引号里,但必须是单字或叠词形式。
怎么跑
懒人方案:去wangzhifeng.vip下整合包,嵌入式Python+模型权重全打包好,解压双击bat文件就行。Windows 10/11,NVIDIA显卡8G显存起步。源码方案需要Python 3.10-3.13,硬盘空余25G左右(模型占大头),首次运行要联网下权重。
项目下载:https://pan.quark.cn/s/918ecb5f022c
GitHub 项目地址:https://github.com/wwzhifeng/DramaBoxStudio