VoxCPM 2

语音合成工作台

OpenBMB VoxCPM2 · 官方最佳实践 · 多语种/方言/克隆/风格控制

直连 HuggingFace Space · openbmb/VoxCPM-Demo
↗ 官方 Space
✍️ 文本与控制指令
📋 使用要点
使用建议
• 先直接写清楚目标语言正文,确有需要时再补充控制项
• 非语言标签点到为止,用来加气口、笑声或迟疑
• 做 Voice Design 时,把身份、声音质感与表达场景揉进一条 Control Instruction
• 做克隆时,先准备 5 秒以上 的干净参考音频,再逐步加入风格控制
示例 1 — 林黛玉
Control Instruction: young Chinese maiden, teenage girl, clear, bright, slightly high-pitched voice, light, airy, crisp and delicate, soft and ethereal, not deep or heavy, slow gentle pacing, slightly cute, soft sweet tone
Target Text: 早知他来,我就不来了。今儿他来,明儿我来,若肯错开些,岂不天天有人来?也不至太热闹,也不至太冷清。谁知你倒偏要凑在一处……叫我这心里,越发不是滋味了。[sigh]
示例 2 — 暴躁驾校教练
Control Instruction: 暴躁的中年男声,语速快,充满无奈和愤怒
Target Text: 踩离合!踩刹车啊!你往哪儿开呢?前面是树你看不见吗?我教了你八百遍了,打死方向盘!你是不是想把车给我开到沟里去?
🗣️ 方言生成指南(官方推荐)
📌 核心原则
• 正文用地道方言书写,不要用普通话硬套
• Control Instruction 只需写方言名(如 Cantonese),不要加太多复杂描述
方言地道示例(正文)Control Instruction
粤语伙計,唔該一個A餐,凍奶茶少甜!Cantonese
四川话幺儿,哈戳戳得你屋头来噶!Sichuan dialect
东北话你搁这整啥玩意儿呢?Northeastern dialect
河南话恁这是弄啥嘞?晌午吃啥饭?Henan dialect
🤖 小技巧:不会写方言?先用 AI 助手把普通话改写成地道方言,再粘贴到正文。
0
🎛️ Control Instruction(可选,可与克隆人物叠加)
🎭 当前控制指令预览
(默认,无额外风格修饰)
😊 发音风格(可多选组合)
默认
😄 开心
😢 悲伤
😡 生气
🥰 温柔
🧐 严肃
😴 慵懒
🤫 悄悄话
🎀 夹子音
⏩ 快速
⏪ 慢速
🔥 激昂
🎙️ 声音特征(可多选)
👦 男声
👧 女声
🧒 儿童
🧑 少年
👨 中年
👴 老年
🎵 温柔
🪨 粗犷
🌫️ 沙哑
🔔 清脆
🎻 低沉
🍬 甜美
🎙️ 磁性
⚡ 快速风格预设(点击应用)
🧔 中年男人 粗犷嗓音
😴 刚睡醒 迷迷糊糊
📻 播音腔 字正腔圆
🧸 小萝莉 可爱声线
👵 老年女性 慈祥
🔥 热血少年 中二
🎙️ 磁性嗓音 霸道总裁
🍓 甜美少女 撒娇
🌸 温柔女声 亲切自然
📰 新闻主播 稳重清晰
📜 历史旁白 低沉缓慢 沧桑
🎧 客服小姐姐 甜美耐心
📚 老师讲课 清楚耐心
📻 电台主持 轻松聊天感
🎈 动漫少年 活泼夸张
❄️ 冷艳御姐 高冷克制
💡 让语音更自然:在目标文本中加入 英文方括号标签,如 [laughing][sigh]
⚠️ 建议只用推荐英文标签,中文也可,控制数量,避免一句话叠太多
🔊 插入非语言标签(点击插入光标处)
✓ 合成完成 ⬇ 下载 WAV
0:000:00
🕐 历史记录
🔑 人物声音库
🎵 参考音频(官方建议 ≥5 秒)
✕ 移除
临时音频已就绪,可直接生成
🎤 或直接录制(建议 5-10 秒)
00:00
点击 🔴 开始录音,安静环境效果更佳
🎧 录音预览
已注册人物
当前未选择人物,可直接使用预设或临时音频。
暂无注册人物,上传或录音开始注册 👆
🔍 如何使用人物声音?
📋 克隆最佳实践
1️⃣ 准备 ≥5 秒 干净参考音频(无背景噪音)
2️⃣ 填写人物名称 → 点击"注册人物"保存到本地
3️⃣ 下次点击人物卡片 → 自动加载音色 → 可叠加风格控制
4️⃣ 🔊 点击播放按钮可试听参考音频

⚠️ 克隆不能任意改变说话人身份,更适合在原始音色基础上调整情绪/语速
⚙️ 合成参数
CFG 系数 2.0
官方推荐 1.5~2.5 · 越高越贴合参考音频
📡 生成说明(本次请求)
支持“参考音频 + 控制指令”联合使用 · Ctrl+Enter 快速合成

批量对白生成

把多角色台词按固定格式粘进来,系统会自动按“角色名”匹配你前面保存的人物声音,逐条生成,并支持多选后一键下载。

对白脚本

支持格式:(序号)角色:台词[标签]。如果方括号内是中文,会自动作为控制指令;如果是像 [laughing] 这样的英文标签,会自动插回台词正文。
先点击“解析脚本”,系统会先帮你检查角色匹配情况。

生成队列

解析后会在这里显示每条对白的匹配结果与生成状态。

VoxCPM 2 使用说明

本页根据官方 VoxCPM 2 最佳实践整理,重点把“怎么写文本、怎么写控制指令、什么时候该用参考音频”翻译成更好上手的中文说明,方便你直接边看边试。

01

先写目标语言正文

大多数情况下,先直接输入你真正想说的话,不必一开始就加很多标签或语言说明。

02

再补风格或参考音频

如果需要固定音色就上传参考音频;如果只是想生成某种人物感和语气,就写 Control Instruction。

03

多试几次微调

官方文档强调模型带有一定随机性,同一组文本和提示词,每次生成都可能有细微差异。

生成说明(中文翻译版)

没有参考音频时,也可以直接靠文字描述生成声音。官方建议把身份、声音质感、情绪和场景合并进一条完整的 Control Instruction。

  • 身份设定:例如“中年男播音员”“年长女性”“卡通男孩”。
  • 声音质感:例如“低沉”“沙哑”“有磁性”“颗粒感”。
  • 表达状态:例如“热情”“缓慢叙述”“新闻播报”“历史旁白”。
  • 中英文都可以,但尽量写成一条完整、清晰、少冲突的描述。
示例:热情洋溢的中年男性播音员,声音较低沉,富有磁性,带着逐渐密集的节奏感呼喊宣讲话语。

声音克隆说明

如果你想复现某个具体音色,可以上传或录制参考音频。VoxCPM 2 会提取其中的音色特征再进行合成。

  • 建议至少准备 5 秒以上、干净稳定、噪音少的人声片段。
  • 克隆更适合保留原始音色,再去调情绪、语速、说话方式。
  • 不要指望只靠克隆就把说话人的身份完全改成另一个人。
  • 如果参考音频过短、过吵、混响重,效果通常会明显下降。

多语种与方言

官方建议是:正文直接使用目标语言。方言场景里,正文最好写成真实、地道的方言说法,而不是普通话硬翻。

  • 普通多语种输入通常不需要额外加语言标签。
  • 方言时,Control Instruction 可以只写方言名,例如 Cantonese
  • 如果不会写方言,可以先让 AI 帮你把普通话改成更自然的当地表达。
例子:粤语正文写“伙計,唔該一個A餐,凍奶茶少甜!”,控制项只写 Cantonese,往往比“普通话正文 + 很多复杂说明”更自然。

非语言标签怎么用

为了让语音不那么机械,可以在正文里直接插入英文方括号标签。官方更推荐使用稳定、简单、数量少的标签。

  • 笑与叹息:[laughing][sigh]
  • 停顿与思考:[Uhm][Shh]
  • 疑问语气:[Question-ah][Question-ei]
  • 不要在一句话里叠太多标签,否则容易影响稳定性。
📋 请求日志