01
先写目标语言正文
大多数情况下,先直接输入你真正想说的话,不必一开始就加很多标签或语言说明。
OpenBMB VoxCPM2 · 官方最佳实践 · 多语种/方言/克隆/风格控制
young Chinese maiden, teenage girl, clear, bright, slightly high-pitched voice, light, airy, crisp and delicate, soft and ethereal, not deep or heavy, slow gentle pacing, slightly cute, soft sweet tone早知他来,我就不来了。今儿他来,明儿我来,若肯错开些,岂不天天有人来?也不至太热闹,也不至太冷清。谁知你倒偏要凑在一处……叫我这心里,越发不是滋味了。[sigh]
暴躁的中年男声,语速快,充满无奈和愤怒踩离合!踩刹车啊!你往哪儿开呢?前面是树你看不见吗?我教了你八百遍了,打死方向盘!你是不是想把车给我开到沟里去?
Cantonese),不要加太多复杂描述
| 方言 | 地道示例(正文) | Control Instruction |
|---|---|---|
| 粤语 | 伙計,唔該一個A餐,凍奶茶少甜! | Cantonese |
| 四川话 | 幺儿,哈戳戳得你屋头来噶! | Sichuan dialect |
| 东北话 | 你搁这整啥玩意儿呢? | Northeastern dialect |
| 河南话 | 恁这是弄啥嘞?晌午吃啥饭? | Henan dialect |
[laughing] 或 [sigh]。把多角色台词按固定格式粘进来,系统会自动按“角色名”匹配你前面保存的人物声音,逐条生成,并支持多选后一键下载。
(序号)角色:台词[标签]。如果方括号内是中文,会自动作为控制指令;如果是像 [laughing] 这样的英文标签,会自动插回台词正文。本页根据官方 VoxCPM 2 最佳实践整理,重点把“怎么写文本、怎么写控制指令、什么时候该用参考音频”翻译成更好上手的中文说明,方便你直接边看边试。
大多数情况下,先直接输入你真正想说的话,不必一开始就加很多标签或语言说明。
如果需要固定音色就上传参考音频;如果只是想生成某种人物感和语气,就写 Control Instruction。
官方文档强调模型带有一定随机性,同一组文本和提示词,每次生成都可能有细微差异。
没有参考音频时,也可以直接靠文字描述生成声音。官方建议把身份、声音质感、情绪和场景合并进一条完整的 Control Instruction。
如果你想复现某个具体音色,可以上传或录制参考音频。VoxCPM 2 会提取其中的音色特征再进行合成。
官方建议是:正文直接使用目标语言。方言场景里,正文最好写成真实、地道的方言说法,而不是普通话硬翻。
Cantonese。Cantonese,往往比“普通话正文 + 很多复杂说明”更自然。为了让语音不那么机械,可以在正文里直接插入英文方括号标签。官方更推荐使用稳定、简单、数量少的标签。
[laughing]、[sigh][Uhm]、[Shh][Question-ah]、[Question-ei]