🗣️ VoxCPM 2 语音合成工作台

方言	地道示例（正文）	Control Instruction
粤语	`伙計，唔該一個A餐，凍奶茶少甜！`	`Cantonese`
四川话	`幺儿，哈戳戳得你屋头来噶！`	`Sichuan dialect`
东北话	`你搁这整啥玩意儿呢？`	`Northeastern dialect`
河南话	`恁这是弄啥嘞？晌午吃啥饭？`	`Henan dialect`

方言

地道示例（正文）

Control Instruction

粤语

伙計，唔該一個A餐，凍奶茶少甜！

Cantonese

四川话

幺儿，哈戳戳得你屋头来噶！

Sichuan dialect

东北话

你搁这整啥玩意儿呢？

Northeastern dialect

河南话

恁这是弄啥嘞？晌午吃啥饭？

Henan dialect

生成说明（中文翻译版）

没有参考音频时，也可以直接靠文字描述生成声音。官方建议把身份、声音质感、情绪和场景合并进一条完整的 Control Instruction。

身份设定：例如“中年男播音员”“年长女性”“卡通男孩”。
声音质感：例如“低沉”“沙哑”“有磁性”“颗粒感”。
表达状态：例如“热情”“缓慢叙述”“新闻播报”“历史旁白”。
中英文都可以，但尽量写成一条完整、清晰、少冲突的描述。

示例：热情洋溢的中年男性播音员，声音较低沉，富有磁性，带着逐渐密集的节奏感呼喊宣讲话语。

声音克隆说明

如果你想复现某个具体音色，可以上传或录制参考音频。VoxCPM 2 会提取其中的音色特征再进行合成。

建议至少准备 5 秒以上、干净稳定、噪音少的人声片段。
克隆更适合保留原始音色，再去调情绪、语速、说话方式。
不要指望只靠克隆就把说话人的身份完全改成另一个人。
如果参考音频过短、过吵、混响重，效果通常会明显下降。

多语种与方言

官方建议是：正文直接使用目标语言。方言场景里，正文最好写成真实、地道的方言说法，而不是普通话硬翻。

普通多语种输入通常不需要额外加语言标签。
方言时，Control Instruction 可以只写方言名，例如 Cantonese。
如果不会写方言，可以先让 AI 帮你把普通话改成更自然的当地表达。

例子：粤语正文写“伙計，唔該一個A餐，凍奶茶少甜！”，控制项只写 Cantonese，往往比“普通话正文 + 很多复杂说明”更自然。

非语言标签怎么用

为了让语音不那么机械，可以在正文里直接插入英文方括号标签。官方更推荐使用稳定、简单、数量少的标签。

笑与叹息：[laughing]、[sigh]
停顿与思考：[Uhm]、[Shh]
疑问语气：[Question-ah]、[Question-ei]
不要在一句话里叠太多标签，否则容易影响稳定性。

语音合成工作台

批量对白生成

对白脚本

VoxCPM 2 使用说明

先写目标语言正文

再补风格或参考音频

多试几次微调

生成说明（中文翻译版）

声音克隆说明

多语种与方言

非语言标签怎么用

批量对白生成

对白脚本

生成队列

VoxCPM 2 使用说明

先写目标语言正文

再补风格或参考音频

多试几次微调

生成说明（中文翻译版）

声音克隆说明

多语种与方言

非语言标签怎么用