在中文语音合成中,多音字是一个常见的挑战。同一个汉字在不同语境下可能有不同的读音,例如:
行
字可以读作 xíng
(如行走
)或 háng
(如银行
)长
字可以读作 cháng
(如长度
)或 zhǎng
(如成长
)重
字可以读作 zhòng
(如重要
)或 chóng
(如重复
)
如果不指定正确的读音,AI语音合成可能会选择错误的发音,导致生成结果不自然或含义错误。
IndexTTS 提供了一种简单直观的方法来控制多音字的发音:直接在文本中使用拼音+声调数字标注。
汉字拼音+声调数字
其中声调数字的含义:
mā
má
mǎ
mà
ma
五xing2相生相克
衣shang5整齐
最zhong4要的是不要chong2复错误
重
分别读作 zhòng
(第四声)和 chóng
(第二声)了
需要读作 liǎo
而非 le
时我想liao3解情况
j, q, x
声母后接 u/ü
的拼音,系统会自动处理为 v
,例如:
ju
-> jv
que
-> qve
xün
-> xvn
此功能在以下场景特别有用:
强
可读作 qiáng
或 qiǎng
奠基
中的奠
读作 diàn
而非 zhèn
朝阳
中的朝
读作 cháo
而非 zhāo
通过这种简单的标注方法,您可以确保IndexTTS生成的语音准确表达您想要的内容,不会因多音字问题造成误解。