语音合成是一个“不等长序列关系建模的生成任务”
“七百三十九”5个“token”对应着20多个语音“帧”
不能单独建模 “七”与X帧的关系,“百”与Y帧的关系,。。。。,然后拼接起来,这样是违反人类发音的本质的。
采样率 = 16000
为了将字符映射为浮点数,pytorch采取了“可训练查询表”的方式,设数据集中含有的token 数量&
京公网安备 11010502049817号