本发明属于语音合成,尤其涉及语音合成系统的改进方法、电子设备和存储介质。
背景技术:
1、相关技术中,之前尚未有投机解码策略在语音生成领域的应用,较相关的是如下自回归语音生成模型的推理加速方式:(1)运用低比特率声学编码,缩短离散语音序列,加速推理;(2)运用声学bpe(byte-pair encoding,字节对编码技术),缩短离散语音序列,加速推理;(3)vall-e 2(vall-e的基础上进行采样策略改进以及用合并编码训练降低训练时离散语音编码比特率的优化方案,其中,vall-e是一种结合自回归和非自回归离散语音语言模型的语音生成架构)中直接运用合并离散语音编码的方法,加速推理。其中,低比特率声学编码为应用新型技术将语音压缩至更低比特率的离散表征内,致使等长的语音可以有更短的离散序列表征,从而在自回归推理时减少推理步骤,达到加速效果;声学bpe和vall-e 2中均为将原离散编码先合并为新的编码形式,自回归推理新编码,再通过简单的解码步骤还原为原编码,这样也减少了自回归推理步骤。
2、发明人发现,这些技术改变了训练策略,对模型本身有较大的改动,可能影响语音合成的质量以及增加不稳定性。
技术实现思路
1、本发明实施例提供一种语音合成系统的改进方法、电子设备和存储介质,用于至少解决上述技术问题之一。
2、第一方面,本发明实施例提供一种语音合成系统的改进方法,用于vall-e模型,包括:在所述vall-e模型的基础上,结合高级投机解码策略和宽容机制,运用多个预测头预测更多的标记,其中,所述高级投机解码策略包括基于自回归transformer模型的有效无损投机解码方法;以及通过验证机制保证推理采样与所述vall-e模型一致。
3、第二方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本发明任一实施例的语音合成系统的改进系统的训练方法的步骤。
4、第三方面,本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面所述方法的步骤。
5、第四方面,本发明实施例还提供一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现第一方面所述方法的步骤。
6、本申请实施例在总体上完整的保留了原有的vall-e模型,结合“medusa”投机采样以及宽容机制,运用更多个预测头预测更多的token,再通过验证机制保证推理采样与原模型一致。这样可以保证原有的模型性能,并通过多头预测更远的token实现一种类束搜索的效果,优化了模型的稳定性和生成效果。“宽容”机制的提出,使更多预测头的结果可以被接受,显著增强了加速效果,同时提升了语音生成性能。
1.一种语音合成系统的改进方法,用于vall-e模型,包括:
2.根据权利要求1所述的方法,其中,所述高级投机解码策略包括:
3.根据权利要求1所述的方法,其中,所述包括:
4.根据权利要求1所述的方法,其中,所述宽容机制包括:当宽容度为2时,自回归头在核采样过程中进行两次多项式采样。
5.根据权利要求1所述的方法,其中,所述通过验证机制保证推理采样与所述vall-e模型一致包括:
6.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述方法的步骤。
7.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-5中任一项所述方法的步骤。