本申请涉及语音合成领域,尤其涉及一种融合语义信息的语音合成方法、系统。
背景技术:
1、语音合成技术也称为文本到语音(text-to-speech,tts),目的是通过向设备输入文字,令其转化为人类可以听懂的流畅语音,这一技术是实现人机交互的重要部分,在语音助手、语音导航、智能机器人等方面已有广泛的应用。近几年,深度神经网络的发展使得端到端的语音合成方法成为了研究主流,许多优秀模型的合成语音已经非常接近人声。但是大多数的合成语音仍然存在声音机械、停顿不明确、表现力不足的问题。
2、为了合成出更贴近人生的语音,目前的主流方法中,韵律建模是一种比较有效的方法,韵律建模的目的是使模型学会预测韵律表征的能力,韵律建模有两种不同的方法,对于预测或提取的韵律表征,如果存在实际的物理意义且可以直接通过对数据的处理得到,例如,时长、能量、基频,称之为显式韵律建模;如果没有明显的物理意义,需要通过额外特征提取器得到,称之为隐式韵律建模。另一种是显式韵律建模,通过引入时长、能量、基频使合成语音的表现力得到了一定提升,但仍然存在显式的韵律表征提取容易出现误差,无法将不同的韵律表征进行联系的问题,韵律自然度仍有可以提升的空间。
技术实现思路
1、本申请实施例提供一种基于融合语义信息的语音合成的方法及装置的相关技术方案,用以解决现有技术中显式的韵律表征提取容易出现误差,无法将不同的韵律表征进行联系的问题,韵律自然度低的技术问题。
2、本申请实施例提供一种基于融合语义信息的语音合成的方法,包括如下步骤:
3、数据准备,收集语音数据以及对应文本,对数据进行预处理提取音素序列、时长、能量、基频数据;
4、模型构建,构建融合语义信息的语音合成模型;
5、模型训练,输入真实音频对应的音素序列、时长、能量、基频数据对模型进行训练得到训练好的模型;
6、模型测试,对训练好的模型从合成语音质量以及与语音说话人相似度两个方面进行评价打分,若打分结果满足条件,则使用该模型进行语音合成。
7、进一步的,所述合成模型包括音素编码器、词编码器、词-音素注意力、编码器、变量适配器以及梅尔谱解码器;所述音素编码器连接到词编码器,所述音素编码器和词编码器分别连接词-音素注意力,词-音素注意力连接编码器,编码器连接变量适配器,变量适配器连接梅尔谱解码器。
8、进一步的,收集整理中文数据集aishell-3以及英文数据集libritts,对中文数据集aishell-3以及英文数据集libritts分别进行预处理,将aishell-3音频对应的中文文本进行拼音化处理,得到文本为拼音的文本序列。
9、进一步的,所述模型训练中使用adam优化器。
10、进一步的,所述打分包括得到10个不同说话人的合成音频得分,并将10个人的得分再次进行平均得到最终模型得分。
11、本申请实施例还提供一种基于融合语义信息的语音合成的装置,包括:
12、数据收集模块,收集语音数据以及对应文本,对数据进行预处理提取音素序列、时长、能量、基频数据;
13、模型构建模块,构建融合语义信息的语音合成模型;
14、模型训练模块,输入真实音频对应的音素序列、时长、能量、基频数据对模型进行训练得到训练好的模型;
15、模型测试模块,对训练好的模型从合成语音质量以及与语音说话人相似度两个方面进行评价打分,若打分结果满足条件,则使用该模型进行语音合成。
16、进一步的,其中,所述合成模型包括音素编码器、词编码器、词-音素注意力、编码器、变量适配器以及梅尔谱解码器;所述音素编码器连接到词编码器,所述音素编码器和词编码器分别连接词-音素注意力,词-音素注意力连接编码器,编码器连接变量适配器,变量适配器连接梅尔谱解码器。
17、进一步的,所述打分包括得到10个不同说话人的合成音频得分,并将10个人的得分再次进行平均得到最终模型得分。
18、本申请实施例还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现前述的方法的步骤。
19、本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述的方法的步骤。
20、本发明提供的实施例至少具有以下有益效果:
21、本发明提供一种基于融合语义信息的语音合成的方法,包括如下步骤:数据准备,收集语音数据以及对应文本,对数据进行预处理提取音素序列、时长、能量、基频数据;模型构建,构建融合语义信息的语音合成模型;模型训练,输入真实音频对应的音素序列、时长、能量、基频数据对模型进行训练得到训练好的模型;模型测试,对训练好的模型从合成语音质量以及与语音说话人相似度两个方面进行评价打分,若打分结果满足条件,则使用该模型进行语音合成。采用本申请的技术方案能减少显式韵律建模中韵律表征提取出现的误差,提升韵律自然度。
1.一种基于融合语义信息的语音合成的方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于融合语义信息的语音合成的方法,其特征在于,所述合成模型包括音素编码器、词编码器、词-音素注意力、编码器、变量适配器以及梅尔谱解码器;所述音素编码器连接到词编码器,所述音素编码器和词编码器分别连接词-音素注意力,词-音素注意力连接编码器,编码器连接变量适配器,变量适配器连接梅尔谱解码器。
3.根据权利要求1所述的基于融合语义信息的语音合成的方法,其特征在于,收集整理中文数据集aishell-3以及英文数据集libritts,对中文数据集aishell-3以及英文数据集libritts分别进行预处理,将aishell-3音频对应的中文文本进行拼音化处理,得到文本为拼音的文本序列。
4.根据权利要求1所述的基于融合语义信息的语音合成的方法,其特征在于,所述模型训练中使用adam优化器。
5.根据权利要求1所述的基于融合语义信息的语音合成的方法,其特征在于,所述打分包括得到10个不同说话人的合成音频得分,并将10个人的得分再次进行平均得到最终模型得分。
6.一种基于融合语义信息的语音合成的装置,其特征在于,包括:
7.根据权利要求6所述的基于融合语义信息的语音合成的装置,其特征在于,所述合成模型包括音素编码器、词编码器、词-音素注意力、编码器、变量适配器以及梅尔谱解码器;所述音素编码器连接到词编码器,所述音素编码器和词编码器分别连接词-音素注意力,词-音素注意力连接编码器,编码器连接变量适配器,变量适配器连接梅尔谱解码器。
8.根据权利要求6所述的基于融合语义信息的语音合成的装置,其特征在于,所述打分包括得到10个不同说话人的合成音频得分,并将10个人的得分再次进行平均得到最终模型得分。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。