本申请涉及人工智能,尤其涉及一种基于多尺度风格的语音合成方法、装置、计算机设备及存储介质。
背景技术:
1、现有的语音合成技术已经取得了长足的进步,但是在实际生产生活中,人们很容易就分辨出是对话的另一端是机器人还是真人,这是因为合成的语音数据一般会考虑追求平稳,因此在情感和表达方面也就不会太丰富。
2、随着但近些年大家对情感合成以及个性化合成的兴趣与需求越来越高,目前情感语音合成工作的侧重点,基本都是在于从语句中获取上下文信息建立单一尺度的模型,却忽略了语音风格的在不同尺度上的差异性,导致合成语音的风格情况还是比较单一,不够丰富,机器感比较明显。
技术实现思路
1、本申请实施例提供一种基于多尺度风格的语音合成方法、装置、计算机设备及存储介质,以解决传统方案的合成语音的风格情况还是比较单一,不够丰富,机器感比较明显问题。
2、一种基于多尺度风格的语音合成方法,包括:
3、提取原始语音对应的目标音频和目标文本;
4、对所述目标音频进行风格分析,得到第一风格嵌入向量;
5、对所述目标文本进行风格预测,得到第二风格嵌入向量;
6、融合所述第一风格嵌入向量和所述第二风格嵌入向量,得到目标风格嵌入向量;
7、基于所述目标风格嵌入向量合成目标语音。
8、一种基于多尺度风格的语音合成装置,包括:
9、提取模块,用于提取原始语音对应的目标音频和目标文本;
10、风格分析模块,用于对所述目标音频进行风格分析,得到第一风格嵌入向量;
11、风格预测模块,用于对所述目标文本进行风格预测,得到第二风格嵌入向量;
12、融合模块,用于融合所述第一风格嵌入向量和所述第二风格嵌入向量,得到目标风格嵌入向量;
13、合成模块,用于基于所述目标风格嵌入向量合成目标语音。
14、一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于多尺度风格的语音合成方法的步骤。
15、一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于多尺度风格的语音合成方法的步骤。
16、上述基于多尺度风格的语音合成方法、装置、计算机设备及存储介质所实现的方案中,与传统的方案相比,提出了多尺度的风格提取和嵌入方法,从不同尺度充分提取语音风格,突出合成语音数据的风格和情感,引入了不同尺度的语音风格分析和预测,帮助合成语音的情感话表达,提升情感语音的合成质量,可以获得最终富有情感的合成语音,解决传统语音合成方案机器感较强、情感不够丰富的问题。
1.一种基于多尺度风格的语音合成方法,其特征在于,包括:
2.如权利要求1所述的基于多尺度风格的语音合成方法,其特征在于,所述对所述目标音频进行风格分析,得到第一风格嵌入向量,包括:
3.如权利要求2所述的基于多尺度风格的语音合成方法,其特征在于,所述分别对所述全局梅尔谱、局部梅尔谱和片段梅尔谱进行风格编码以及分别将编码后的风格信息输入相应的风格标签层,得到全局音频风格向量、局部音频风格向量和片段音频风格向量,包括:
4.如权利要求1所述的基于多尺度风格的语音合成方法,其特征在于,所述对所述目标文本进行风格预测,得到第二风格嵌入向量,包括:
5.如权利要求4所述的基于多尺度风格的语音合成方法,其特征在于,所述分别对所述全局语义序列、局部语义序列和片段语义序列进行风格预测,得到全局文本风格向量、局部文本风格向量和片段文本风格向量,包括:
6.如权利要求1-5任一项所述的基于多尺度风格的语音合成方法,其特征在于,融合所述第一风格嵌入向量和所述第二风格嵌入向量,得到目标风格嵌入向量,包括:
7.一种基于多尺度风格的语音合成装置,其特征在于,包括:
8.如权利要求7所述的基于多尺度风格的语音合成装置,其特征在于,所述风格预测模块具体用于:
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述基于多尺度风格的语音合成方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于多尺度风格的语音合成方法的步骤。