技术特征:
1.一种语音合成方法,其特征在于,所述方法包括:响应于文本输入操作,获取输入文本;响应于语音类型选择操作,确定目标语音类型,所述目标语音类型包括目标情感类型与目标音色类型;响应于语音合成操作,按照所述目标语音类型对所述输入文本进行语音合成,得到目标语音,所述目标语音是具有所述目标情感类型对应情感与所述目标音色类型对应音色的音频。2.根据权利要求1所述的方法,其特征在于,所述按照所述目标语音类型对所述输入文本进行语音合成,得到目标语音,包括:对所述输入文本进行音素转化,得到所述输入文本的文本音素;将所述文本音素以及所述目标语音类型输入声学模型,得到目标声学特征,所述声学模型用于基于音素、情感以及音色合成声学特征;利用声码器对所述目标声学特征进行语音合成,得到所述目标语音。3.根据权利要求2所述的方法,其特征在于,所述对所述输入文本进行音素转化,得到所述输入文本的文本音素,包括:对所述输入文本进行文本正则处理,得到正则化文本,所述正则化文本用于表示所述输入文本的发音方式;对所述正则化文本进行韵律分析,得到所述正则化文本的韵律特征;对所述正则化文本进行多音字分析,得到所述正则化文本中目标多音字的发音类别;基于所述正则化文本、韵律特征以及所述多音字的发音类别进行字音转换,得到所述文本音素。4.根据权利要求3所述的方法,其特征在于,所述对所述输入文本进行文本正则处理,得到正则化文本,包括:确定所述输入文本中非规范文本对应的规则类型,其中,所述非规范文本包括所述输入文本中的数字或符号中的至少一种,不同规则类型对应不同发音方式;基于所述规则类型对所述非规范文本进行文本正则处理,得到所述正则化文本。5.根据权利要求3所述的方法,其特征在于,所述对所述正则化文本进行韵律分析,得到所述正则化文本的韵律特征,包括:对所述正则化文本进行分词处理,得到所述正则化文本中的各个词组;对所述各个词组间韵律进行韵律强度分类,得到所述正则化文本的韵律特征,所述韵律特征用于表征所述各个词组间的停顿方式,不同韵律强度对应不同停顿方式。6.根据权利要求3所述的方法,其特征在于,所述对所述正则化文本进行多音字分析,得到所述正则化文本中目标多音字的发音类别,包括:将所述正则化文本输入多音字分类模型进行发音预测,得到所述目标多音字的预测发音类别;将所述预测发音类别与所述目标多音字的候选发音类别进行匹配,得到所述目标多音字的目标发音类别,所述候选发音类别包括所述目标多音字的各种发音类别。7.根据权利要求6所述的方法,其特征在于,所述将所述预测发音类别与所述目标多音字的候选发音类别进行匹配,得到所述目标多音字的目标发音类别,包括:
在所述预测发音类别属于所述候选发音类别的情况下,将所述预测发音类别确定为所述目标发音类别;在所述预测发音类别不属于所述候选发音类别的情况下,基于所述候选发音类别确定所述目标发音类别,所述目标发音类别是所述候选发音类别中其中一种。8.根据权利要求1至7任一所述的方法,其特征在于,所述目标语音类型包括所述目标情感类型,所述响应于语音类型选择操作,确定目标语音类型,包括:响应于对情感类型选择控件的触发操作,显示情感选择界面,所述情感选择界面中包含至少一种情感类型对应的情感控件;响应于对目标情感控件的触发操作,将所述目标情感控件对应的情感类型确定为所述目标情感类型。9.根据权利要求1至7任一所述的方法,其特征在于,所述目标语音类型包括所述目标音色类型,所述响应于语音类型选择操作,确定目标语音类型,包括:响应于对音色总类选择控件的触发操作,显示音色总类选择界面,所述音色总类选择界面中包含至少一种音色总类型对应的总类型控件;响应于对目标总类型控件的触发操作,显示所述目标总类型控件对应的目标音色总类型;响应于对音色分类选择控件的触发操作,显示音色分类选择界面,所述音色分类选择界面中包含至少一个音色类型对应的音色控件,所述至少一个音色类型属于所述目标音色总类型;响应于对目标音色控件的触发操作,将所述目标音色控件对应的音色类型确定为所述目标音色类型。10.根据权利要求1至7任一所述的方法,其特征在于,所述目标语音类型包含至少两种目标情感类型或至少两种目标音色类型;所述按照所述目标语音类型对所述输入文本进行语音合成,得到目标语音,包括:确定所述输入文本中各个文本分段对应的分段语音类型,所述分段语音类型属于所述目标语音类型;按照所述分段语音类型对所述各个文本分段进行语音合成,得到所述各个文本分段对应的分段语音。11.根据权利要求1至7任一所述的方法,其特征在于,所述方法还包括:响应于背景音选择操作,确定所述目标语音对应的背景音乐;所述响应于语音合成操作,按照所述目标语音类型对所述输入文本进行语音合成,得到目标语音之后,所述方法包括:将所述目标语音与所述背景音乐进行混音处理,得到混合音频。12.一种语音合成装置,其特征在于,所述装置包括:文本获取模块,用于响应于文本输入操作,获取输入文本;类型确定模块,用于响应于语音类型选择操作,确定目标语音类型,所述目标语音类型包括目标情感类型与目标音色类型;语音合成模块,用于响应于语音合成操作,按照所述目标语音类型对所述输入文本进行语音合成,得到目标语音,所述目标语音是具有所述目标情感类型对应情感与所述目标
音色类型对应音色的音频。13.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至11任一所述的语音合成方法。14.一种计算机可读存储介质,其特征在于,所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至11任一所述的语音合成方法。15.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,所述计算机指令存储在计算机可读存储介质中,计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令,所述处理器执行所述计算机指令以实现如权利要求1至11任一所述的语音合成方法。
技术总结
本申请公开了一种语音合成方法、装置、设备、存储介质及程序产品,涉及人工智能领域。该方法包括:响应于文本输入操作,获取输入文本;响应于语音类型选择操作,确定目标语音类型,所述目标语音类型包括目标情感类型与目标音色类型;响应于语音合成操作,按照所述目标语音类型对所述输入文本进行语音合成,得到目标语音,所述目标语音是具有所述目标情感类型对应情感与所述目标音色类型对应音色的音频。本申请实施例提供的方法,可使合成语音具有用户指定的情感特性与音色特性,丰富语音效果,有助于提高合成语音的真实性与自然性。助于提高合成语音的真实性与自然性。助于提高合成语音的真实性与自然性。
技术研发人员:黄杰雄 轩晓光 关迪聆 陈传艺 高阳升
受保护的技术使用者:广州酷狗计算机科技有限公司
技术研发日:2021.12.24
技术公布日:2022/3/25