本技术属于人工智能,具体涉及一种语音转换方法、装置、计算机设备及存储介质。
背景技术:
1、目前,金融客服服务已经成为金融机构中不可或缺的一部分,随着科技的不断发展,金融客服服务已经逐渐过渡到自动化和智能化,以提高效率和客户体验。
2、在金融客服服务领域,已经存在一些应用语音转换技术的智能客服系统。然而,当前的语音转换技术还存在一些问题和不足,例如,转换生成的语音对话中缺少自发行为,如停顿、重复、延长、哈欠等,导致转换效果自然度低,机械感重,缺乏人类声音的自然流畅性。在对话过程中,使用语音转换,用户通常会感受到不自然的声音,这严重影响了用户的使用体验,降低了金融客服服务的质量和可接受性。
技术实现思路
1、本技术实施例的目的在于提出一种语音转换方法、装置、计算机设备及存储介质,以解决现有语音转换技术存在的转换效果自然度低,机械感重,缺乏人类声音的自然流畅性,严重影响了用户的使用体验的技术问题。
2、为了解决上述技术问题,本技术实施例提供一种语音转换方法,采用了如下所述的技术方案:
3、一种语音转换方法,包括:
4、接收语音转换指令,获取待转换文本,并对待转换文本进行语义识别,获取第一语义特征;
5、基于第一语义特征确定与待转换文本匹配的对话自发行为;
6、对对话自发行为进行特征提取,得到第一行为特征;
7、组合第一语义特征和第一行为特征构建第一待预测语音特征组合;
8、将第一待预测语音特征组合输入到预训练的语音转换模型,输出待转换文本对应的语音转换结果。
9、进一步地,接收语音转换指令,获取待转换文本,并对待转换文本进行语义识别,获取第一语义特征的步骤,具体包括:
10、接收语音转换指令,获取与语音转换指令匹配的待转换文本;
11、对待转换文本进行词性标注,得到文本词性标签;
12、对待转换文本进行命名实体识别,得到文本命名实体;
13、基于文本词性标签和文本命名实体对待转换文本进行语义分析,得到第一语义特征。
14、进一步地,基于第一语义特征确定与待转换文本匹配的对话自发行为的步骤,具体包括:
15、将第一语义特征输入到预训练的自发行为匹配模型,其中,自发行为匹配模型基于transformer模型架构搭建,自发行为匹配模型的隐空间预先存储有若干种对话第一行为特征;
16、对第一语义特征进行编码,得到语义编码特征;
17、将语义编码特征映射到隐空间,并在隐空间内确定与第一语义特征匹配的对话自发行为。
18、进一步地,将语义编码特征映射到隐空间,并在隐空间内确定与第一语义特征匹配的对话自发行为的步骤,具体包括:
19、确定语义编码特征在隐空间内的位置信息;
20、基于语义编码特征在隐空间内的位置信息,计算语义编码特征到各种对话第一行为特征的空间距离;
21、根据语义编码特征到各种对话第一行为特征的空间距离,确定与第一语义特征匹配的对话自发行为。
22、进一步地,组合第一语义特征和第一行为特征构建第一待预测语音特征组合的步骤,具体包括:
23、获取语义编码特征在隐空间内的位置信息,得到第一位置信息;
24、获取与第一语义特征匹配的对话自发行为在隐空间内的位置信息,得到第二位置信息;
25、基于第一位置信息和第二位置信息构建位置信息序列;
26、基于位置信息序列组合第一语义特征和第一行为特征,得到第一待预测语音特征组合。
27、进一步地,语音转换模型包括卷积网络层、长短期记忆网络层和全连接层,将第一待预测语音特征组合输入到预训练的语音转换模型,输出待转换文本对应的语音转换结果的步骤,具体包括:
28、通过卷积网络层对第一待预测语音特征组合进行局部特征提取,得到若干个第一局部特征;
29、通过长短期记忆网络层计算若干个第一局部特征的隐藏状态,得到第一隐藏状态序列特征;
30、通过全连接层对第一隐藏状态序列特征进行语音分类预测,得到待转换文本对应的语音转换结果。
31、进一步地,在将第一待预测语音特征组合输入到预训练的语音转换模型,输出待转换文本对应的语音转换结果之前,还包括:
32、获取训练语料样本,其中,训练语料样本包括相互匹配的语音数据样本和文本数据样本;
33、对文本数据样本进行语义识别,获取第二语义特征;
34、识别语音数据样本中的对话自发行为,对语音数据样本中的对话自发行为进行特征提取,得到第二行为特征;
35、组合第二语义特征和第二行为特征构建第二待预测语音特征组合;
36、将第二待预测语音特征组合输入至语音转换模型;
37、由卷积网络层提取第二待预测语音特征组合的局部特征,得到第二局部特征;
38、由长短期记忆网络层对第二局部特征进行处理,输出第二隐藏状态序列特征;
39、通过全连接层对隐藏状态序列特征进行语音分类预测,生成预测语音样本;
40、基于预测语音样本和语音数据样本对语音转换模型进行迭代更新,直至模型拟合。
41、为了解决上述技术问题,本技术实施例还提供一种语音转换装置,采用了如下所述的技术方案:
42、一种语音转换装置,包括:
43、语义识别模块,用于接收语音转换指令,获取待转换文本,并对待转换文本进行语义识别,获取第一语义特征;
44、行为匹配模块,用于基于第一语义特征确定与待转换文本匹配的对话自发行为;
45、特征提取模块,用于对对话自发行为进行特征提取,得到第一行为特征;
46、特征组合模块,用于组合第一语义特征和第一行为特征构建第一待预测语音特征组合;
47、语音转换模块,用于将第一待预测语音特征组合输入到预训练的语音转换模型,输出待转换文本对应的语音转换结果。
48、为了解决上述技术问题,本技术实施例还提供一种计算机设备,采用了如下所述的技术方案:
49、一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如上述任一项所述的语音转换方法的步骤。
50、为了解决上述技术问题,本技术实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
51、一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上述中任一项所述的语音转换方法的步骤。
52、与现有技术相比,本技术实施例主要有以下有益效果:
53、本技术公开了一种语音转换方法、装置、计算机设备及存储介质,属于人工智能技术领域。本技术通过接收语音转换指令,获取待转换文本,并对待转换文本进行语义识别,获取第一语义特征;基于第一语义特征确定与待转换文本匹配的对话自发行为;对对话自发行为进行特征提取,得到第一行为特征;组合第一语义特征和第一行为特征构建第一待预测语音特征组合;将第一待预测语音特征组合输入到预训练的语音转换模型,输出待转换文本对应的语音转换结果。本技术通过结合语义识别和对话自发行为的特征提取,生成更加自然的语音转换结果,通过获取文本的语义特征以及与之匹配的对话自发行为特征,构建更贴近人类表达方式的语音特征组合,从而减少语音转换中的机械感,提升转换效果的自然度和流畅性,显著改善用户体验。