一种基于循环损失的语音转换方法及装置与流程

文档序号:29493042发布日期:2022-04-06 14:02阅读:97来源:国知局
一种基于循环损失的语音转换方法及装置与流程

1.本发明涉及语音转换的技术领域,尤其涉及一种基于循环损失的语音转换方法及装置。


背景技术:

2.语音转换技术作为个性化语音生成的一种重要技术手段,主要旨在将一个说话人的语音风格转换成另一个说话人的语音风格,同时保持说话内容信息不变。
3.当源说话人与目标说话人的语音风格相差较大时(如跨性别、跨语种的语音转换),语音转换的质量将显著下降,主要体现在语音中的说话人风格信息和语音内容信息存在明显缺失。
4.因此如何解决语音转换过程中实现语音内容信息和说话人风格特征的分离,提高语音转换质量,是当前课题亟需解决的问题。


技术实现要素:

5.本发明提供一种基于循环损失的语音转换方法及装置,用以解决现有技术中说话人风格信息和语音内容信息存在明显缺失的缺陷,实现语音转换质量的提高。
6.本发明提供一种基于循环损失的语音转换方法,包括:获取不同说话人的语音信息;将所述语音信息输入至训练好的语音转换模型中,基于所述语音转换模型的共享编码器和解码器转换为重构语音信息;获取所述重构语音与语音信息之间的循环损失,并基于所述循环损失对所述语音信息进行语音内容信息以及说话人风格信息的分离;其中,所述语音转换模型是基于不同语音样本以及样本的语音转换结果训练得到的。
7.根据本发明提供的一种基于循环损失的语音转换方法,所述语音转换模型的训练方法包括:获得第一语音样本和第二语音样本;基于短时傅里叶变换,将所述第一语音样本和第二语音样本分别转换为第一语音频谱和第二语音频谱;建立待训练的语音转换模型;其中所述语音转换模型包括共享编码器、第一解码器和第二解码器;将第一语音频谱和第二语音频谱分别输入至所述语音转换模型中进行训练,获取综合损失值;基于所述综合损失值对所述语音转换模型进行参数更新,直至模型收敛停止更新。
8.根据本发明提供的一种基于循环损失的语音转换方法,所述将第一语音频谱和第
二语音频谱分别输入至所述语音转换模型中进行训练,获取综合损失值,包括:将所述第一语音频谱和第二语音频谱分别输入语音转换模型中,进行第一轮编码并进行语音重构,获取语音重构损失值;将所述第一语音频谱和第二语音频谱分别输入语音转换模型中,进行第二轮编码并进行循环损失计算,获取综合循环损失值;基于所述语音重构损失值和所述综合循环损失值,获取综合损失值。
9.根据本发明提供的一种基于循环损失的语音转换方法,将所述第一语音频谱和第二语音频谱分别输入语音转换模型中,进行第一轮编码并进行语音重构,获取语音重构损失值,包括:将所述第一语音频谱和第二语音频谱分别输入至所述共享编码器中,得到第一瓶颈层特征和第二瓶颈层特征;将所述第一瓶颈层特征输入至所述第一解码器中,得到第一重构语音频谱,将所述第二瓶颈层特征输入至第二解码器中,得到第二重构语音频谱;基于所述第一语音频谱和第一重构语音频谱获取第一重构损失值,基于所述第二语音频谱和第二重构语音频谱获取第二重构损失值;基于语音重构损失函数、所述第一重构损失值和第二重构损失值获取所述语音重构损失值。
10.根据本发明提供的一种基于循环损失的语音转换方法,所述将所述第一语音频谱和第二语音频谱分别输入语音转换模型中,进行第二轮编码并进行循环损失计算,获取综合循环损失值,包括:将所述第一瓶颈层特征输入至所述第二解码器中,得到第三重构语音频谱,将所述第二瓶颈层特征输入至所述第一解码器中,得到第四重构语音频谱;将所述第三重构语音频谱和第四重构语音频谱分别输入至所述共享编码器中,获取第一循环瓶颈层特征和第二循环瓶颈层特征;基于所述第一瓶颈层特征和所述第一循环瓶颈层特征获取第一循环损失值,基于所述第二瓶颈层特征和所述第二循环瓶颈层特征获取第二循环损失值;基于循环损失函数、第一循环损失值和第二循环损失值获取所述综合循环损失值。
11.根据本发明提供的一种基于循环损失的语音转换方法,所述基于语音重构损失函数、所述第一重构损失值和第二重构损失值获取所述语音重构损失值,基于以下公式实现:其中,为语音重构损失值,为语音重构损失函数,为第一重构损失值,为第二重构损失值,分别为第一语音频谱和第一重构语音频谱,分别为第二语音频谱和第二重构语音频谱。
12.根据本发明提供的一种基于循环损失的语音转换方法,所述基于循环损失函数、第一循环损失值和第二循环损失值获取所述综合循环损失值,基于以下公式实现:
其中,为综合循环损失值,为循环损失函数,为第一循环损失值,为第二循环损失值,分别为第一瓶颈层特征和第一循环瓶颈层特征,分别为第二瓶颈层特征和第二循环瓶颈层特征。
13.本发明还提供一种基于循环损失的语音转换装置,包括:语音获取模块,用于获取不同说话人的语音信息;重构模块,用于将所述语音信息输入至训练好的语音转换模型中,基于所述语音转换模型的共享编码器和解码器转换为重构语音信息;分离模块,用于获取所述重构语音与语音信息之间的循环损失,并基于所述循环损失对所述语音信息进行语音内容信息以及说话人风格信息的分离;其中,所述语音转换模型是基于不同语音样本以及样本的语音转换结果训练得到的。
14.本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于循环损失的语音转换方法的步骤。
15.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于循环损失的语音转换方法的步骤。
16.本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述基于循环损失的语音转换方法的步骤。
17.本发明提供的基于循环损失的语音转换方法及装置,通过获取不同人的语音信息,通过训练好的语音转换模型的共享编码器和解码器对语音信息进行语音转换,在语音转换的过程中产生重构语音与语音信息的循环损失,并基于循环损失实现语音内容信息以及说话人风格信息的分离,从而提高了语音转换的效率和语音转换质量。
附图说明
18.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
19.图1是本发明提供的基于循环损失的语音转换方法的流程示意图之一;图2是本发明提供的基于循环损失的语音转换方法的流程示意图之二;图3是本发明提供的基于循环损失的语音转换方法的流程示意图之三;图4是本发明提供的基于循环损失的语音转换方法的流程示意图之四;图5是本发明提供的基于循环损失的语音转换方法的流程示意图之五;图6是本发明提供的基于循环损失的语音转换方法的流程示意图之六;图7是本发明提供的基于循环损失的语音转换方法的流程示意图之七;图8是本发明提供的基于循环损失的语音转换方法的整体架构示意图;
图9是本发明提供的基于循环损失的语音转换装置的结构示意图;图10是本发明提供的电子设备的结构示意图。
具体实施方式
20.语音转换技术作为个性化语音生成的一种重要技术手段,主要旨在将一个说话人的语音风格转换成另一个说话人的语音风格,同时保持说话内容信息不变。
21.参照图1,图1为一个典型的语音转换系统原理图。一个语音转换系统通常包含训练和转换两个阶段。在训练阶段,首先对源说话人和目标说话人的语音进行特征提取,然后对提取特征进行映射处理,最后对这些映射特征进行模型训练,进而得到语音转换模型。
22.参照图2,图2给出了一个样例自编码器的具体实例。其网络结构主要包括三个部分:编码器、解码器及声码器。给定一个语音的输入x,首先使用短时傅里叶变换stft,将时域信号x变换为频域信号m;其次使用编码器-解码器的结构,使用一个较小的瓶颈层压缩出语音中的内容信息w,然后对语音风格特征s进行转换,得到频域信号;最后,使用声码器(如wavenet)对频域信号进行还原,得到时域信号。
23.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
24.下面结合图3-图7描述本发明的提供的基于循环损失的语音转换方法。
25.参照图3,本发明提供的基于循环损失的语音转换方法,包括以下步骤:步骤310、获取不同说话人的语音信息。
26.具体地,本实施例中的说话人即语音信息的来源,在实际应用中,说话人可为跨语言、跨语种以及多风格的目标说话人。
27.步骤320、将所述语音信息输入至训练好的语音转换模型中,基于所述语音转换模型的共享编码器和解码器转换为重构语音信息。
28.可以理解为,本实施例利用训练完成的语音转换模型应用于实际的语音转换场景中,针对不同的说话人信息,通过训练完成的共享编码器进行编码,只需对解码器部分进行单独微调,便可实现特定的语音转换任务。
29.步骤330、获取所述重构语音与语音信息之间的循环损失,并基于所述循环损失对所述语音信息进行语音内容信息以及说话人风格信息的分离;其中,所述语音转换模型是基于不同语音样本以及样本的语音转换结果训练得到的。
30.具体地,在不同的语音信息通过共享编码器和解码器生成转换后的重构语音过程中,利用共享编码器可根据语音信息中语音内容信息和说话人风格方差的大小,实现对语音内容信息和风格特征的分离。
31.本发明提供的基于循环损失的语音转换方法,通过获取不同人的语音信息,通过训练好的语音转换模型的共享编码器和解码器对语音信息进行语音转换,在语音转换的过程中产生重构语音与语音信息的循环损失,并基于循环损失实现语音内容信息以及说话人
风格信息的分离,从而提高了语音转换的效率和语音转换质量。
32.基于以上实施例,参照图4,所述语音转换模型的训练方法包括以下步骤:步骤410、获得第一语音样本和第二语音样本;步骤420、基于短时傅里叶变换,将所述第一语音样本和第二语音样本分别转换为第一语音频谱和第二语音频谱;步骤430、建立待训练的语音转换模型;其中所述语音转换模型包括共享编码器、第一解码器和第二解码器;步骤440、将第一语音频谱和第二语音频谱分别输入至所述语音转换模型中进行训练,获取综合损失值;步骤450、基于所述综合损失值对所述语音转换模型进行参数更新,直至模型收敛停止更新。
33.具体地,本实施例提供了语音转换模型的训练方法,即语音转换模型的获得过程。首先获取两个不同说话人的语音样本,并根据短时傅里叶变换,将语音样本转换为语音频谱,即将时域信号转换为频域信号。然后建立需要训练的语音转换模型,将频域信号的语音频谱输入到模型中进行训练,具体体现为分别对共享编码器进行训练,对第一语音样本对应的第一解码器进行训练,以及对第二语音样本对应的第二解码器进行训练。
34.在训练过程中,需要进行多次编码和解码,重新生成的语音频谱和输入的语音频谱直接将产生损失值,即综合损失值,可利用综合损失值对共享编码器、第一解码器以及第二解码器的参数进行调整更新,通过多次迭代更新,最终获得一个参数达到预期的模型即为训练完成的语音转换模型。
35.基于以上实施例,参照图5,所述将第一语音频谱和第二语音频谱分别输入至所述语音转换模型中进行训练,获取综合损失值,包括:步骤510、将所述第一语音频谱和第二语音频谱分别输入语音转换模型中,进行第一轮编码并进行语音重构,获取语音重构损失值;步骤520、将所述第一语音频谱和第二语音频谱分别输入语音转换模型中,进行第二轮编码并进行循环损失计算,获取综合循环损失值;步骤530、基于所述语音重构损失值和所述综合循环损失值,获取综合损失值。
36.具体地,本实施例中,通过对第一语音频谱以及第二语音频谱进行两轮编码,分别得到语音重构损失值以及综合循环损失值,再将语音重构损失值以及综合循环损失值合成综合损失值,即模型训练过程中的总损失值,根据总损失值进行模型参数的调整。
37.基于以上实施例,参照图6,将所述第一语音频谱和第二语音频谱分别输入语音转换模型中,进行第一轮编码并进行语音重构,获取语音重构损失值,包括:步骤610、将所述第一语音频谱和第二语音频谱分别输入至所述共享编码器中,得到第一瓶颈层特征和第二瓶颈层特征。
38.步骤620、将所述第一瓶颈层特征输入至所述第一解码器中,得到第一重构语音频谱,将所述第二瓶颈层特征输入至第二解码器中,得到第二重构语音频谱。
39.步骤630、基于所述第一语音频谱和第一重构语音频谱获取第一重构损失值,基于所述第二语音频谱和第二重构语音频谱获取第二重构损失值。
40.步骤640、基于语音重构损失函数、所述第一重构损失值和第二重构损失值获取所
述语音重构损失值。
41.具体地,本实施例提供了语音转换模型实现语音重构的训练过程。首先通过共享编码器对第一语音频谱和第二语音频谱进行编码,生成对应的第一瓶颈层特征和第二瓶颈层特征。然后将第一瓶颈层特征和第二瓶颈层特征分别通过第一解码器和第二解码器生成第一重构语音频谱和第二重构语音频谱。重新生成的第一、第二重构语音频谱与输入的第一、第二语音频谱之间的误差值分别作为第一重构损失值和第二重构损失值。
42.根据语音重构的损失函数,计算语音重构过程中的语音重构损失值。基于语音重构损失函数、第一重构损失值和第二重构损失值获取语音重构损失值,基于以下公式(1)实现:(1)其中,为语音重构损失值,为语音重构损失函数,为第一重构损失值,为第二重构损失值,分别为第一语音频谱和第一重构语音频谱,分别为第二语音频谱和第二重构语音频谱。
43.基于以上实施例,参照图7,所述将所述第一语音频谱和第二语音频谱分别输入语音转换模型中,进行第二轮编码并进行循环损失计算,获取综合循环损失值,包括:步骤710、将所述第一瓶颈层特征输入至所述第二解码器中,得到第三重构语音频谱,将所述第二瓶颈层特征输入至所述第一解码器中,得到第四重构语音频谱。
44.步骤720、将所述第三重构语音频谱和第四重构语音频谱分别输入至所述共享编码器中,获取第一循环瓶颈层特征和第二循环瓶颈层特征。
45.步骤730、基于所述第一瓶颈层特征和所述第一循环瓶颈层特征获取第一循环损失值,基于所述第二瓶颈层特征和所述第二循环瓶颈层特征获取第二循环损失值。
46.步骤740、基于循环损失函数、第一循环损失值和第二循环损失值获取所述综合循环损失值。
47.具体地,本实施例提供了语音转换模型的训练过程。首先将第一瓶颈层特征和第二瓶颈层特征分别输入与其交叉的解码器中进行解码,也就是将第一瓶颈层特征输入至所述第二解码器中,将第二瓶颈层特征输入至所述第一解码器中,分别获取第三重构语音频谱和第四重构语音频谱,其中第三重构语音频谱对应第一瓶颈层特征,第四重构语音频谱对应第二瓶颈层特征。然后再将第三重构语音频谱和第四重构语音频谱输入到共享编码其中,生成第一循环瓶颈层特征和第二循环瓶颈层特征。
48.重新生成的第一循环瓶颈层特征、第二循环瓶颈层特征与输入的第一瓶颈层特征、第二瓶颈层特征之间的误差作为第一循环损失值和第二循环损失值。根据循环损失函数,可求得综合循环损失值。
49.基于循环损失函数、第一循环损失值和第二循环损失值获取所述综合循环损失值,基于以下公式(2)实现:
ꢀꢀ
(2)其中,为综合循环损失值,为循环损失函数,为第一循环损失值,
为第二循环损失值,分别为第一瓶颈层特征和第一循环瓶颈层特征,分别为第二瓶颈层特征和第二循环瓶颈层特征。
50.参照图8,图8为基于循环损失的语音转换方法的整体架构示意图。
51.具体包括五个步骤:第一轮编码、语音重构、第二轮编码、循环损失计算、模型更新。
52.其中,第一轮编码包括:在两个不同说话人spk1和spk2中,各自随机采样一条语音,得到x1和x2。x1和x2经过短时傅里叶变换得到对应地两个语音频谱m1和m2。然后,分别将m1和m2输入到共享编码器中,得到对应地瓶颈层特征c1和c2。
53.语音重构包括:将x1的瓶颈层特征c1输入到spk1的解码器1中,得到spk1的重构语音频谱;类似地,将x2的瓶颈层特征c2输入到spk2的解码器2中,得到spk2的重构语音频谱。
54.语音重构的损失函数可由以下公式(1)表示:(1)其中,为语音重构损失值,为语音重构损失函数,为第一重构损失值,为第二重构损失值,分别为第一语音频谱和第一重构语音频谱,分别为第二语音频谱和第二重构语音频谱。
55.第二轮编码包括:将c1和c2传入到与其不匹配的说话人解码器中,即将c1传入到spk2的解码器2中,c2传入到spk1的解码器1中。然后分别将得到的重构语音频谱再经过共享编码器进行编码,得到瓶颈层特征和。
56.循环损失计算包括:和c1中,应当得到相同的内容信息;类似地,在和c2中,也应当得到相同的内容信息。因此,循环损失函数可通过公式(2)计算得出:
ꢀꢀꢀ
(2)其中,为综合循环损失值,为循环损失函数,为第一循环损失值,为第二循环损失值,分别为第一瓶颈层特征和第一循环瓶颈层特征,分别为第二瓶颈层特征和第二循环瓶颈层特征。
57.模型更新包括:基于语音重构损失和综合循环损失获取综合损失值,得到最终的损失函数通过以下公式(3)实现;然后可采用模型优化算法(如梯度下降法)对共享编码器、spk1解码器1和spk2解码器2进行模型训练。
58.(3)其中,为综合损失值,为语音重构损失值,为综合循环损失值。
59.下面对本发明提供的基于循环损失的语音转换装置进行描述,下文描述的基于循环损失的语音转换装置与上文描述的基于循环损失的语音转换方法可相互对应参照。
60.参照图9,本发明提供的基于循环损失的语音转换装置,包括:语音获取模块910,用于获取不同说话人的语音信息;重构模块920,用于将所述语音信息输入至训练好的语音转换模型中,基于所述语音转换模型的共享编码器和解码器转换为重构语音信息;分离模块930,用于获取所述重构语音与语音信息之间的循环损失,并基于所述循环损失对所述语音信息进行语音内容信息以及说话人风格信息的分离;其中,所述语音转换模型是基于不同语音样本以及样本的语音转换结果训练得到的。
61.基于以上实施例,基于循环损失的语音转换装置,包括:样本获取模块,用于获得第一语音样本和第二语音样本;频谱获取模块,用于基于短时傅里叶变换,将所述第一语音样本和第二语音样本分别转换为第一语音频谱和第二语音频谱;模型建立模块,用于建立待训练的语音转换模型;其中所述语音转换模型包括共享编码器、第一解码器和第二解码器;训练模块,用于将第一语音频谱和第二语音频谱分别输入至所述语音转换模型中进行训练,获取综合损失值;更新模块,用于基于所述综合损失值对所述语音转换模型进行参数更新,直至模型收敛停止更新。
62.基于以上实施例,训练模块具体用于:将所述第一语音频谱和第二语音频谱分别输入语音转换模型中,进行第一轮编码并进行语音重构,获取语音重构损失值;将所述第一语音频谱和第二语音频谱分别输入语音转换模型中,进行第二轮编码并进行循环损失计算,获取综合循环损失值;基于所述语音重构损失值和所述综合循环损失值,获取综合损失值。
63.基于以上实施例,训练模块具体用于:将所述第一语音频谱和第二语音频谱分别输入至所述共享编码器中,得到第一瓶颈层特征和第二瓶颈层特征;将所述第一瓶颈层特征输入至所述第一解码器中,得到第一重构语音频谱,将所述第二瓶颈层特征输入至第二解码器中,得到第二重构语音频谱;基于所述第一语音频谱和第一重构语音频谱获取第一重构损失值,基于所述第二语音频谱和第二重构语音频谱获取第二重构损失值;基于语音重构损失函数、所述第一重构损失值和第二重构损失值获取所述语音重构损失值。
64.基于以上实施例,训练模块具体用于:将所述第一瓶颈层特征输入至所述第二解码器中,得到第三重构语音频谱,将所述第二瓶颈层特征输入至所述第一解码器中,得到第四重构语音频谱;将所述第三重构语音频谱和第四重构语音频谱分别输入至所述共享编码器中,获取第一循环瓶颈层特征和第二循环瓶颈层特征;基于所述第一瓶颈层特征和所述第一循环瓶颈层特征获取第一循环损失值,基于
所述第二瓶颈层特征和所述第二循环瓶颈层特征获取第二循环损失值;基于循环损失函数、第一循环损失值和第二循环损失值获取所述综合循环损失值。
65.基于以上实施例,训练模块具体用于:基于语音重构损失函数、所述第一重构损失值和第二重构损失值获取所述语音重构损失值,基于以下公式实现:(1)其中,为语音重构损失值,为语音重构损失函数,为第一重构损失值,为第二重构损失值,分别为第一语音频谱和第一重构语音频谱,分别为第二语音频谱和第二重构语音频谱。
66.基于以上实施例,训练模块具体用于:基于循环损失函数、第一循环损失值和第二循环损失值获取所述综合循环损失值,基于以下公式实现:
ꢀꢀꢀ
(2)其中,为综合循环损失值,为循环损失函数,为第一循环损失值,为第二循环损失值,分别为第一瓶颈层特征和第一循环瓶颈层特征,分别为第二瓶颈层特征和第二循环瓶颈层特征。
67.图10示例了一种电子设备的实体结构示意图,如图10所示,该电子设备可以包括:处理器(processor)1010、通信接口(communications interface)1020、存储器(memory)1030和通信总线1040,其中,处理器1010,通信接口1020,存储器1030通过通信总线1040完成相互间的通信。处理器1010可以调用存储器1030中的逻辑指令,以执行基于循环损失的语音转换方法,该方法包括:获取不同说话人的语音信息;将所述语音信息输入至训练好的语音转换模型中,基于所述语音转换模型的共享编码器和解码器转换为重构语音信息;获取所述重构语音与语音信息之间的循环损失,并基于所述循环损失对所述语音信息进行语音内容信息以及说话人风格信息的分离;其中,所述语音转换模型是基于不同语音样本以及样本的语音转换结果训练得到的。
68.此外,上述的存储器1030中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
69.另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机
程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的基于循环损失的语音转换方法,该方法包括:获取不同说话人的语音信息;将所述语音信息输入至训练好的语音转换模型中,基于所述语音转换模型的共享编码器和解码器转换为重构语音信息;获取所述重构语音与语音信息之间的循环损失,并基于所述循环损失对所述语音信息进行语音内容信息以及说话人风格信息的分离;其中,所述语音转换模型是基于不同语音样本以及样本的语音转换结果训练得到的。
70.又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的基于循环损失的语音转换方法,该方法包括:获取不同说话人的语音信息;将所述语音信息输入至训练好的语音转换模型中,基于所述语音转换模型的共享编码器和解码器转换为重构语音信息;获取所述重构语音与语音信息之间的循环损失,并基于所述循环损失对所述语音信息进行语音内容信息以及说话人风格信息的分离;其中,所述语音转换模型是基于不同语音样本以及样本的语音转换结果训练得到的。
71.以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
72.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
73.最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1