语音转换处理方法、装置、电子设备及存储介质与流程

文档序号:21093756发布日期:2020-06-16 20:06阅读:214来源:国知局
语音转换处理方法、装置、电子设备及存储介质与流程

本发明涉及计算机技术领域,具体涉及一种语音转换处理方法、装置、电子设备及存储介质。



背景技术:

语音转换技术主要是指对发声声源信息的转换,其目标是基于某种转换规则,使转换后的语音只改变源语音中的某一项或多项发音特性,而不改变其他特性。典型的语音转换包括口音转换(实现对不同口音的语音转换)、说话人转换(实现对不同说话人的语音转换)、情绪转换(实现对不同情绪的语音转换)。语音转换技术在智能人机交互领域都有着广泛的应用场景。

语音转换技术可以分为训练和转换两个步骤来进行:在训练阶段,系统对源类别语音和目标类别语音进行训练,得到二者之间的映射规则,获取源类别语音和目标类别语音频谱参数之间的关系;在转换阶段,利用训练阶段得到的映射规则对源类别语音的频谱特征进行变换,使变换后的语音具有目标类别语音的特征。

现有的语音转换方法包括基于码书映射的转换方法、基于高斯混合模型的转换方法和基于个性化语音合成的转换方法等三种。

基于码书映射的转换方法首先通过矢量量化的方法有效减少源与目标语音的特征数量,然后将最接近源码书的质心矢量通过聚类方法转换成相应的目标码书,从而实现语音转换。但由于这种方法在量化时无法考虑语音的上下文连续性,从而造成特征空间的不连续,所以转换效果不够理想。

基于高斯混合模型的转换方法引入高斯混合模型对语音信号进行建模,使用基于概率的“软”聚类代替基于矢量量化的“硬”聚类。这种方法仅在源特征矢量上进行估计,而不是联合特征矢量估计,同样对于语音上下文信息考虑不足,极易出现过拟合和过平滑问题。

基于个性化语音合成的转换方法通过在声码器中引入额外的用于代表目标发音特性的表征向量,以此来合成具有目标发音特性的语音,但是计算量大,资源消耗较高。



技术实现要素:

由于现有方法存在上述问题,本发明实施例提出一种语音转换处理方法、装置、电子设备及存储介质。

第一方面,本发明实施例提出一种语音转换处理方法,包括:

根据流模型的空间映射能力,将真实空间的原始语音映射到简单连续的隐空间中,得到隐空间语音;

在所述隐空间中确定目标语音的转换方向,并将所述隐空间语音在所述转换方向进行位移,得到位移后语音;

根据流模型的逆映射,将所述位移后语音映射回所述真实空间,得到所述目标语音,以实现所述原始语音至所述目标语音之间的语音转换。

可选地,所述根据流模型的空间映射能力,将真实空间的原始语音映射到简单连续的隐空间中,得到隐空间语音之前,还包括:

将各种特性的语音样本融合在一起,当所有语音样本在观测空间的概率最大且在隐空间符合高斯分布,则训练得到所述流模型;

其中,所述高斯分布z为:

z=f(x)

x~p(x),z~n(0,1),x为语音样本,p(x)为真实空间的数据分布,f(x)为可逆映射,n(0,1)为标准正态分布。

可选地,所述根据流模型的空间映射能力,将真实空间的原始语音映射到简单连续的隐空间中,得到隐空间语音,具体包括:

将原始语音a与目标语音b分别映射到隐空间中,得到对应的隐空间语音:

zai=f(xai)

zbj=f(xbj)

相应地,所述在所述隐空间中确定目标语音的转换方向,并将所述隐空间语音在所述转换方向进行位移,得到位移后语音,具体包括:

根据zai计算原始语音a的第一中心点,并根据zbj计算原始语音b的第二中心点;

根据所述第一中心点和所述第二中心点确定目标语音的转换方向δz:

根据所述转换方向δz和隐空间语音zp计算得到位移后语音z′p:

z′p=zp+λδz

其中,λ为步长,0<λ≤1。

可选地,所述根据流模型的逆映射,将所述位移后语音映射回所述真实空间,得到所述目标语音,以实现所述原始语音至所述目标语音之间的语音转换,具体包括:

将所述位移后语音z′p映射至所述目标语音x′p:

x′p=f-1(z′p)

其中,f-1为f的逆变换。

第二方面,本发明实施例还提出一种语音转换处理装置,包括:

隐空间映射模块,用于根据流模型的空间映射能力,将真实空间的原始语音映射到简单连续的隐空间中,得到隐空间语音;

语音位移模块,用于在所述隐空间中确定目标语音的转换方向,并将所述隐空间语音在所述转换方向进行位移,得到位移后语音;

语音映射模块,用于根据流模型的逆映射,将所述位移后语音映射回所述真实空间,得到所述目标语音,以实现所述原始语音至所述目标语音之间的语音转换。

可选地,所述语音转换处理装置还包括:

模型训练模块,用于将各种特性的语音样本融合在一起,当所有语音样本在观测空间的概率最大且在隐空间符合高斯分布,则训练得到所述流模型;

其中,所述高斯分布z为:

z=f(x)

x~p(x),z~n(0,1),x为语音样本,p(x)为真实空间的数据分布,f(x)为可逆映射,n(0,1)为标准正态分布。

可选地,所述隐空间映射模块具体用于:

将原始语音a与目标语音b分别映射到隐空间中,得到对应的隐空间语音:

zai=f(xai)

zbj=f(xbj)

相应地,所述语音位移模块具体用于:

根据zai计算原始语音a的第一中心点,并根据zbj计算原始语音b的第二中心点;

根据所述第一中心点和所述第二中心点确定目标语音的转换方向δz:

根据所述转换方向δz和隐空间语音zp计算得到位移后语音z′p:

z′p=zp+λδz

其中,λ为步长,0<λ≤1。

可选地,所述语音映射模块具体包括用于:

将所述位移后语音z′p映射至所述目标语音x′p:

x′p=f-1(z′p)

其中,f-1为f的逆变换。

第三方面,本发明实施例还提出一种电子设备,包括:

至少一个处理器;以及

与所述处理器通信连接的至少一个存储器,其中:

所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行上述方法。

第四方面,本发明实施例还提出一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机程序,所述计算机程序使所述计算机执行上述方法。

由上述技术方案可知,本发明实施例通过将原始语音映射到一个连续的隐空间中,在该隐空间中改变语音特性,并通过逆映射得到转换后的目标语音,抗畸变能力强,不会损害其它属性,因此转换得到的目标语音更为连续和平滑;同时资源消耗低,不会带来过多的计算开销。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。

图1为本发明一实施例提供的一种语音转换处理方法的流程示意图;

图2为本发明一实施例提供的基于流模型隐空间的语音转换示意图;

图3为本发明一实施例提供的一种流模型的训练过程示意图;

图4为本发明一实施例提供的一种语音训练和转换处理的流程示意图;

图5为本发明一实施例提供的一种语音转换处理装置的结构示意图;

图6为本发明一实施例提供的电子设备的逻辑框图。

具体实施方式

下面结合附图,对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。

图1示出了本实施例提供的一种语音转换处理方法的流程示意图,包括:

s101、根据流模型的空间映射能力,将真实空间的原始语音映射到简单连续的隐空间中,得到隐空间语音。

其中,所述流模型通过将真实空间映射到一个规范化的隐空间中,以提高对数据的处理便捷度。

所述原始语音为待转换的语音。

所述隐空间例如标准高斯分布的向量空间。

所述隐空间语音为在隐空间映射得到的语音。

s102、在所述隐空间中确定目标语音的转换方向,并将所述隐空间语音在所述转换方向进行位移,得到位移后语音。

其中,所述目标语音为对原始语音进行转换得到的最终的语音。

所述转换方向为隐空间中进行语音转换的方向。

所述位移后语音为在隐空间中进行位移得到的语音。

s103、根据流模型的逆映射,将所述位移后语音映射回所述真实空间,得到所述目标语音,以实现所述原始语音至所述目标语音之间的语音转换。

具体地,流模型具有强大的数据建模能力,通过将真实数据空间映射到一个规范化的隐空间,可以极大地提高对数据的处理便捷度。

真实空间是稀疏的、不连续的。数据在该真实空间中处于复杂的高维流形中,这一流形很难被发现,因此很难对数据进行合理变换而不损伤其性能。然而,隐空间则不同。在隐空间中,数据分布是稠密的、连续的,例如高斯分布。因此,在隐空间中,任意两个样本点连线上的点都具有较高的p(z)。此外,由于数据空间概率密度较低的区域在隐空间中被压缩到较小区域,在隐空间中做位移将有较高概率得到有效的语音变换。另外,在隐空间中,和语音特性相对应的流形倾向于平直化,因此可以通过在一条直线方向上运动来改变语音的基本特性。基于上述两点基本特性,可以在样本点连线上进行简单位移,从而实现由一个样本点到另一个样本点的转换。如果从具有某一属性的一组样本点中心(如发音人a)向具有另一属性的样本点中心(如发音人b)进行位移时,则实现了不同属性之间的转换(由发音人a向发音人b的转换)。

如图2所示,大圆z是整个隐空间,椭圆a代表发音人a的各种发音集合,椭圆b代表发音人b的各种发音集合。当数据沿着这两类中心连线的方向进行移动时,即可实现由发音人a向发音人b的转换。情绪、口音等转换可采用同样的方法实现。

本实施例通过将原始语音映射到一个连续的隐空间中,在该隐空间中改变语音特性,并通过逆映射得到转换后的目标语音,抗畸变能力强,不会损害其它属性,因此转换得到的目标语音更为连续和平滑;同时资源消耗低,不会带来过多的计算开销。

进一步地,在上述方法实施例的基础上,s101之前,还包括:

将各种特性的语音样本融合在一起,当所有语音样本在观测空间的概率最大且在隐空间符合高斯分布,则训练得到所述流模型;

其中,所述高斯分布z为:

z=f(x)

x~p(x),z~n(0,1),x为语音样本,p(x)为真实空间的数据分布,f(x)为可逆映射,n(0,1)为标准正态分布。

具体地,流模型是近年来兴起的一种生成模型,与大多数生成模型类似,流模型的本质目标为拟合数据空间的分布p(x)。若可以得到真实数据空间的分布p(x),那么便可以通过采样的方式得到众多的真实数据。然而,真实数据的构成极为复杂,通过训练数据直接统计p(x)显然是不可行的。因此流模型使用了一个简单的正态分布z,以及一个可逆映射f(x)去拟合真实的数据分布。

该模型可以定义一个正向过程和一个逆向过程。正向过程通过在观测空间采样x并变换到隐空间,得到对应的隐变量z,如图3所示:

z=f(x)x~p(x)

逆向过程通过在隐空间采样z得到并映射回观测空间,得到观测变量x:

x=f-1(z)z~n(0,1)

其中,f-1为f的逆变换(x与z维度相同),可通过各种可逆神经网络实现。

在训练时,希望模型对所有观测数据的概率最大化,因此设目标函数如下:

据概率论的知识可知:

因此有:

上式中,pz是隐变量z的分布,可以预先指定。因而,对于一个给定参数的映射函数f,上述目标函数都是可计算的。在训练过程中,可以通过各种优化算法(如梯度下降法)对函数f的参数进行学习,从而实现该目标函数的最优化。

具体地,如图4所示,本实施例将真实语音作为观测变量,利用流模型强大的空间映射能力,将真实语音信号通过流模型映射到一个简单连续的隐空间中;之后,在该隐空间中发现目标发音特性的转换方向,在该方向进行位移,实现原始语音向目标语音在隐空间中的转换;最后利用流模型的逆映射,将在隐空间中转换后的语音映射回真实语音空间,从而实现源语音和目标语音之间的语音转换。

进一步地,在上述方法实施例的基础上,s101具体包括:

将原始语音a与目标语音b分别映射到隐空间中,得到对应的隐空间语音:

zai=f(xai)

zbj=f(xbj)

相应地,s102具体包括:

根据zai计算原始语音a的第一中心点,并根据zbj计算原始语音b的第二中心点;

根据所述第一中心点和所述第二中心点确定目标语音的转换方向δz:

根据所述转换方向δz和隐空间语音zp计算得到位移后语音z′p:

z′p=zp+λδz

其中,λ为步长,0<λ≤1。

s103具体包括:

将所述位移后语音z′p映射至所述目标语音x′p:

x′p=f-1(z′p)

其中,f-1为f的逆变换。

在语音转换处理的过程中,具体包括以下四个阶段:

s1、训练阶段:将所有具有各种语音特性的样本融合在一起,训练流模型。训练得到的流模型使得所有样本点在观测空间概率最大,并在隐空间符合高斯分布,即:

z=f(x)

其中,x~p(x),z~n(0,1)。

s2、正向变换阶段:基于步骤1得到的流模型,将具有特性a的样本集与具有特性b的样本集映射到隐空间中:

zai=f(xai)

zbj=f(xbj)

s3、隐空间转换阶段:基于s2得到的隐变量,分别计算具有特性a的样本集的中心点和具有特性b的样本集的中心点。特性a中心点到特性b中心点的方向即表示特性转换方向δz,即:

对于每一个要进行转换的具有特性a的样本点zp,选择合适的步长λ,使之沿该方向进行转换,即可得到具有目标特性b的样本点,即:

z′p=zp+λδz

其中,0<λ≤1。

s4、逆向变换阶段:基于s3转换得到的隐空间样本点z′p,利用s2得到的流模型,将z′p逆向变换到原始语音空间中,得到一个真实的语音数据样本x′p。即:

x′p=f-1(z′p)

至此,实现了由发音特性a到发音特性b的转换。

本实施例提供的语音转换处理方法能够应用在以下具体场景中:

口音转换:实现同一说话人在不同口音之间的转换。例如,将普通话和东北方言混合在一起训练流模型,按照上述转换方法,可以实现一个说话人从东北方言到汉语普通话之间的语音转换。

说话人转换:实现对一个说话人(源说话人)的语音信号进行转换,在保留其所表达的语义信息的前提下,使修改后的语音信号听起来像另外一个说话人(目标说话人)所说的。

情绪转换:实现对一个说话人在不同情绪下的语音转换。例如,将不同情绪的语音混合在一起训练流模型,按照上述转换方法,可以实现一个说话人从正面情绪(开心、兴奋)到负面情绪(悲伤、难过)之间的语音转换。

本实施例与典型语音转换模型相比,基于该流模型的转换方法仅在与某一属性相关的方向上进行变换,不会损害其它属性,因此使得转换得到的语音更为连续和平滑,同时,在具有连续高斯分布的隐空间中进行转换,可保证转换路径中不会出现无意义的数据点,因此可防止畸变产生,其抗畸变能力较强;另外,流模型结构简单,不会带来过多的计算,开销资源消耗低,且转换系统仅依赖一个流模型,系统软件结构简单。

图5示出了本实施例提供的一种语音转换处理装置的结构示意图,所述装置包括:隐空间映射模块501、语音位移模块502和语音映射模块503,其中:

所述隐空间映射模块501用于根据流模型的空间映射能力,将真实空间的原始语音映射到简单连续的隐空间中,得到隐空间语音;

所述语音位移模块502用于在所述隐空间中确定目标语音的转换方向,并将所述隐空间语音在所述转换方向进行位移,得到位移后语音;

所述语音映射模块503用于根据流模型的逆映射,将所述位移后语音映射回所述真实空间,得到所述目标语音,以实现所述原始语音至所述目标语音之间的语音转换。

具体地,所述隐空间映射模块501根据流模型的空间映射能力,将真实空间的原始语音映射到简单连续的隐空间中,得到隐空间语音;所述语音位移模块502在所述隐空间中确定目标语音的转换方向,并将所述隐空间语音在所述转换方向进行位移,得到位移后语音;所述语音映射模块503根据流模型的逆映射,将所述位移后语音映射回所述真实空间,得到所述目标语音,以实现所述原始语音至所述目标语音之间的语音转换。

本实施例通过将原始语音映射到一个连续的隐空间中,在该隐空间中改变语音特性,并通过逆映射得到转换后的目标语音,抗畸变能力强,不会损害其它属性,因此转换得到的目标语音更为连续和平滑;同时资源消耗低,不会带来过多的计算开销。

进一步地,在上述装置实施例的基础上,所述语音转换处理装置还包括:

模型训练模块,用于将各种特性的语音样本融合在一起,当所有语音样本在观测空间的概率最大且在隐空间符合高斯分布,则训练得到所述流模型;

其中,所述高斯分布z为:

z=f(x)

x~p(x),z~n(0,1),x为语音样本,p(x)为真实空间的数据分布,f(x)为可逆映射,n(0,1)为标准正态分布。

进一步地,在上述装置实施例的基础上,所述隐空间映射模块501具体用于:

将原始语音a与目标语音b分别映射到隐空间中,得到对应的隐空间语音:

zai=f(xai)

zbj=f(xbj)

相应地,所述语音位移模块具体用于:

根据zai计算原始语音a的第一中心点,并根据zbj计算原始语音b的第二中心点;

根据所述第一中心点和所述第二中心点确定目标语音的转换方向δz:

根据所述转换方向δz和隐空间语音zp计算得到位移后语音z′p:

z′p=zp+λδz

其中,λ为步长,0<λ≤1。

进一步地,在上述装置实施例的基础上,所述语音映射模块503具体包括用于:

将所述位移后语音z′p映射至所述目标语音x′p:

x′p=f-1(z′p)

其中,f-1为f的逆变换。

本实施例所述的语音转换处理装置可以用于执行上述方法实施例,其原理和技术效果类似,此处不再赘述。

参照图6,所述电子设备,包括:处理器(processor)601、存储器(memory)602和总线603;

其中,

所述处理器601和存储器602通过所述总线603完成相互间的通信;

所述处理器601用于调用所述存储器602中的程序指令,以执行上述各方法实施例所提供的方法。

本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法。

本实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1