利用抗卷绕损失训练的平行估计架构网络预测相位的方法

文档序号:33638450发布日期:2023-03-29 01:21阅读:45来源:国知局
利用抗卷绕损失训练的平行估计架构网络预测相位的方法

1.本发明涉及语音信号处理技术领域,特别涉及一种利用抗卷绕损失训练的平行估计架构网络预测相位的方法。


背景技术:

2.语音相位预测(speechphase prediction)又名语音相位重构(speechphase reconstruction),旨在于根据语音信号的幅度谱预测对应的相位谱。语音相位预测在众多语音生成任务中应用广泛。然而,受限于相位卷绕问题和相位建模的困难,语音相位的精确预测至今仍是一大难题。
3.目前的相位预测方法主要有迭代式算法和基于神经网络的方法两类,其中迭代式算法容易受到迭代时初始相位的影响,并且重构的语音中存在明显的不自然的噪声。而现有的基于神经网络的方法中,受语音信号相位卷绕特性的映像,现有神经网络无法通过训练而直接输出准确的相位谱,所以现有基于神经网络的方法大多都需要分为两步,先用神经网络处理语音信号,然后在利用特定的算法(例如griffin-lim算法,循环相位解卷绕算法等)处理神经网络的输出才能得到准确的相位谱。显然,这种分为两步的基于神经网络的方法效率较低且操作复杂。


技术实现要素:

4.针对上述现有技术的缺点,本发明提供一种利用抗卷绕损失训练的平行估计架构网络预测相位的方法,以提供一种直接通过神经网络获得语音信号准确的卷绕相位谱的方案,提高基于神经网络的相位预测方法的效率。
5.本技术第一方面提供一种利用抗卷绕损失训练的平行估计架构网络预测相位的方法,所述方法包括:
6.网络训练过程:
7.确定待训练的神经网络;其中,所述待训练的神经网络包括一个残差卷积网络,平行的第一线性卷积层和第二线性卷积层,以及相位计算单元;
8.获取样本语音信号的对数幅度谱和真实卷绕相位谱;
9.利用所述待训练的神经网络处理所述样本语音信号的对数幅度谱,获得所述样本语音信号的预测卷绕相位谱;其中,所述预测卷绕相位谱由所述相位计算单元根据伪实部和伪虚部计算得到;伪实部和伪虚部分别由所述第一线性卷积层和所述第二线性卷积层输出;所述预测卷绕相位谱的相位位于主值区间内;
10.计算所述预测卷绕相位谱和所述真实卷绕相位谱的抗卷绕损失;其中,所述抗卷绕损失为所述预测卷绕相位谱和所述真实卷绕相位谱之间的瞬时相位损失、群延时损失和瞬时角频率损失的线性组合;所述瞬时相位损失、所述群延时损失和所述瞬时角频率损失均通过抗卷绕函数激活;
11.若所述抗卷绕损失不符合预设的收敛条件,根据所述抗卷绕损失更新所述待训练
的神经网络的参数,返回执行所述利用所述待训练的神经网络处理所述对数幅度谱,获得所述样本语音信号的预测卷绕相位谱步骤;
12.若所述抗卷绕损失符合所述收敛条件,将所述待训练的神经网络确定为相位预测神经网络;
13.相位预测过程:
14.获取待预测语音信号的对数幅度谱;
15.利用所述相位预测神经网络处理所述待预测语音信号的对数幅度谱,获得所述待预测语音信号的卷绕相位谱。
16.可选的,获取样本语音信号的真实卷绕相位谱的过程包括:
17.对所述样本语音信号进行短时傅里叶变换,获得所述样本语音信号的短时复数谱;
18.根据所述样本语音信号的短时复数谱的实部和虚部进行相位计算,得到所述样本语音信号的真实卷绕相位谱。
19.可选的,所述计算所述预测卷绕相位谱和所述真实卷绕相位谱的抗卷绕损失,包括:
20.根据所述真实卷绕相位谱和所述预测卷绕相位谱计算得到瞬时相位损失;
21.分别对所述真实卷绕相位谱和所述预测卷绕相位谱进行频率差分,并根据所述真实卷绕相位谱和所述预测卷绕相位谱的频率差分计算群延时损失;
22.分别对所述真实卷绕相位谱和所述预测卷绕相位谱进行时间差分,并根据所述真实卷绕相位谱和所述预测卷绕相位谱的时间差分计算瞬时角频率损失;
23.将所述瞬时相位损失、所述群延时损失和所述瞬时角频率损失相加得到抗卷绕损失。
24.可选的,所述收敛条件为,训练次数大于或等于预设的最大训练次数,其中,所述训练次数定义为执行所述利用所述待训练的神经网络处理所述样本语音信号的对数幅度谱,获得所述样本语音信号的预测卷绕相位谱步骤的次数。
25.可选的,所述残差卷积网络包括:
26.线性卷积层,和所述线性卷积层连接的平行的多个残差卷积块,用于计算所述多个残差卷积块的输出的均值的累加单元,以及和所述累加单元连接的带泄露修正的线性单元。
27.本技术第二方面提供一种利用抗卷绕损失训练的平行估计架构网络预测相位的装置,包括:
28.生成单元,用于生成待训练的神经网络;其中,所述待训练的神经网络包括一个残差卷积网络,平行的第一线性卷积层和第二线性卷积层,以及相位计算单元;
29.获取单元,用于获取样本语音信号的对数幅度谱和真实卷绕相位谱;
30.处理单元,用于利用所述待训练的神经网络处理所述样本语音信号的对数幅度谱,获得所述样本语音信号的预测卷绕相位谱;其中,所述预测卷绕相位谱由所述相位计算单元根据伪实部和伪虚部计算得到;伪实部和伪虚部分别由所述第一线性卷积层和所述第二线性卷积层输出;所述预测卷绕相位谱的相位位于主值区间内;
31.计算单元,用于计算所述预测卷绕相位谱和所述真实卷绕相位谱的抗卷绕损失;
其中,所述抗卷绕损失为所述预测卷绕相位谱和所述真实卷绕相位谱之间的瞬时相位损失、群延时损失和瞬时角频率损失的线性组合;所述瞬时相位损失、所述群延时损失和所述瞬时角频率损失均通过抗卷绕函数激活;
32.更新单元,用于若所述抗卷绕损失不符合预设的收敛条件,根据所述抗卷绕损失更新所述待训练的神经网络的参数,返回执行所述利用所述待训练的神经网络处理所述对数幅度谱,获得所述样本语音信号的预测卷绕相位谱步骤;
33.确定单元,用于若所述抗卷绕损失符合所述收敛条件,将所述待训练的神经网络确定为相位预测神经网络;
34.所述获取单元用于,获取待预测语音信号的对数幅度谱;
35.所述处理单元用于,利用所述相位预测神经网络处理所述待预测语音信号的对数幅度谱,获得所述待预测语音信号的卷绕相位谱。
36.可选的,获取单元获取样本语音信号的真实卷绕相位谱时,具体用于:
37.对所述样本语音信号进行短时傅里叶变换,获得所述样本语音信号的短时复数谱;
38.根据所述样本语音信号的短时复数谱的实部和虚部进行相位计算,得到所述样本语音信号的真实卷绕相位谱。
39.可选的,所述计算单元计算所述预测卷绕相位谱和所述真实卷绕相位谱的抗卷绕损失时,具体用于:
40.根据所述真实卷绕相位谱和所述预测卷绕相位谱计算得到瞬时相位损失;
41.分别对所述真实卷绕相位谱和所述预测卷绕相位谱进行频率差分,并根据所述真实卷绕相位谱和所述预测卷绕相位谱的频率差分计算群延时损失;
42.分别对所述真实卷绕相位谱和所述预测卷绕相位谱进行时间差分,并根据所述真实卷绕相位谱和所述预测卷绕相位谱的时间差分计算瞬时角频率损失;
43.将所述瞬时相位损失、所述群延时损失和所述瞬时角频率损失相加得到抗卷绕损失。
44.可选的,所述收敛条件为,训练次数大于或等于预设的最大训练次数,其中,所述训练次数定义为执行所述利用所述待训练的神经网络处理所述样本语音信号的对数幅度谱,获得所述样本语音信号的预测卷绕相位谱步骤的次数。
45.可选的,所述残差卷积网络包括:
46.线性卷积层,和所述线性卷积层连接的平行的多个残差卷积块,用于计算所述多个残差卷积块的输出的均值的累加单元,以及和所述累加单元连接的带泄露修正的线性单元。
47.本技术提供一种利用抗卷绕损失训练的平行估计架构网络预测相位的方法,方法包括,在训练过程中,通过待训练的神经网络中平行的两个线性卷积层,以及相位计算单元,模拟由短时复数谱的实虚部计算相位谱的过程,并将预测的相位值限制在主值区间内,实现卷绕相位谱的预测,并且训练时所用的抗卷绕损失,包括通过抗卷绕函数激活的瞬时相位误差、群延时误差和瞬时角频率误差,从而避免相位卷绕造成的误差扩大问题。训练结束后再用训练好的相位预测神经网络处理待预测语音信号的对数幅度谱,获得卷绕相位谱。本方案通过神经网络直接预测语音信号的卷绕相位谱,并在计算损失时引入抗卷绕函
数,解决训练时相位卷绕造成的误差扩大问题,具有较高的效率和准确度。
附图说明
48.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
49.图1为本技术实施例提供的一种利用抗卷绕损失训练的平行估计架构网络预测相位的方法的流程图;
50.图2为本技术实施例提供的一种利用抗卷绕损失训练的平行估计架构网络预测相位的方法中网络训练过程的示意图;
51.图3为本技术实施例提供的一种相位卷绕导致误差扩大的示意图;
52.图4为本技术实施例提供的一种利用抗卷绕损失训练的平行估计架构网络预测相位的装置的结构示意图。
具体实施方式
53.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
54.为了便于理解本技术的技术方案,首先对本技术可能涉及的部分术语进行说明。
55.相位卷绕。假设相位的主值区间为(-π,π],相位会在边界-π和π处发生跳变,表现出一种不连续的现象,这种现象就称为语音信号的相位卷绕。
56.幅度谱和相位谱。语音信号经过傅里叶变换后可以得到短时复数谱,然后根据幅度计算公式对短时复数谱进行计算,可以得到语音信号的幅度谱,幅度谱反映了该组成该语音信号的不同频率正弦信号的幅度,而根据幅度谱预测出的该语音信号的相位谱,则反映了该语音信号中不同频率正弦信号的相位。
57.特别的,对幅度谱取自然对数后,可以得到信号的对数幅度谱。
58.本技术第一方面提供一种利用抗卷绕损失训练的平行估计架构网络预测相位的方法,请参见图1,为该方法的流程图,该方法可以包括如下步骤。
59.s101,确定待训练的神经网络。
60.待训练的神经网络的结构可以参见图2,可以看到,待训练的神经网络包括一个残差卷积网络,平行的第一线性卷积层和第二线性卷积层,以及相位计算单元。
61.其中,残差卷积网络是一个通用的深度网络,具体可以包括线性卷积层,和线性卷积层连接的平行的多个残差卷积块,用于计算多个残差卷积块的输出的均值的累加单元,以及和累加单元连接的带泄露修正的线性单元(leaky rectified linear unit,lrelu)。
62.输入残差卷积网络的数据会依次通过残差卷积网络的线性卷积层和多个残差卷积块,然后多个残差卷积块的输出在累加单元中相加并取平均(相当于多个残差卷积块之间跳跃连接),之后累加单元的输出通过带泄露修正的线性单元激活得到残差卷积网络的
输出。
63.进一步的,每个残差卷积块又由多个残差卷积子块级联组成。在每个残差卷积子块中,输入首先被lrelu激活,然后通过一个线性扩张卷积层,接下来再被lrelu激活和通过一个线性卷积层,最后与该残差卷积子块的输入相加(即残差连接)得到该残差卷积子块的输出。
64.设置残差卷积网络的好处在于,残差卷积网络通过残差连接和跳跃连接等提升了网络深度,通过扩张卷积增加了网络的感受野,从而提升了网络的建模能力。
65.在步骤s101中,可以按照上述待训练的神经网络的结构,对该结构中各项参数,也就是对图2所示的残差卷积网络、第一线性卷积层和第二线性卷积层中各参数的数值进行随机初始化,也就是在一定的数值范围内为该结构中各项参数随机设定数值,设定完该结构中所有参数的数值后的结构,就是待训练的神经网络。
66.s102,获取样本语音信号的对数幅度谱和真实卷绕相位谱。
67.样本语音信号,可以是利用语音采集设备(例如话筒)采集得到的自然语音信号。样本语音信号的对数幅度谱的获取方式可以是,首先对样本语音信号进行傅里叶变换,获得样本语音信号的短时复数谱,利用幅度公式计算样本语音信号的短时复数谱,得到样本语音信号的幅度谱,然后对幅度谱取自然对数,得到样本语音信号的对数幅度谱。
68.样本语音信号的对数幅度谱可以记为其中f表示对数幅度谱的总帧数,n表示对数幅度谱的频率点数。由此可见,样本语音信号的对数幅度谱可以视为一个f行n列的矩阵,其中每一行对应样本语音信号中的一个信号帧,每一列对应一个特定的频率值f,位于第i行第k列的元素,则表示样本语音信号中,第i个信号帧在第k列对应的频率值fk处幅度的对数。
69.信号帧,可以视为从样本语音信号中分割出来的一段时长等于预设的分割时长的信号。示例性的,若预设的分割时长为1秒,那么从样本语音信号中分割出的一段1秒的信号,就相当于一个信号帧。
70.请参见图2,获取样本语音信号的真实卷绕相位谱的过程可以包括:
71.a1,对样本语音信号进行短时傅里叶变换,获得样本语音信号的短时复数谱;
72.a2,根据样本语音信号的短时复数谱的实部和虚部进行相位计算,得到样本语音信号的真实卷绕相位谱。
73.短时傅里叶变换为一种现有的傅里叶变换算法,其具体实施方式不再赘述。
74.步骤a2中,从样本语音信号的短时复数谱提取出的实部可以记为步骤a2中,从样本语音信号的短时复数谱提取出的实部可以记为虚部可以记为根据实部和虚部计算得到的样本语音信号的真实卷绕相位谱记为p=φ(r,i),其中φ()表示用于进行相位计算的函数,该函数的表达式可以用如下公式(1)表示。
[0075][0076]
另外,定义φ(0,0)=0。函数sgn
*
(x)的定义如下:
[0077]
当x≥0时,sgn
*
(x)=1;当x《0时,sgn
*
(x)=-1。
[0078]
相位计算函数将真实卷绕相位谱的相位严格地限制在主值区间(-π,π]内,因此能
够实现卷绕相位谱的预测。
[0079]
可以理解的,上述样本语音信号的短时复数谱的实部和虚部,以及样本语音信号的真实卷绕相位谱,均为f行n列的矩阵,因此公式(1)中,对输入的实部和虚部两个矩阵逐元素进行计算,获得真实卷绕相位谱中对应位置的元素,例如,将实部r的第1行第1列的元素和虚部i的第1行第1列的元素代入公式(1),计算出的结果作为真实卷绕相位谱中第1行第1列的元素,将实部r的第1行第2列的元素和虚部i的第1行第2列的元素代入公式(1),计算结果作为真实卷绕相位谱中第1行第2列的元素,以此类推,直至计算出真实卷绕相位谱的全部元素。
[0080]
s103,利用待训练的神经网络处理样本语音信号的对数幅度谱,获得样本语音信号的预测卷绕相位谱。
[0081]
其中,预测卷绕相位谱由相位计算单元根据伪实部和伪虚部计算得到;伪实部和伪虚部分别由第一线性卷积层和第二线性卷积层输出;预测卷绕相位谱的相位位于主值区间内。
[0082]
在步骤s103的实施方式可以参见图2,样本语音信号的对数幅度谱loga输入到待训练的神经网络之后,首先经过残差卷积网络处理,接着第一线性卷积层对残差卷积网络的输出进行计算,获得伪实部第二线性卷积层对残差卷积网络的输出进行计算,获得伪虚部获得伪实部和伪虚部后,相位计算单元就可以利用前述公式(1)所示的相位计算函数计算伪实部和伪虚部,获得的计算结果就是样本语音信号的预测卷绕相位谱,记为相位谱,记为根据前述公式(1)可以看出,通过相位计算函数计算得到的预测卷绕相位,其中各元素的值均位于主值区间(-π,π]内,因此经过本实施例的方法训练得到的相位预测网络预测出的相位谱是卷绕的相位谱。
[0083]
s104,计算预测卷绕相位谱和真实卷绕相位谱的抗卷绕损失。
[0084]
其中,抗卷绕损失为预测卷绕相位谱和真实卷绕相位谱之间的瞬时相位损失、群延时损失和瞬时角频率损失的线性组合;瞬时相位损失、群延时损失和瞬时角频率损失均通过抗卷绕函数激活。
[0085]
若抗卷绕损失不满足预设的收敛条件,执行步骤s105,若抗卷绕损失符合预设的收敛条件,执行步骤s106。
[0086]
步骤s104中计算抗卷绕损失的过程,具体可以包括如下步骤:
[0087]
b1,根据真实卷绕相位谱和预测卷绕相位谱计算得到瞬时相位损失;
[0088]
b2,分别对真实卷绕相位谱和预测卷绕相位谱进行频率差分,并根据真实卷绕相位谱和预测卷绕相位谱的频率差分计算群延时损失;
[0089]
b3,分别对真实卷绕相位谱和预测卷绕相位谱进行时间差分,并根据真实卷绕相位谱和预测卷绕相位谱的时间差分计算瞬时角频率损失;
[0090]
b4,将瞬时相位损失、群延时损失和瞬时角频率损失相加得到抗卷绕损失。
[0091]
首先,为了便于理解本实施例中瞬时相位损失的计算方法,首先对神经网络训练时相位卷绕造成的误差扩大问题进行说明。请参见图3,为本技术实施例提供的一种相位卷绕导致误差扩大的示意图。
[0092]
图3中黑色圆点表示真实卷绕相位谱中的相位,即真实相位,条纹圆点表示预测卷
绕相位谱中的相位,即预测相位,由于两者均通过公式(1)所示的相位计算函数计算得到,因此两者均限制在主值区间(-π,π]内。模型训练的目标是使得两者尽可能相互接近,即条纹圆点尽可能接近黑色圆点,所以在训练过程中需要估计两者之间的误差。
[0093]
但是由于相位的卷绕性质,从黑色圆点到条纹圆点存在两条路径,即图3中的直接路径和卷绕路径,而预测相位与自然相位的真实误差为绝对误差(即直接路径长度)和卷绕误差(即卷绕路径长度)的最小值。例如,对于点a处的预测相位与自然相位pa,两者的真实误差为绝对误差,但是对于点b处的预测相位与自然相位pb,两者的真实误差变为卷绕误差。所以,在评估真实卷绕相位谱和预测卷绕相位谱之间的误差时,如果全部按照真实误差来评估,或者全部按照卷绕误差来评估,都将导致两者之间的误差随着每一次训练而扩大。这种现象就是由相位卷绕造成的误差扩大问题。
[0094]
为了解决上述相位卷绕造成的误差扩大问题,本实施例定义如下公式(2)所示的真实误差e的表达式:
[0095][0096]
其中round()表示四舍五入。可以看出,上述公式(2)相当于一个关于关于误差的函数,因此可以定义如下公式(3)所示的函数f
aw
(x):
[0097][0098]
当用误差替换公式(3)的x时,上述函数f
aw
(x)就等于公式(2)所示的真实误差,因此可以将函数f
aw
(x)视为一个抗卷绕函数,通过该函数可以避免因相位卷绕造成的误差扩大问题。
[0099]
基于上面定义的抗卷绕函数,可以设定如下述公式(4)所示的瞬时相位损失l
ip
的计算公式:
[0100][0101]
其中,f
aw
(x)表示对矩阵x进行逐元素的抗卷绕函数计算,也就是说,在公式(4)中,输出的结果为一个矩阵,该矩阵中每一个元素,均利用公式(3)所示的函数对矩阵中对应位置的元素计算得到,例如,将矩阵中第1行第1列的元素代入公式(3)的x,计算出的结果就是输出的矩阵中第1行第1列的元素,其他元素以此类推。
[0102]
avg()表示对括号内的矩阵的所有元素计算平均值。
[0103]
公式(4)中的表示对多个样本取平均。本实施例中,每一样本语音信号均可以按照前述步骤计算得到对应的真实卷绕相位谱和预测卷绕相位谱,因此当存在多个样本语音信号时,可以计算得到多个本语音信号时,可以计算得到多个就表示计算多个的平均值。
[0104]
综上所述,步骤b1中,可以将真实卷绕相位谱和预测卷绕相位谱代入到上述公式(4),即可计算得到瞬时相位损失。
[0105]
步骤b2中的群延时损失l
gd
,可以将经过真实卷绕相位谱和预测卷绕相位谱的频率差分分别代入下述公式(5)计算得到:
[0106][0107]
公式(5)中,表示预测卷绕相位谱的频率差分,δ
df
p表示真实卷绕相位谱的频率差分,δ
df
表示沿频率轴差分,
[0108]
步骤b3中的瞬时角频率损失l
iaf
,可以将预测卷绕相位谱和真实卷绕相位谱的时间差分代入如下公式(6)计算得到:
[0109][0110]
公式(6)中,表示预测卷绕相位谱的时间差分,δ
dt
p表示经过时间差分后的真实卷绕相位谱的时间差分,δ
dt
表示沿时间轴差分。
[0111]
从公式(5)和(6)可以看出,群延时损失和瞬时角频率损失均通过公式(3)的抗卷绕函数激活,从而避免了在计算这两项损失时相位卷绕导致误差扩大。
[0112]
公式(5)和(6)中,和的含义和公式(4)中一致,不再赘述。
[0113]
在步骤b4中,可以将前述步骤b1至b3计算得到的瞬时相位损失、群延时损失和瞬时角频率损失代入如下公式(7),从而计算得到最终的抗卷绕损失l:
[0114]
l=l
ip
+l
gd
+l
iaf (7)。
[0115]
可选的,收敛条件可以设定为,训练次数大于或等于预设的最大训练次数,训练次数定义为执行步骤s103的次数。
[0116]
在其他可选的实施例中也可以根据实际情况设定不同的收敛条件,此处不做限定。
[0117]
s105,根据抗卷绕损失更新待训练的神经网络的参数。
[0118]
执行步骤s105后,返回执行步骤s103,即利用待训练的神经网络处理对数幅度谱,获得样本语音信号的预测卷绕相位谱步骤。
[0119]
在步骤s105中,可以利用梯度反向传播(backpropagation)算法,根据抗卷绕损失计算得到待训练的神经网络中每一参数的更新量,然后按照更新量对应更新每一待训练的神经网络中每一参数的数值。
[0120]
s106,将待训练的神经网络确定为相位预测神经网络。
[0121]
步骤s101至s106的过程可以视为本实施例提供的方法中的网络训练过程。
[0122]
s107,获取待预测语音信号的对数幅度谱。
[0123]
步骤s107中获取待预测语音信号的对数幅度谱的方式,和步骤s102中获取样本语音信号的对数幅度谱的方式一致,不再赘述。
[0124]
s108,利用相位预测神经网络处理待预测语音信号的对数幅度谱,获得待预测语音信号的卷绕相位谱。
[0125]
步骤s108中的相位预测神经网络,就是待训练的神经网络经过s101至s106的训练过程训练结束后的神经网络,两者的结构和各结构的作用完全相同,因此,步骤s108中用相位预测神经网络处理待预测语音信号的对数幅度谱,获得对应的卷绕相位谱的过程,和步骤s103中利用待训练的神经网络处理样本语音信号,获得样本语音信号的预测卷绕相位谱的过程一致,不再赘述。
[0126]
步骤s107和s108的过程可以视为本实施例的方法中相位预测的过程。
[0127]
可选的,通过s108获得待预测语音信号的卷绕相位谱后,可以结合待预测语音信号的对数幅度谱和卷绕相位谱进行语音波形的重构,获得待预测语音信号对应的重构语音波形具体的,可以将待预测语音信号的对数幅度谱和卷绕相位谱组合成短时复数谱,然后对短时复数谱进行逆短时傅里叶变换,获得对应的重构语音波形以上过程可以用如下公式(8):
[0128][0129]
公式(8)中,istft()表示逆短时傅里叶变换,p0表示步骤s108中相位预测网络输出的待预测语音信号的卷绕相位谱,a表示待预测语音信号的幅度谱,i为复数单位,即i等于
[0130]
本技术提供一种利用抗卷绕损失训练的平行估计架构网络预测相位的方法,方法包括,在训练过程中,通过待训练的神经网络中平行的两个线性卷积层,以及相位计算单元,模拟由短时复数谱的实虚部计算相位谱的过程,并将预测的相位值限制在主值区间内,实现卷绕相位谱的预测,并且训练时所用的抗卷绕损失,包括通过抗卷绕函数激活的瞬时相位误差、群延时误差和瞬时角频率误差,从而避免相位卷绕造成的误差扩大问题。训练结束后再用训练好的相位预测神经网络处理待预测语音信号的对数幅度谱,获得卷绕相位谱。本方案通过神经网络直接预测语音信号的卷绕相位谱,并在计算损失时引入抗卷绕函数,解决训练时相位卷绕造成的误差扩大问题,具有较高的效率和准确度。
[0131]
根据本技术实施例提供的利用抗卷绕损失训练的平行估计架构网络预测相位的方法,本技术实施例还提供一种利用抗卷绕损失训练的平行估计架构网络预测相位的装置,请参见图4,为该装置的结构示意图,该装置可以包括如下单元。
[0132]
生成单元401,用于生成待训练的神经网络;其中,待训练的神经网络包括一个残差卷积网络,平行的第一线性卷积层和第二线性卷积层,以及相位计算单元;
[0133]
获取单元402,用于获取样本语音信号的对数幅度谱和真实卷绕相位谱;
[0134]
处理单元403,用于利用待训练的神经网络处理样本语音信号的对数幅度谱,获得样本语音信号的预测卷绕相位谱;其中,预测卷绕相位谱由相位计算单元根据伪实部和伪虚部计算得到;伪实部和伪虚部分别由第一线性卷积层和第二线性卷积层输出;预测卷绕相位谱的相位位于主值区间内;
[0135]
计算单元404,用于计算预测卷绕相位谱和真实卷绕相位谱的抗卷绕损失;其中,抗卷绕损失为预测卷绕相位谱和真实卷绕相位谱之间的瞬时相位损失、群延时损失和瞬时角频率损失的线性组合;瞬时相位损失、群延时损失和瞬时角频率损失均通过抗卷绕函数激活;
[0136]
更新单元405,用于若抗卷绕损失不符合预设的收敛条件,根据抗卷绕损失更新待训练的神经网络的参数,返回执行利用待训练的神经网络处理对数幅度谱,获得样本语音信号的预测卷绕相位谱步骤;
[0137]
确定单元406,用于若抗卷绕损失符合收敛条件,将待训练的神经网络确定为相位预测神经网络;
[0138]
获取单元402用于,获取待预测语音信号的对数幅度谱;
[0139]
处理单元403用于,利用相位预测神经网络处理待预测语音信号的对数幅度谱,获得待预测语音信号的卷绕相位谱。
[0140]
可选的,获取单元402获取样本语音信号的真实卷绕相位谱时,具体用于:
[0141]
对样本语音信号进行短时傅里叶变换,获得样本语音信号的短时复数谱;
[0142]
根据样本语音信号的短时复数谱的实部和虚部进行相位计算,得到样本语音信号的真实卷绕相位谱。
[0143]
可选的,计算单元404计算预测卷绕相位谱和真实卷绕相位谱的抗卷绕损失时,具体用于:
[0144]
根据真实卷绕相位谱和预测卷绕相位谱计算得到瞬时相位损失;
[0145]
分别对真实卷绕相位谱和预测卷绕相位谱进行频率差分,并根据真实卷绕相位谱和预测卷绕相位谱的频率差分计算群延时损失;
[0146]
分别对真实卷绕相位谱和预测卷绕相位谱进行时间差分,并根据时间差分后的真实卷绕相位谱和预测卷绕相位谱计算瞬时角频率损失;
[0147]
将瞬时相位损失、群延时损失和瞬时角频率损失相加得到抗卷绕损失。
[0148]
可选的,收敛条件为,训练次数大于或等于预设的最大训练次数,其中,所述训练次数定义为执行所述利用所述待训练的神经网络处理所述样本语音信号的对数幅度谱,获得所述样本语音信号的预测卷绕相位谱步骤的次数。
[0149]
可选的,残差卷积网络包括:
[0150]
线性卷积层,和线性卷积层连接的平行的多个残差卷积块,用于计算多个残差卷积块的输出的均值的累加单元,以及和累加单元连接的带泄露修正的线性单元。
[0151]
本实施例提供的利用抗卷绕损失训练的平行估计架构网络预测相位的装置,其具体工作原理和有益效果,可以参见本技术实施例提供的利用抗卷绕损失训练的平行估计架构网络预测相位的方法中相关步骤和有益效果,不再赘述。
[0152]
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0153]
需要注意,本发明中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
[0154]
专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业
技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1