本技术涉及语音处理,更具体地说,涉及一种语音增强方法及装置。
背景技术:
1、在现实生活场景中,被设备捕捉到的语音总是不可避免地被噪音所干扰,这极大地影响了通讯、助听等设备的实际应用,所以需要对语音进行增强,语音增强旨在从被噪音干扰的语音波形中恢复出干净语音波形。
2、随着深度学习技术的发展,通常通过训练语音增强模型,利用训练完成的语音增强模型对带噪的语音波形进行增强,得到增强的语音波形。现有的语音增强模型通常对带噪的语音波形的带噪的幅度谱进行增强,然后基于增强的幅度谱和带噪的相位谱计算出增强的语音波形,但由于是基于带噪的相位谱计算出的增强的语音波形,缺少对相位谱的增强,使得计算出的增强的语音波形的质量差、信噪比低,对带噪语音波形的增强效果差。
技术实现思路
1、有鉴于此,本技术提供了一种语音增强方法及装置,用于解决现有语音增强方式,由于缺少对相位谱的增强,使得计算出的增强的语音波形的质量差、信噪比低,对带噪语音波形的增强效果差的问题。
2、为了实现上述目的,现提出的方案如下:
3、一种语音增强方法,包括:
4、获取带噪语音波形的带噪相位谱及带噪幅度谱;
5、利用预设的语音增强模型处理所述带噪相位谱及所述带噪幅度谱,得到所述带噪相位谱对应的增强相位谱及所述带噪幅度谱对应的增强幅度谱;
6、所述语音增强模型被配置为,基于输入的所述带噪相位谱及所述带噪幅度谱预测所述带噪相位谱对应的增强伪实部谱及增强伪虚部谱,以及,预测所述带噪幅度谱对应的增强幅度谱,并基于预设的模拟相位计算公式对所述增强伪实部谱及所述增强伪虚部谱进行计算,得到值域区间限制在主值区间内的增强相位谱的内部状态表示;
7、根据所述增强相位谱及所述增强幅度谱计算得到所述带噪语音波形对应的增强语音波形。
8、优选地,所述获取带噪语音波形的带噪相位谱及带噪幅度谱之后,还包括:
9、对所述带噪幅度谱进行幅度压缩,得到压缩后带噪幅度谱;
10、所述利用预设的语音增强模型处理所述带噪相位谱及所述带噪幅度谱,得到所述带噪幅度谱对应的增强幅度谱的过程,包括:
11、将所述带噪相位谱及所述压缩后带噪幅度谱输入预设的语音增强模型,以利用所述语音增强模型预测得到所述压缩后带噪幅度谱对应的压缩增强幅度谱掩膜,并将所述压缩增强幅度谱掩膜逐点乘以所述压缩后带噪幅度谱,得到压缩增强幅度谱,对所述压缩增强幅度谱进行解压缩得到所述带噪幅度谱对应的增强幅度谱。
12、优选地,对所述带噪幅度谱进行幅度压缩,得到压缩后带噪幅度谱,包括:
13、计算所述带噪幅度谱的c次幂,得到压缩后带噪幅度谱,c为预设的压缩因子;
14、对所述压缩增强幅度谱进行解压缩得到所述带噪幅度谱对应的增强幅度谱的过程,包括:
15、计算所述压缩增强幅度谱的1/c次幂,得到所述带噪幅度谱对应的增强幅度谱。
16、优选地,所述模拟相位计算公式为:
17、
18、其中,p为表示增强伪实部谱的自变量,q为表示增强伪虚部谱的自变量,当p≥0时,sgn*(p)=1,当p<0时,sgn*(p)=-1,当q≥0时,sgn*(q)=1,当q<0时,sgn*(q)=-1。
19、优选地,所述语音增强模型的训练过程,包括:
20、获取训练带噪语音波形的训练带噪相位谱、训练带噪幅度谱,以及,所述训练带噪语音波形对应的训练干净语音波形的训练干净相位谱、训练干净幅度谱;
21、将所述训练带噪相位谱与所述带噪幅度谱输入至所述语音增强模型,以利用所述语音增强模型基于输入的所述训练带噪相位谱及所述训练带噪幅度谱预测所述训练带噪相位谱对应的训练增强伪实部谱及训练增强伪虚部谱,以及,预测所述训练带噪幅度谱对应的训练增强幅度谱,并基于所述模拟相位计算公式对所述训练增强伪实部谱及所述训练增强伪虚部谱进行计算,得到值域区间限制在所述主值区间内的训练增强相位谱;
22、基于所述训练干净幅度谱及所述训练增强幅度谱计算幅度损失;
23、基于所述训练干净相位谱及所述训练增强相位谱计算相位损失;
24、基于目标损失对所述语音增强模型进行训练,直至满足设定的训练结束条件,所述目标损失包括所述幅度损失及所述相位损失。
25、优选地,所述相位损失包括所述训练干净相位谱与所述训练增强相位谱的瞬时相位损失;
26、所述瞬时相位损失的计算过程,包括:
27、基于预设的抗卷绕函数计算所述训练干净相位谱与所述训练增强相位谱的瞬时相位的第一真实距离;
28、基于所述第一真实距离计算所述瞬时相位损失。
29、优选地,所述相位损失还包括所述训练干净相位谱与所述训练增强相位谱的群延时损失及瞬时角频率损失;
30、所述群延时损失的计算过程,包括:
31、计算所述训练干净相位谱沿频率轴的差分谱与所述训练增强相位谱沿频率轴的差分谱;
32、基于所述抗卷绕函数计算所述训练干净相位谱沿频率轴的差分谱与所述训练增强相位谱沿频率轴的差分谱的第二真实距离;
33、基于所述第二真实距离计算所述群延时损失;
34、所述瞬时角频率损失的计算过程,包括:
35、计算所述训练干净相位谱沿时间轴的差分谱与所述训练增强相位谱沿时间轴的差分谱;
36、基于所述抗卷绕函数计算所述训练干净相位谱沿时间轴的差分谱与所述训练增强相位谱沿时间轴的差分谱的第三真实距离;
37、基于所述第三真实距离计算所述瞬时角频率损失。
38、优选地,所述抗卷绕函数为faw(m),faw(m)=m-2π·round(m/2π),m为自变量,round是取整函数;
39、所述基于预设的抗卷绕函数计算所述训练干净相位谱与所述训练增强相位谱的瞬时相位的第一真实距离,包括:
40、计算所述训练干净相位谱与所述训练增强相位谱的瞬时相位的第一真实距离xp为所述训练干净相位谱,为所述训练增强相位谱;
41、基于所述抗卷绕函数计算所述训练干净相位谱沿频率轴的差分谱与所述训练增强相位谱沿频率轴的差分谱的第二真实距离,包括:
42、计算所述训练干净相位谱沿频率轴的差分谱与所述训练增强相位谱沿频率轴的差分谱的第二真实距离δdfxp为所述训练干净相位谱沿频率轴的差分谱,为所述训练增强相位谱的沿频率轴的差分谱;
43、基于所述抗卷绕函数计算所述训练干净相位谱沿时间轴的差分谱与所述训练增强相位谱沿时间轴的差分谱的第三真实距离,包括:
44、计算所述训练干净相位谱沿时间轴的差分谱与所述训练增强相位谱沿时间轴的差分谱的第三真实距离δdtxp为所述训练干净相位谱沿时间轴的差分谱,为所述训练增强相位谱的沿时间轴的差分谱。
45、优选地,基于所述第一真实距离计算所述瞬时相位损失,包括:
46、基于如下公式计算瞬时相位损失
47、为求平均值的函数,||||1为一范数公式,t1为所述第一真实距离;
48、基于所述第二真实距离计算所述群延时损失,包括:
49、基于如下公式计算群延时损失
50、t2为所述第二真实距离;
51、基于所述第三真实距离计算所述瞬时角频率损失,包括:
52、基于如下公式计算瞬时角频率损失
53、t3为所述第三真实距离。
54、优选地,所述基于目标损失对所述语音增强模型进行训练,直至满足设定的训练结束条件之前,还包括:
55、对所述训练干净语音波形进行短时傅里叶变换,得到训练干净短时复数谱;
56、对所述训练增强相位谱及所述训练增强幅度谱进行重构,得到训练增强短时复数谱;
57、基于所述训练干净短时复数谱及所述训练增强短时复数谱计算短时复数谱损失;
58、所述目标损失还包括所述短时复数谱损失。
59、优选地,对所述训练增强相位谱及所述训练增强幅度谱进行重构,得到训练增强短时复数谱之后,还包括:
60、对所述训练增强短时复数谱进行逆短时傅里叶变换,得到训练增强语音波形;
61、基于所述训练干净语音波形及所述训练增强语音波形计算波形损失;
62、所述目标损失还包括所述波形损失。
63、优选地,所述语音增强模型包括:
64、编码器、ts-conformer模块、相位解码器及幅度解码器;
65、所述编码器用于对所述训练带噪相位谱与所述训练带噪幅度谱进行编码,得到高维时频域特征;
66、所述ts-conformer模块用于对所述高维时频域特征进行处理,得到处理后的高维时频域特征;
67、所述相位解码器用于基于所述处理后的高维时频域特征预测得到所述训练增强伪实部谱及所述训练增强伪虚部谱,基于所述模拟相位计算公式对所述训练增强伪实部谱及所述训练增强伪虚部谱进行计算得到所述训练增强相位谱;
68、所述幅度解码器用于基于所述处理后的高维时频域特征,预测得到所述训练增强幅度谱。
69、优选地,所述编码器、所述ts-conformer模块、所述相位解码器及所述幅度解码器组合为生成器,所述语音增强模型还包括判决器;
70、所述判决器用于对所述训练干净幅度谱和所述训练增强幅度谱进行判决,得到所述增强语音波形对应的判决指标;
71、基于目标损失对所述语音增强模型进行训练,直至满足设定的训练结束条件之前,还包括:
72、计算判决器损失;
73、基于所述判决指标计算客观指标损失;
74、所述目标损失还包括所述客观指标损失及所述判决器损失;
75、基于目标损失对所述语音增强模型进行训练,直至满足设定的训练结束条件,包括:
76、基于所述判决器损失训练所述判决器,基于所述幅度损失、所述相位损失、所述短时复数谱损失、所述波形损失及所述客观指标损失训练所述生成器,直至满足设定的训练结束条件。
77、优选地,所述判决指标为判决归一化pesq指标,所述判决器还用于对一对所述训练干净幅度谱进行判决,得到所述训练干净语音波形对应的判决归一化pesq指标;
78、所述计算判决器损失,包括:
79、基于如下公式计算判决器损失
80、
81、其中,xm为所述训练干净幅度谱,d(xm,xm)为所述训练干净语音波形对应的判决归一化pesq指标,为所述训练带噪幅度谱,为所述增强语音波形对应的判决归一化pesq指标,qpesq为预先确定的所述增强语音波形对应的真实归一化pesq指标;
82、基于所述判决指标计算客观指标损失,包括:
83、基于如下公式计算客观指标损失
84、为求平均值的函数,||||2为二范数公式。
85、一种语音增强装置,包括:
86、带噪相位谱及带噪幅度谱获取单元,用于获取带噪语音波形的带噪相位谱及带噪幅度谱;
87、增强相位谱及增强幅度谱获取单元,用于利用预设的语音增强模型处理所述带噪相位谱及所述带噪幅度谱,得到所述带噪相位谱对应的增强相位谱及所述带噪幅度谱对应的增强幅度谱;
88、所述语音增强模型被配置为,基于输入的所述带噪相位谱及所述带噪幅度谱预测所述带噪相位谱对应的增强伪实部谱及增强伪虚部谱,以及,预测所述带噪幅度谱对应的增强幅度谱,并基于预设的模拟相位计算公式对所述增强伪实部谱及所述增强伪虚部谱进行计算,得到值域区间限制在主值区间内的增强相位谱的内部状态表示;
89、增强语音波形获取单元,用于根据所述增强相位谱及所述增强幅度谱计算得到所述带噪语音波形对应的增强语音波形。
90、从上述的技术方案可以看出,本技术实施例提供的语音增强方法,获取带噪语音波形的带噪相位谱及带噪幅度谱,利用预设的语音增强模型处理带噪相位谱及带噪幅度谱,得到带噪相位谱对应的增强相位谱及带噪幅度谱对应的增强幅度谱,根据增强相位谱及增强幅度谱计算得到带噪语音波形对应的增强语音波形,语音增强模型被配置为,基于输入的带噪相位谱及带噪幅度谱预测带噪相位谱对应的增强伪实部谱及增强伪虚部谱,以及,预测带噪幅度谱对应的增强幅度谱,并基于预设的模拟相位计算公式对增强伪实部谱及增强伪虚部谱进行计算,得到值域区间限制在主值区间内的增强相位谱的内部状态表示,不仅对带噪语音波形的带噪幅度谱进行增强,还对带噪语音波形的带噪相位谱进行增强,使得根据增强相位谱及增强幅度谱计算得到的增强语音波形质量高、信噪比高,改善了对带噪语音波形的增强效果,并且,由于语音增强模型预测增强相位谱时,并非直接对带噪相位谱进行增强,而是预测得到带噪相位谱对应的增强伪实部谱及增强伪虚部谱,基于预设的模拟相位计算公式对增强伪实部谱及增强伪虚部谱进行计算得到值域区间限制在主值区间内的增强相位谱,实现了对增强相位谱的预测,避免了由于相位的卷绕特性导致无法预测得到增强相位谱的问题,更加使得根据增强相位谱及增强幅度谱计算得到的增强语音波形质量高、信噪比高,极大地改善了对带噪语音波形的增强效果。