一种基于多注意力机制的单通道语音增强方法

文档序号：35700369发布日期：2023-10-11 23:49阅读：96来源：国知局

本发明涉及一种基于多注意力机制的单通道语音增强方法，属于音频信号处理。

背景技术：

1、语音是语言的声学表现，是人类交流沟通、传递信息的重要媒介，同时兼具便捷和高效的特点。如何在复杂的声学环境中，将带噪语音中的各种噪声去除，从而进一步提升语音质量和可理解性，受到了广泛的关注，并在语音通讯、助听设备、语音指令控制和语音识别中有大量的应用。在人与人之间的沟通交流中，低质量的语音会使得信息传递的效率降低，甚至出现信息传递的错误。例如，在远程会议中，噪声等干扰的存在会使得与会人员需要付出更多的精力来听清其他人所说的内容，使得会议的效率降低，极端情况下甚至会因为精力不足而降低会议中决策的科学性和合理性。在人机交互的过程中，低质量的语音信息会大幅度降低语音处理系统的性能，最终严重影响设备的可用性。例如，在智能家居环境中，对电视、电脑、空调等设备发出的指令会因为噪声等干扰，影响语音控制的准确度，如果用户在进行操作之前需要将电视静音，自然会严重阻碍智能家居设备的推广。因此，一种可以减少噪声对语音信息的干扰的技术具有很高的研究与应用价值。

2、语音增强技术的雏形源自20世纪60年代的贝尔实验室。经过数十年的发展，如谱减法、滤波法、基于子空间的方法等多种数字信号处理的方法被应用于语音增强系统，对于平稳噪声取得很好的抑制效果。但实际场景中普遍存在大量的非平稳噪声，基于数字信号处理的方法难以取得很好的降噪效果。近十年深度学习得到飞速的发展，像dnn，rnn，gan等神经网络也相继被运用到语音增强任务上，除了平稳噪声外，还能对非平稳噪声起到很好的抑制效果。在时频域对语音信号进行处理普遍采用幅度谱作为训练目标，但是该类方法缺失了对相位信息的估计，限制了降噪网络性能的上限。近两年，对相位谱的估计也逐渐受到了重视，但仅通过实值网络去估计复数信息，并未对语音复数谱中的关联信息合理建模。

技术实现思路

1、本发明提供了一种基于多注意力机制的单通道语音增强方法，以用于改善现有用于单通道语音增强的复数网络级联多个编码器导致信息提取不充分，用于信号重构的语音特征严重丢失的问题。

2、本发明的技术方案是：一种基于多注意力机制的单通道语音增强方法，所述方法的具体步骤如下：

3、step1、对时域语音信号进行短时傅里叶变换得到语音复数谱，通过复数编码器对语音复数谱特征进行提取并用于中间层建模和信号重构；经过残差连接将编码器提取特征送入解码器中与解码特征进行融合后解码；

4、step2、在复数u-net架构下引入复数conformer作为中间层，分别从时间和频率两个维度对语音幅度和相位的相关性进行建模；

5、step3、提出三维度注意力机制对编码器提取的语音高维特征和解码器输出的重构语音特征进行动态调节，增强复数卷积编解码器对语音特征的表示能力；

6、step4、利用注意力门控机制对编码器输出的语音细节特征和解码器输出的高维特征进行融合。

7、作为本发明的进一步方案，所述step1中，获取语音复数谱的过程如下：选用voicebank数据集中的干净语音进行加噪，噪声数据来自demand数据集，该数据集包含公路、办公室、厨房、林间等不同场景下的噪声。按照0db、5db、15db、20db等四种不同信噪比，随机抽取不同噪声加到干净音频上作为训练集中的带噪语音数据。测试数据的构造过程相似，不过干净语音是训练集中没有出现过的，且信噪比不同；

8、对语音信号进行频谱分析是语音识别和音频信号处理中的一种重要方法，语音信号整体上是一个非平稳过程，故对带噪语音先进行采样和量化处理，将连续的语音信号离散化，再通过短时傅里叶变换进行时频分解，基于语音的短时平稳特性，将语音切分成若干30ms为一帧的语音帧，每一帧近似是平稳信号，确保帧内语音的基本特性相对稳定；通过汉宁窗对语音帧进行加窗；使得时域信号更好的满足周期性要求，减少频谱泄露的情况。最后，通过短时傅里叶变换得到需要处理的语音时频特征，即语音复数谱。

9、设输入的带噪语音序列可表示为：x(t)＝s(t)+n(t)。其中，x(t)、s(t)、n(t)分别表示带噪语音、干净语音、噪声信号，语音增强任务的目的是从带噪语音中恢复干净语音。对y(t)通过短时傅里叶变换进行离散化：可表示为：

10、

11、式(1)中：w(t)是窗函数，窗函数中心为t0，stftz(t,f)是时间t和频率f的二维函数。t是时间帧长，f是频点数。则编码器的输入特征可表示为：x＝stftz(x(t))。

12、作为本发明的进一步方案，所述step1中，构建复数编码器提取语音复数谱特征，通过两个卷积核构造复数滤波器模拟复数运算，与输入复数特征进行卷积操作，并通过复数归一化和复数prelu激活函数处理；构建复数解码器，利用复数转置卷积将语音高维特征进行还原，其结构与复数编码器一样。

13、作为本发明的进一步方案，语音复数谱包含语音的幅度和相位信息，故构造两个二维卷积滤波器模拟复数运算，充分对语音特征进行提取以获得更好的表征，之后由复数归一化和复数prelu函数激活处理。所述step1中，复数编码器中，编码器的输入特征表示为：构造二维卷积滤波器则编码器中的复数卷积层的运算如下(2)式所示，复数归一化和复数prelu函数激活如(3)所示：

14、

15、

16、式中：和分别表示输入到复数卷积层的复数谱实部和虚部，和win分别表示复数卷积核的实部和虚部,n∈{1,2,3,4,5}表示编解码器中的第n层卷积块，j表示虚部标识，*表示卷积操作，sn表示卷积编码层的输出，prelu表示激活函数，nb表示归一化处理。

17、作为本发明的进一步方案，所述step1中，复数解码器是复数编码器的逆过程，通过残差注意门控机制将编解码器的输出特征进行融合，作为下一层解码器的输入特征在解码器中通过复数转置卷积层、归一化操作和prelu函数激活得到解码器的输出对最后一层编码器的输出通过短时傅里叶反变换得到增强后的语音；

18、

19、式(4)中，和分别表示输入到解码器中复数谱的实部和虚部，wrn和win分别表示复数卷积核的实部和虚部，n∈{1,2,3,4,5}表示解码器中的第n层卷积块，nb表示归一化，tconv表示转置卷积操作。

20、作为本发明的进一步方案，在复数u-net架构下使用复数conformer作为中间层，分别从时间维度和频率维度对复数编码器提取的语音特征进行建模，在复数计算规则下同时处理复数语音特征的实部和虚部，充分考虑了语音信号幅度和相位之间的相关性。另外为了充分捕捉语音图谱在频率和时间维度的上下文信息，通过两路扩张卷积分别对复数谱中的实部特征和虚部特征进行复数卷积操作，从而有效对语音局部特征进行建模。所述step2中，提出在复数u-net架构下使用复数conformer模块，分别从时间和频率两个维度对编码器提取的语音幅度和相位高维特征的相关性进行建模，其中，复数自注意力表示为：

21、complexattention(q,k,v)＝

22、attrntion(qr,kr,vr)-attention(qr,ki,vi)-attention(qi,kr,vi)-attention(qi,ki,vr)+

23、i(attention(qr,kr,vr)+attention(qr,ki,vr)+attention(qi,kr,vr)-attention(qi,kr,vi))

24、其中，qr、qi、kr、ki、vr、vi均表示输入的语音复数谱z＝zr+jzi通过复数线形层w＝wi+wr得到的复数权重矩阵。

25、其中，qr,qi的计算如下(5)、(6)式所示，kr,ki,vr,vi的计算过程类似。

26、

27、qi＝xrwiq+xrwiq (6)

28、式(5)、(6)中xr、xi分别表示用于建模语音复数谱的实部和虚部，wrq、wiq分别表示注意力机制中的线性权重矩阵。

29、作为本发明的进一步方案，所述step3中，通过三维度注意力机制分别从通道、时间、频率等三个维度对与语音特征块进行动态调整，增加与任务相关特征区域的关注程度，在有限的特征空间内将信息量趋于最大化，从而充分表示特征信息。复数通道注意力利用特征块的全局信息来确定不同通道的重要性，可辅助捕捉更多不同特征图之间的细节，弥补各个特征之间丢失的重要信息。在语音特征图内部，不同特征区域对增强任务的贡献程度不同，复数时间注意力在频率方向上，通过平均池化和最大池化去聚合语音特征块内部的信息，沿时间方向做卷积运算来关注不同语音帧之间的局部特征。复数频率注意力的功能与复数时间注意力类似，不同之处在于复数频率注意力是沿时间方向去聚合信息，沿频率维度进行卷积操作对不同子带之间的数据特征的相关性进行建模。其过程可表示为：

30、

31、式(7)中，r,i分别代表实部和虚部下标，uc,uf,ut分别代表通道、频率、时间维度注意力机制的输出特征。

32、作为本发明的进一步方案，所述step4中，使用注意力门控机制将编码器输出的语音细节特征和解码器输出的高维特征进行融合，同时对传入的噪声进行进一步地抑制。

33、在u-net网络中直接使用残差连接将编码器提取的语音特征送入解码器，不可避免会引入噪声成分。因此在残差连接中加入注意力门控机制，对与任务不相关的噪声信息进行抑制，同时对编码器输出的语音细节特征和解码器输出的高维特征进行融合送入下一解码器中，通过细节信息增强重构语音的质量。其计算过程可表示为：

34、

35、式(8)中，和分别代表第l层编码器和解码器的输出特征，relu和sigmoid分别代表relu和sigmoid激活函数，conv表示卷积操作。

36、最后，对最后一层解码输出的语音复数谱yr,i进行傅里叶变换，再将各帧信号重叠相加得到完整的预测语音信号y(t)，其计算过程可表示为：

37、

38、

39、式(9)中，表示进行短时傅里叶变换，式(10)表示将各个进行短时傅里叶变换后的语音帧进行拼接，还原为最终的时域语音波形信号。

40、本发明方法以复数u-net为基础架构，对时域语音信号进行傅里叶变换得到语音复数谱，通过级联的多层卷积编码器和解码器分别进行语音特征提取和语音特征恢复，现有用于单通道语音增强的深度复数网络严重依赖复数卷积层的表示能力，且对语音复数谱中的关联信息未采用合理的建模方式，因此并提出在复数u-net架构下使用复数conformer模块，分别从时间和频率维度对语音复数谱中实部和虚部之间的相关性进行建模。在编解码的过程中加入三维度注意力机制，对语音特征进行动态调节，在有限特征空间内将语音所包含的信息量趋近于最大化。另外，对编码器输出的语音细节特征和解码器输出的高维特征通过注意力门控机制进行融合，再送入下一层解码器进行解码，将最后一层解码后得到的语音复数谱经过短时傅里叶反变换，得到增强后的语音时域波形。实验结果表明，所提出的方法可以较好地抑制噪声，提升语音质量和可理解性。

41、本发明的有益效果是：本发明能提高语音质量和可理解性，可用于嘈杂环境中的语音通信，口令控制及与语音相关任务的前处理部分；本发明在公开数据集voice bank-demand上的实验结果表明，所提方法在五种客观评价指标pesq、csig、cbak、covl、stoi上，分别取得了的3.09、4.28、3.47、3.72、95.07评测结果，可有效降低噪声、提高语音质量和可理解性。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：高盛祥莫尚斌余正涛
技术所有人：昆明理工大学
我是此专利的发明人