一种基于U-Net的高性能单通道语音增强算法的制作方法

文档序号:35347117发布日期:2023-09-07 20:39阅读:66来源:国知局
一种基于U-Net的高性能单通道语音增强算法的制作方法

本发明涉及语音降噪,具体涉及一种基于u-net的高性能单通道语音增强算法。


背景技术:

1、语音在日常生活中必不可少,但是噪声和混响的存在会极大程度地影响语音的质量和可懂度,为了提高听众的体验,目前已有了许多语音增强的方案。现在主流的语音增强方案是基于深度学习,在频域上对语音进行增强,具体又可以分为映射与频谱掩模两种方法。但是目前这些算法仍然存在计算复杂度高、降噪性能不理想、去混响能力不足等问题。


技术实现思路

1、为了解决现有技术中的问题,本发明基于流行的u-net网络结构,以编码器-解码器的框架,应用频谱掩模的方法,实现了一种针对复杂噪声、混响环境的高性能单通道语音增强算法。

2、实现本发明目的的技术方案为:

3、一种基于u-net的高性能单通道语音增强算法,包括如下步骤:

4、1)使用相位编码器将复值的频谱转换到实数域;

5、2)使用输入卷积层提取特征并改变通道数;

6、3)使用编码器、颈部模块和解码器搭建的主网络对语音进行增强和降噪处理;

7、4)使用输出卷积层得到掩模,生成增强后的估计语音频谱。

8、编码器包括频率下采样模块(fd)、时间频率卷积模块(tfcm)、多卷积通道注意力模块(mchca)和残差通道模块(rcam)。

9、颈部模块包括时间频率卷积模块(tfcm)、多卷积通道注意力模块(mchca)和残差通道模块(rcam)。

10、解码器包括频率向上采样模块(fu)、时间频率卷积模块(tfcm)、多卷积通道注意力模块(mchca)和残差通道模块(rcam)。

11、编码器和解码器通过通道时频跳层(ctfsc)连接。

12、多卷积通道注意力模块利用通道维度隐式编码全局信息。

13、残差通道模块捕捉不同通道之间的特征信息。

14、残差通道模块数据处理流程包括:首先经过instance normalization处理;其次通过深度卷积、线性整流函数、深度卷积块获得残差特征;残差特征通过二维平均池化层、下采样卷积、线性整流函数、上采样卷积和sigmoid激活函数得到通道的特征信息;最后将残差特征乘以通道的特征信息,并与输入相加。

15、通道时频跳层解决上采样和下采样过程存在的信息丢失和进一步捕捉通道与时频维度的特征信息。

16、通道时频跳层包括通道关注模块与时频关注模块。

17、在通道关注模块中,输入首先通过平均池化层和最大池化层,分别汇聚语音的时频特征,并分别获得pca和pcm;pca和pcm将被传递到具有共享参数的多层感知机中;最后,我们使用按元素加法和sigmoid激活函数合并并输出通道特征向量fc,计算公式为:

18、

19、其中,σ表示sigmoid函数,avg(·)表示平均池化,max(·)表示最大池化,表示按元素乘法,pca表示通道关注模块中平均池化层输出,pcm表示通道关注模块中最大池化层输出。

20、多层感知机含有一层隐含层。

21、在时频关注模块中,通道关注模块的输出fc通过平均池化层和最大池化层来聚合语音的通道特征,并分别得到psa和psm;将psa和psm进行拼接并穿过一个7x7的卷积层与sigmoid层,最终得到输出,计算公式为:

22、

23、其中,w表示7x7卷积中的投影矩阵,psa表示时频关注模块中平均池化层输出,psm表示时频关注模块中平均池化层输出。

24、在应用本发明算法的整个网络,为了更好地利用幅度信息与相位信息,我们的loss函数使用了cmse。其具体计算公式为:

25、

26、

27、其中scri和scmag分别表示干净语音的复值压缩谱与幅度压缩谱,表示估计的语音频谱,α和β表示尺度调整因子,分别为0.3和0.7,c表示压缩系数,值为0.3。

28、本发明的有益效果为:

29、1、本发明的算法能够以更小的计算复杂度,实现优越的增强效果。

30、2、本发明的算法多尺度地捕捉输入语音的时频、通道特征。

31、3、本发明的算法可以在复杂的噪声、混响环境下实现优越的语音增强效果。



技术特征:

1.一种基于u-net的高性能单通道语音增强算法,其特征在于:包括如下步骤:

2.根据权利要求1所述的一种基于u-net的高性能单通道语音增强算法,其特征在于:编码器包括频率下采样模块、时间频率卷积模块、多卷积通道注意力模块和残差通道模块。

3.根据权利要求1所述的一种基于u-net的高性能单通道语音增强算法,其特征在于:颈部模块包括时间频率卷积模块、多卷积通道注意力模块和残差通道模块。

4.根据权利要求1所述的一种基于u-net的高性能单通道语音增强算法,其特征在于:解码器包括频率向上采样模块、时间频率卷积模块、多卷积通道注意力模块和残差通道模块。

5.根据权利要求2或3或4所述的一种基于u-net的高性能单通道语音增强算法,其特征在于:编码器和解码器通过通道时频跳层连接。

6.根据权利要求5所述的一种基于u-net的高性能单通道语音增强算法,其特征在于:残差通道模块数据处理流程包括:首先经过instance normalization处理;其次通过深度卷积、线性整流函数、深度卷积块获得残差特征;残差特征通过二维平均池化层、下采样卷积、线性整流函数、上采样卷积和sigmoid激活函数得到通道的特征信息;最后将残差特征乘以通道的特征信息,并与输入相加。

7.根据权利要求6所述的一种基于u-net的高性能单通道语音增强算法,其特征在于:通道时频跳层包括通道关注模块与时频关注模块。

8.根据权利要求7所述的一种基于u-net的高性能单通道语音增强算法,其特征在于:在通道关注模块中,输入首先通过平均池化层和最大池化层,分别汇聚语音的时频特征,并分别获得pca和pcm;pca和pcm将被传递到具有共享参数的多层感知机中;最后,我们使用按元素加法和sigmoid激活函数合并并输出通道特征向量fc,计算公式为:

9.根据权利要求7所述的一种基于u-net的高性能单通道语音增强算法,其特征在于:在时频关注模块中,通道关注模块的输出fc通过平均池化层和最大池化层来聚合语音的通道特征,并分别得到psa和psm;将psa和psm进行拼接并穿过一个7x7的卷积层与sigmoid层,最终得到输出,计算公式为:

10.应用权利要求1所述的一种基于u-net的高性能单通道语音增强算法的整个网络,其特征在于:损失函数采用cmse,计算公式为:


技术总结
本发明提供一种基于U‑Net的高性能单通道语音增强算法,包括如下步骤:1)使用相位编码器将复值得频谱转换到实数域;2)使用输入卷积层提取特征并改变通道数;3)使用编码器、颈部模块和解码器搭建的主网络对语音进行增强和降噪处理;4)使用输出卷积层得到掩模,生成增强后的估计语音频谱。本发明基于流行的U‑Net网络结构,以编码器‑解码器的框架,应用频谱掩模的方法,实现了一种针对复杂噪声、混响环境的高性能单通道语音增强算法。

技术研发人员:吴德钦,冉启海,王明江
受保护的技术使用者:宇思半导体技术(深圳)有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1