音频降噪模型的训练方法、音频降噪方法及装置与流程

文档序号：29465098发布日期：2022-04-02 03:06阅读：来源：国知局

技术特征：
1.一种音频降噪模型的训练方法，包括：采用音频生成算法对原始含噪音频进行采样，得到具有相似特征的第一含噪音频和第二含噪音频；确定所述原始含噪音频的原始含噪频谱特征和所述第一含噪音频的第一含噪频谱特征；采用音频降噪模型分别对所述原始含噪频谱特征和所述第一含噪频谱特征进行降噪处理，得到原始降噪音频和第一降噪音频；利用所述原始降噪音频、所述第一降噪音频和所述第二含噪音频构建损失函数；根据所述损失函数对所述音频降噪模型的参数进行调整。2.根据权利要求1所述的方法，其中，所述采用音频生成算法对原始含噪音频进行采样，得到具有相似特征的第一含噪音频和第二含噪音频，包括：将所述原始含噪音频进行分帧，得到多个帧；将所述多个帧进行分组处理，得到多个块；每个块包括k个所述帧，所述k为正偶数；对各个块进行采样，得到每个块对应的两个音频片段，其中一个音频片段由该块中的序列号为奇数的帧依次连接而成，另一个音频片段由该块中的序列号为偶数的帧依次连接而成；分别提取各个块对应的一个音频片段，将提取的音频片段依次连接，得到所述第一含噪音频，并将提取之后各个块剩余的另一个音频片段依次连接，得到所述第二含噪音频。3.根据权利要求1所述的方法，其中，所述采用音频降噪模型分别对所述原始含噪频谱特征和所述第一含噪频谱特征进行降噪处理，得到原始降噪音频和第一降噪音频，包括：将所述原始含噪频谱特征和所述第一含噪频谱特征分别输入所述音频降噪模型，得到原始降噪频谱特征和第一降噪频谱特征；分别对所述原始降噪频谱特征和所述第一降噪频谱特征进行频域到时域的转换，得到所述原始降噪音频和所述第一降噪音频。4.根据权利要求3所述的方法，其中，所述利用所述原始降噪音频、所述第一降噪音频和所述第二含噪音频构建损失函数，包括：利用所述第一降噪音频、所述第一降噪频谱特征、所述第二含噪音频和所述第二含噪音频的第二含噪频谱特征，构建所述损失函数的第一部分；采用所述音频生成算法对所述原始降噪音频进行采样，得到具有相似特征的第一音频和第二音频；利用所述第一音频、所述第二音频、所述第二含噪音频和所述第一降噪音频，构建所述损失函数的第二部分；将所述第一部分和所述第二部分组成所述损失函数。5.根据权利要求4所述的方法，其中，所述采用所述音频生成算法对所述原始降噪音频进行采样，得到具有相似特征的第一音频和第二音频，包括：将所述原始降噪音频进行分帧，得到多个帧；将所述多个帧进行分组处理，得到多个块；每个块包括l个所述帧，所述l为正整数；对各个块进行采样，得到每个块对应的两个音频片段，其中一个音频片段由该块中的序列号为奇数的帧依次连接而成，另一个音频片段由该块中的序列号为偶数的帧依次连接
而成；分别提取各个块对应的一个音频片段，将提取的音频片段依次连接，得到所述第一音频，并将提取之后各个块剩余的另一个音频片段依次连接，得到所述第二音频。6.根据权利要求3至5中任一所述的方法，其中，所述音频降噪模型的参数矩阵包括实部分量和虚部分量；所述原始含噪频谱特征表征为包括实部分量和虚部分量的原始含噪特征矩阵；所述第一含噪频谱特征表征为包括实部分量和虚部分量的第一含噪特征矩阵。7.根据权利要求3至6中任一所述的方法，其中，所述将所述原始含噪频谱特征和所述第一含噪频谱特征分别输入所述音频降噪模型，得到原始降噪频谱特征和第一降噪频谱特征，包括：采用所述音频降噪模型的参数矩阵分别对所述原始含噪特征矩阵和所述第一含噪特征矩阵进行卷积处理，得到所述原始降噪频谱特征和所述第一降噪频谱特征。8.根据权利要求4所述的方法，其中，所述利用所述第一降噪音频、所述第一降噪频谱特征、所述第二含噪音频和所述第二含噪音频的第二含噪频谱特征，构建所述损失函数的第一部分，包括：利用所述第一降噪频谱特征和所述第二含噪频谱特征，确定所述第一部分的频域部分，并且，利用所述第一降噪音频和所述第二含噪音频，确定所述第一部分的时域部分；确定所述频域部分和所述时域部分的加权和，得到所述损失函数的第一部分。9.根据权利要求8所述的方法，其中，所述第一降噪频谱特征表征为包括实部分量和虚部分量的第一降噪特征矩阵；所述第二含噪频谱特征表征为包括实部分量和虚部分量的第二含噪特征矩阵。10.根据权利要求9所述的方法，其中，所述利用所述第一降噪频谱特征和所述第二含噪频谱特征，确定所述第一部分的频域部分，包括：利用所述第一降噪特征矩阵的实部分量与所述第二含噪特征矩阵的实部分量的差值、以及所述第一降噪特征矩阵的虚部分量与所述第二含噪特征矩阵的虚部分量的差值，确定所述第一部分的频域部分。11.根据权利要求8至10中任一所述的方法，其中，所述利用所述第一降噪音频和所述第二含噪音频，确定所述第一部分的时域部分，包括：利用所述第一降噪音频和所述第二含噪音频在各个对应时刻上的差值，确定所述第一部分的时域部分。12.根据权利要求4至11中任一所述的方法，其中，所述利用所述第一音频、所述第二音频、所述第二含噪音频和所述第一降噪音频，构建所述损失函数的第二部分，包括：确定所述第一降噪音频与所述第二含噪音频的第一差值，并确定所述第一音频与所述第二音频的第二差值；确定所述第一差值与所述第二差值的差；确定所述第一差值与所述第二差值的差的l2范数；根据所述l2范数确定所述损失函数的第二部分。13.根据权利要求1至12中任一所述的方法，其中，所述音频降噪模型包括编码单元、转换单元和解码单元；其中，
所述编码单元包括n1个由二维卷积层、归一化层和线性整流单元relu构成的结构，所述n1为正整数；所述转换单元包括两阶段融合的转换模型；所述解码单元包括n2个由二维卷积层、归一化层和relu构成的结构，所述n2为正整数。14.根据权利要求13所述的方法，其中，所述两阶段融合的转换模型中的每个转换模型包括多头注意力层、第一归一化层、前馈网络和第二归一化层；所述前馈网络包括门控循环单元gru、relu和线性层。15.根据权利要求13或14所述的方法，其中，所述n1与所述n2相等，和/或，所述编码单元和所述解码单元之间存在跳跃连接。16.一种音频降噪方法，包括：将待处理音频输入预先训练的音频降噪模型；获取所述音频降噪模型输出的结果音频；其中，所述预先训练的音频降噪模型采用权利要求1至15中任一所述的方法训练得到。17.一种音频降噪模型的训练装置，包括：采样模块，用于采用音频生成算法对原始含噪音频进行采样，得到具有相似特征的第一含噪音频和第二含噪音频；确定模块，用于确定所述原始含噪音频的原始含噪频谱特征和所述第一含噪音频的第一含噪频谱特征；处理模块，用于采用音频降噪模型分别对所述原始含噪频谱特征和所述第一含噪频谱特征进行降噪处理，得到原始降噪音频和第一降噪音频；构建模块，用于利用所述原始降噪音频、所述第一降噪音频和所述第二含噪音频构建损失函数；调整模块，用于根据所述损失函数对所述音频降噪模型的参数进行调整。18.根据权利要求17所述的装置，其中，所述采样模块包括：分帧子模块，用于将所述原始含噪音频进行分帧，得到多个帧；分组子模块，用于将所述多个帧进行分组处理，得到多个块；每个块包括k个所述帧，所述k为正偶数；采样连接子模块，用于对各个块进行采样，得到每个块对应的两个音频片段，其中一个音频片段由该块中的序列号为奇数的帧依次连接而成，另一个音频片段由该块中的序列号为偶数的帧依次连接而成；提取连接子模块，用于分别提取各个块对应的一个音频片段，将提取的音频片段依次连接，得到所述第一含噪音频，并将提取之后各个块剩余的另一个音频片段依次连接，得到所述第二含噪音频。19.根据权利要求17所述的装置，其中，所述处理模块包括：输入子模块，用于将所述原始含噪频谱特征和所述第一含噪频谱特征分别输入所述音频降噪模型，得到原始降噪频谱特征和第一降噪频谱特征；转换子模块，用于分别对所述原始降噪频谱特征和所述第一降噪频谱特征进行频域到时域的转换，得到所述原始降噪音频和所述第一降噪音频。20.根据权利要求19所述的装置，其中，所述构建模块用于：
利用所述第一降噪音频、所述第一降噪频谱特征、所述第二含噪音频和所述第二含噪音频的第二含噪频谱特征，构建所述损失函数的第一部分；采用所述音频生成算法对所述原始降噪音频进行采样，得到具有相似特征的第一音频和第二音频；利用所述第一音频、所述第二音频、所述第二含噪音频和所述第一降噪音频，构建所述损失函数的第二部分；将所述第一部分和所述第二部分组成所述损失函数。21.根据权利要求20所述的装置，其中，所述构建模块用于：将所述原始降噪音频进行分帧，得到多个帧；将所述多个帧进行分组处理，得到多个块；每个所述块包括l个所述帧，所述l为正偶数；对各个所述块进行采样，得到每个所述块对应的两个音频片段；其中一个音频片段由所述块中的序列号为奇数的帧依次连接而成，另一个音频片段由所述块中的序列号为偶数的帧依次连接而成；分别提取各个块对应的一个音频片段，将提取的音频片段依次连接，得到所述第一音频；并将提取之后各个块剩余的另一个音频片段依次连接，得到所述第二音频。22.一种音频降噪装置，包括：输入模块，用于将待处理音频输入预先训练的音频降噪模型；获取模块，用于所述音频降噪模型输出的结果音频；其中，所述预先训练的音频降噪模型采用权利要求17至21中任一所述的装置训练得到。23.一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至16中任一项所述的方法。24.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1至16中任一项所述的方法。25.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1至16中任一项所述的方法。

技术总结
本公开提出一种音频降噪模型的训练方法、音频降噪方法及装置，涉及人工智能技术领域，尤其涉及深度学习和音频技术领域。其中，音频降噪模型的训练方法包括：采用音频生成算法对原始含噪音频进行采样，得到具有相似特征的第一含噪音频和第二含噪音频；确定所述原始含噪音频的原始含噪频谱特征和所述第一含噪音频的第一含噪频谱特征；采用音频降噪模型分别对所述原始含噪频谱特征和所述第一含噪频谱特征进行降噪处理，得到原始降噪音频和第一降噪音频；利用所述原始降噪音频、所述第一降噪音频和所述第二含噪音频构建损失函数；根据所述损失函数对所述音频降噪模型的参数进行调整。采用本公开能够降低对音频降噪模型的训练难度。度。度。

技术研发人员：赵情恩
受保护的技术使用者：北京百度网讯科技有限公司
技术研发日：2021.12.22
技术公布日：2022/4/1

完整全部详细技术资料下载

当前第2页1 2