一种语音增强方法、装置、设备及存储介质与流程

文档序号：27620117发布日期：2021-11-29 14:08阅读：来源：国知局

技术特征：
1.一种语音增强方法，其特征在于，包括：将带噪语音输入预先训练的复合式对抗增强网络模型，得到所述复合式对抗增强网络模型输出的语音增强结果，所述语音增强结果中至少包括增强语音；其中，所述复合式对抗增强网络模型对带噪语音进行语音增强处理得到的增强语音的声纹特征，接近于与带噪语音对应的干净语音的声纹特征。2.根据权利要求1所述的方法，其特征在于，所述语音增强结果中还包括音频增益，所述音频增益基于对带噪语音进行语音增强处理得到的增强语音与带噪语音在各采样点的幅度比值而确定；所述复合式对抗增强网络模型对带噪语音进行语音增强处理得到的音频增益，接近于带噪语音对应的干净语音相对于该带噪语音的音频增益；所述方法还包括：根据所述语音增强结果，获取与输入的所述带噪语音对应的增强语音。3.根据权利要求2所述的方法，其特征在于，所述根据所述语音增强结果，获取与输入的所述带噪语音对应的增强语音，包括：根据所述语音增强结果中的增强语音以及音频增益，计算得到与输入的所述带噪语音对应的增强语音。4.根据权利要求2所述的方法，其特征在于，所述复合式对抗增强网络模型，包括至少两个深度对抗增强模块，各个深度对抗增强模块依次串联连接，每个深度对抗增强模块分别用于进行语音增强处理，并且输出语音增强处理得到的增强语音。5.根据权利要求4所述的方法，其特征在于，所述复合式对抗增强网络包括依次串联的第一深度对抗增强模块、第二深度对抗增强模块和第三深度对抗增强模块；其中，输入所述复合式对抗增强网络模型的带噪语音输入所述第一深度对抗增强模块，所述第三深度对抗增强模块的输出作为所述复合式对抗增强网络模型输出的语音增强结果；并且，所述第一深度对抗增强模块的输出语音的信噪比和输入语音的信噪比之间的差值，与所述第二深度对抗增强模块的输出语音的信噪比和输入语音的信噪比之间的差值相同。6.根据权利要求5所述的方法，其特征在于，所述第一深度对抗增强模块、所述第二深度对抗增强模块和所述第三深度对抗增强模块分别包括设定数量的多尺度残差单元。7.根据权利要求4所述的方法，其特征在于，所述根据所述语音增强结果，获取与输入的所述带噪语音对应的增强语音，包括：对各个深度对抗增强模块输出的增强语音进行加权求和，得到第一增强结果；根据所述带噪语音以及所述音频增益，计算得到第二增强结果；根据所述第一增强结果和所述第二增强结果，计算得到与输入的所述带噪语音对应的增强语音。8.根据权利要求2所述的方法，其特征在于，所述复合式对抗增强网络模型的训练过程，包括：获取带噪语音样本、该带噪语音样本对应的干净语音，以及基于该带噪语音样本和对应的干净语音确定的目标音频增益；将所述带噪语音样本输入所述复合式对抗增强网络模型，得到所述复合式对抗增强网
络模型输出的增强语音以及音频增益；获取所述复合式对抗增强网络模型输出的增强语音的声纹特征，以及获取与该带噪语音样本对应的干净语音的声纹特征；根据所述复合式对抗增强网络模型输出的增强语音以及该带噪语音样本对应的干净语音确定音频映射损失、根据所述复合式对抗增强网络模型输出的音频增益以及所述目标音频增益确定音频增益损失，以及，根据所述复合式对抗增强网络模型输出的增强语音的声纹特征以及与该带噪语音样本对应的干净语音的声纹特征确定声纹特征损失；至少根据所述音频映射损失、所述音频增益损失以及所述声纹特征损失，对所述复合式对抗增强网络模型进行参数校正。9.根据权利要求8所述的方法，其特征在于，所述方法还包括：通过将所述复合式对抗增强网络模型输出的增强语音与该带噪语音样本对应的干净语音进行对比，确定语音差异损失；所述至少根据所述音频映射损失、所述音频增益损失以及所述声纹特征损失，对所述复合式对抗增强网络模型进行参数校正，包括：根据所述音频映射损失、所述音频增益损失、所述声纹特征损失以及所述语音差异损失，对所述复合式对抗增强网络模型进行参数校正。10.根据权利要求8所述的方法，其特征在于，所述获取所述复合式对抗增强网络模型输出的增强语音的声纹特征，以及获取与该带噪语音样本对应的干净语音的声纹特征，包括：分别将所述复合式对抗增强网络模型输出的增强语音，以及与该带噪语音样本对应的干净语音输入预先训练的声纹特征提取网络，得到所述复合式对抗增强网络模型输出的增强语音的声纹特征，以及与该带噪语音样本对应的干净语音的声纹特征；其中，所述声纹特征提取网络通过从输入语音中提取说话人声纹特征并进行说话人识别训练得到。11.根据权利要求9所述的方法，其特征在于，所述通过将所述复合式对抗增强网络模型输出的增强语音与该带噪语音样本对应的干净语音进行对比，确定语音差异损失，包括：利用预先训练的语音判别网络对所述复合式对抗增强网络模型输出的增强语音与该带噪语音样本对应的干净语音进行判别处理；根据所述语音判别网络输出的判别结果，确定语音差异损失；其中，所述语音判别网络具备对带噪语音以及与带噪语音对应的干净语音进行区分判别的能力。12.根据权利要求8所述的方法，其特征在于，所述复合式对抗增强网络包括依次串联的第一深度对抗增强模块、第二深度对抗增强模块和第三深度对抗增强模块；其中，输入所述复合式对抗增强网络模型的带噪语音输入所述第一深度对抗增强模块，所述第三深度对抗增强模块的输出作为所述复合式对抗增强网络模型输出的语音增强结果；所述对所述复合式对抗增强网络模型进行参数校正，包括：以所述第一深度对抗增强模块的输出语音的信噪比相对于其输入语音的信噪比提高第一预设值，以及，所述第二深度对抗增强模块的输出语音的信噪比相对于其输入语音的信噪比提高所述第一预设值为目标，对所述复合式对抗增强网络模型进行参数校正。
13.一种语音增强装置，其特征在于，包括：语音增强单元，用于将带噪语音输入预先训练的复合式对抗增强网络模型，得到所述复合式对抗增强网络模型输出的语音增强结果，所述语音增强结果中至少包括增强语音；其中，所述复合式对抗增强网络模型对带噪语音进行语音增强处理得到的增强语音的声纹特征，接近于与带噪语音对应的干净语音的声纹特征。14.一种语音增强设备，其特征在于，包括：存储器和处理器；所述存储器与所述处理器连接，用于存储程序；所述处理器，用于通过运行所述存储器中的程序，实现如权利要求1至12中任意一项所述的语音增强方法。15.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时，实现如权利要求1至12中任意一项所述的语音增强方法。

技术总结
本申请提出一种语音增强方法、装置、设备及存储介质，该方法包括：将带噪语音输入预先训练的复合式对抗增强网络模型，得到所述复合式对抗增强网络模型输出的语音增强结果，所述语音增强结果中至少包括增强语音；其中，所述复合式对抗增强网络模型对带噪语音进行语音增强处理得到的增强语音的声纹特征，接近于与带噪语音对应的干净语音的声纹特征。上述方法可以在对带噪语音进行语音增强的同时，降低语音增强造成的语音失真。音增强造成的语音失真。音增强造成的语音失真。

技术研发人员：周振昆方磊方四安柳林徐承
受保护的技术使用者：合肥讯飞数码科技有限公司
技术研发日：2021.09.03
技术公布日：2021/11/28

完整全部详细技术资料下载

当前第2页1 2