所属的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以从网络上被下载和安装,和/或基于可拆卸介质被安装。在该计算机程序被中央处理单元(cpu)执行时,执行本技术的方法和装置中限定的各种功能。本公开的示例性实施方式还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本公开的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤,例如可以执行图3中的任意一个或多个步骤。本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或上述的任意合适的组合。此外,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如java、c++等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本技术旨在涵盖本公开的任何变型、用途或适应性变化,这些变型、用途或适应性变化遵循本公开的一般性原理并包括本公开未公开的本中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。
背景技术:
1、音频数据中的多声源音频数据是多个声源音频在一个音频文件中加性融合,不同声源数据互相干扰。通过声源分离技术可以将多声源混合音频划分为几段独立的音频,每段音频对应一个声源,便于后续的处理和应用。如可以将会议室录入的多人的对话语音进行分离,得到每个人单独的音频。
2、相关技术中主要有传统数学方法和深度学习两种进行多声源分离的方法,随着深度学习技术的不断发展,基于深度学习的方法的多声源分离性能已经远超过传统数学方法。
3、但是,相关技术中的基于深度学习的多声源分离方法感受野不足,导致多声源分离的准确性降低。
4、需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
1、本公开的目的在于提供一种语音处理方法、语音处理装置、计算机可读介质和电子设备,进而至少在一定程度上提高多声源语音分离的准确性。
2、根据本公开的第一方面,提供一种语音处理方法,包括:通过目标编码器对待分离混合语音进行编码,以得到所述待分离混合语音的编码特征;将所述编码特征输入到目标主干网络中,基于所述目标主干网络对所述编码特征进行多尺度特征提取,以得到所述待分离混合语音的分离位置掩码估计值,其中,所述目标主干网络包括至少一个多尺度特征提取模块,每个所述多尺度特征提取模块包括多尺度卷积子模块,所述多尺度卷积子模块包括m-1个级联的膨胀率不同的膨胀深度可分卷积单元,m为大于1的整数;将所述编码特征和所述分离位置掩码估计值输入到目标解码器中,以得到所述待分离混合语音的语音分离结果。
3、在一种示例性的实施方式中,基于前述实施方式,所述目标编码器包括卷积模块和第一激活函数,所述通过目标编码器对待分离混合语音进行编码,以得到所述待分离混合语音的编码特征包括:通过所述目标编码器的卷积模块,对所述待分离混合语音进行特征提取,以得到候选特征矩阵;通过所述第一激活函数对所述候选特征矩阵进行非线性映射,以过滤掉所述候选特征矩阵中的非负参数,得到所述编码特征。
4、在一种示例性的实施方式中,基于前述实施方式,所述目标主干网络包括的每个多尺度特征提取模块之间密集连接。
5、在一种示例性的实施方式中,基于前述实施方式,每个所述多尺度特征提取模块还包括输入门,所述输入门用于对所述多尺度特征提取模块的输入特征进行通道数量调整,以使得调整后的输入特征通道数量和所述多尺度特征提取模块中的多尺度卷积子模块的输入通道数量相同。
6、在一种示例性的实施方式中,基于前述实施方式,所述目标主干网络中的每个所述多尺度特征提取模块通过以下方式对所述编码特征进行特征提取:所述多尺度特征提取模块中的所述多尺度卷积子模块根据所述多尺度特征提取模块的输入门的输出特征通道数量,对所述输入门的输出特征在通道维度进行划分,以得到m组分组特征;将所述m组分组特征中的前m-1个分组特征分别对应的输入到m-1个级联的膨胀率不同的膨胀深度可分卷积单元中,以对应的得到每个膨胀深度可分卷积单元的输出特征;合并m-1个膨胀深度可分卷积单元的输出特征和第m组分组特征,以得到所述多尺度卷积子模块的输出特征;根据所述多尺度卷积子模块的输出特征,得到所述多尺度特征提取模块的输出特征。
7、在一种示例性的实施方式中,基于前述实施方式,所述将所述m组分组特征中的前m-1个分组特征分别对应的输入到m-1个级联的膨胀率不同的膨胀深度可分卷积单元中,以对应的得到每个膨胀深度可分卷积单元的输出特征,包括:针对所述m-1个级联的膨胀深度可分卷积单元中的第i个膨胀深度可分卷积单元,基于第i个膨胀深度可分卷积单元的输出通道数量,对所述第i个膨胀深度可分卷积单元的输出进行切分,以得到第一输出特征和第二输出特征;将所述第一输出特征传递至第i+1个膨胀深度可分卷积单元,以基于所述第i个膨胀深度可分卷积单元的第一输出特征和所述m组分组特征中的第i+1个分组特征,确定出所述第i+1个膨胀深度可分卷积单元的输入特征;将所述第二输出特征确定为所述第i个膨胀深度可分卷积单元的输出特征。
8、在一种示例性的实施方式中,基于前述实施方式,每个所述多尺度特征提取模块还包括输出门,所述输出门包括第一一维卷积单元和第二一维卷积单元,所述根据所述多尺度卷积子模块的输出特征,得到所述多尺度特征提取模块的输出特征,包括:通过所述第一一维卷积单元对所述多尺度卷积子模块的输出特征进行非线性映射,以得到第一候选特征;通过所述第二一维卷积单元对从所述多尺度卷积子模块的输出特征中选择出有效特征,以得到第二候选特征;根据所述第一候选特征和所述第二候选特征的哈达玛积,得到所述多尺度特征提取模块的输出特征。
9、在一种示例性的实施方式中,基于前述实施方式,所述每个多尺度卷积子模块包括的m-1个膨胀深度可分卷积单元的膨胀率范围不同。
10、在一种示例性的实施方式中,基于前述实施方式,所述解码器包括转置卷积模块和第二激活函数。
11、根据本公开的第二方面,提供一种语音处理装置,包括:编码模块,被配置为通过目标编码器对待分离混合语音进行编码,以得到所述待分离混合语音的编码特征;多尺度特征提取模块,被配置为将所述编码特征输入到目标主干网络中,基于所述目标主干网络对所述编码特征进行多尺度特征提取,以得到所述待分离混合语音的分离位置掩码估计值,其中,所述目标主干网络包括至少一个多尺度特征提取模块,每个所述多尺度特征提取模块包括多尺度卷积子模块,所述多尺度卷积子模块包括m-1个级联的膨胀率不同的膨胀深度可分卷积单元,m为大于1的整数;解码模块,被配置为将所述编码特征和所述分离位置掩码估计值输入到目标解码器中,以得到所述待分离混合语音的语音分离结果。
12、根据本公开的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述的第一方面所述的语音处理方法。
13、根据本公开的第四方面,提供一种电子设备,其特征在于,包括:一个或多个处理器;以及存储器,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现上述的第一方面所述的语音处理方法。
14、根据本公开的第五方面,提供一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如第一方面所述的语音处理方法的步骤。
15、本公开的技术方案具有以下有益效果:
16、在本公开中,通过目标主干网络对待分离混合语音进行语音特征提取,而目标主干网络中包括多个级联的膨胀率不同的膨胀深度可分卷积单元,因此可以提取到多尺度的语音特征,即既有语音的全局特征,也有语音的细节特征,从而可以提高语音特征的提取性能,进而提高待混合语音的分离准确性。
17、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。