声音处理方法、装置及设备与流程

文档序号：16123184发布日期：2018-11-30 23:26阅读：217来源：国知局

本发明实施例涉及声音技术领域，尤其涉及一种声音处理方法、装置及设备。

背景技术

随着声音技术的不断发展，在多种应用场景中，需要在抑制声音(包括语音信号和噪声信号)中抑制噪声信号，即，对声音进行降噪处理。

在现有技术中，在对声音进行降噪处理时，分别对一段声音中的每个音频帧进行处理。针对每一个音频帧，先获取该音频帧的特征向量，并通过预设模型对特征向量进行处理，以实现抑制该音频帧中的噪声信号。然而，在实际应用过程中，由于环境中存在各种类型的噪声，使得音频帧中也可能包括多种类型的噪声，而通过音频帧的特征向量无法表示所有噪声的特征，使得根据预设模型对特征向量进行处理时，根据音频帧的特征向量无法准确的抑制音频帧中的噪声。例如，对噪声的抑制能力低，或者，在抑制噪声的同时对语音也进行了抑制，或者，在抑制噪声的同时对语音造成了损伤。由上可知，在现有技术中，对噪声的抑制效果较差。

技术实现要素：

本发明实施例提供一种声音处理方法、装置及设备，提高了对噪声的抑制效果。

第一方面，本发明实施例提供一种声音处理方法，包括：

获取音频帧的至少两个特征向量，所述音频帧中包括语音信号和噪声信号，所述至少两个特征向量的声学特征类型不同；

对所述至少两个特征向量进行融合处理，得到融合特征向量；

根据所述融合特征向量，获取所述音频帧的标签值，所述标签值用于指示所述音频帧中语音信号与噪声信号的功率比；

根据所述音频帧的标签值和所述音频帧中噪声信号的功率，确定所述音频帧的处理结果。

在一种可能的实施方式中，所述至少两个特征向量包括第一特征向量和第二特征向量；所述对所述至少两个特征向量进行融合处理，得到融合特征向量，包括：

将第二特征向量中的元素插入至所述第一特征向量，得到所述融合特征向量，其中，所述融合语音特征向量中元素的个数为所述第一特征向量中元素的个数与第二特征向量中元素的个数之和。

在另一种可能的实施方式中，将第二特征向量中的元素插入至所述第一特征向量，包括：

在第一特征向量的尾部依次插入所述第二特征向量中的元素。

在另一种可能的实施方式中，所述将第二特征向量中的元素插入至所述第一特征向量之前，还包括：

对所述第一特征向量中的元素进行归一化处理；

对所述第二特征向量中的元素进行归一化处理。

在另一种可能的实施方式中，所述根据所述融合特征向量，获取所述音频帧的标签值，包括：

根据预设模型，对所述融合语音特征向量进行处理，得到所述音频帧的标签值；

其中，所述预设模型为通过深度神经网络对多组样本进行学习得到的，每组样本包括融合特征向量样本和对应的标签值样本，所述融合特征向量样本为对至少两种声学特征类型的特征向量样本融合处理得到的。

在另一种可能的实施方式中，所述音频标签值为根据所述音频帧中语音信号在各频率点的功率、和噪声信号在各频率点的功率确定的。

在另一种可能的实施方式中，所述根据所述音频帧的标签值和所述音频帧中噪声信号的功率，对所述音频帧进行处理得到所述音频帧的处理结果，包括：

将所述音频帧的标签值和所述音频帧中信号噪声的功率的乘积确定为所述音频帧的处理结果。

在另一种可能的实施方式中，所述至少两个特征向量的声学特征类型包括如下声学特征类型中的至少两种：

梅尔频率倒谱系数mfcc类型、滤波器组fbank类型和线性预测分析plp类型。

第二方面，本发明实施例提供一种声音处理装置，包括第一获取模块、融合模块、第二获取模块和确定模块，其中，

所述第一获取模块用于，获取音频帧的至少两个特征向量，所述音频帧中包括语音信号和噪声信号，所述至少两个特征向量的声学特征类型不同；

所述融合模块用于，对所述至少两个特征向量进行融合处理，得到融合特征向量；

所述第二获取模块用于，根据所述融合特征向量，获取所述音频帧的标签值，所述标签值用于指示所述音频帧中语音信号与噪声信号的功率比；

所述确定模块用于，根据所述音频帧的标签值和所述音频帧中噪声信号的功率，确定所述音频帧的处理结果。

在一种可能的实施方式中，所述至少两个特征向量包括第一特征向量和第二特征向量；所述融合模块具体用于：

在另一种可能的实施方式中，所述融合模块具体用于：

在第一特征向量的尾部依次插入所述第二特征向量中的元素。

在另一种可能的实施方式中，所述装置还包括归一化处理模块，其中，

所述归一化处理模块用于，在所述融合模块将第二特征向量中的元素插入至所述第一特征向量之前，对所述第一特征向量中的元素进行归一化处理；对所述第二特征向量中的元素进行归一化处理。

在另一种可能的实施方式中，所述第二获取模块具体用于：

根据预设模型，对所述融合语音特征向量进行处理，得到所述音频帧的标签值；

在另一种可能的实施方式中，所述音频标签值为根据所述音频帧中语音信号在各频率点的功率、和噪声信号在各频率点的功率确定的。

在另一种可能的实施方式中，所述确定模块具体用于：

将所述音频帧的标签值和所述音频帧中信号噪声的功率的乘积确定为所述音频帧的处理结果。

在另一种可能的实施方式中，所述至少两个特征向量的声学特征类型包括如下声学特征类型中的至少两种：

梅尔频率倒谱系数mfcc类型、滤波器组fbank类型和线性预测分析plp类型。

第三方面，本发明实施例提供一种终端设备，包括：处理器，所述处理器与存储器耦合；

所述存储器用于，存储计算机程序；

所述处理器用于，执行所述存储器中存储的计算机程序，以使得所述终端设备执行上述第一方面任一项所述的方法。

第四方面，本发明实施例提供一种可读存储介质，包括程序或指令，当所述程序或指令在计算机上运行时，如上述第一方面任意一项所述的方法被执行。

本发明实施例提供的声音处理方法、装置及设备，获取音频帧的至少两个特征向量，音频帧中包括语音信号和噪声信号，至少两个特征向量的声学特征类型不同；对至少两个特征向量进行融合处理，得到融合特征向量；根据融合特征向量，获取音频帧的标签值，标签值用于指示音频帧中语音信号与噪声信号的功率比；根据音频帧的标签值和音频帧中噪声信号的功率，对音频帧进行处理得到音频帧的处理结果。在上述过程中，每种声学特征类型的特征向量均可以对音频帧中的噪声信号进行刻画，只是每种声学特征类型的特征向量从不同的角度对噪声信号的刻画，使得每种声学特征类型的特征向量对噪声信号的刻画均有利有弊。通过将多种声学特征类型的特征向量进行融合，使得融合后的融合特征向量可以更加全面的刻画音频帧中的噪声信号，这样，预设模型根据融合特征向量可以对音频帧中的噪声进行更加全面的抑制，进而提高对噪声的抑制效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的声音处理方法的架构图；

图2为本发明实施例提供的声音处理方法的流程示意图；

图3为本发明实施例提供的处理流程示意图一；

图4为本发明实施例提供的处理流程示意图二；

图5为本发明实施例提供的处理流程示意图三；

图6为本发明实施例提供的处理流程示意图四；

图7为本发明实施例提供的处理流程示意图四；

图8为本发明实施例提供的声音处理装置的结构示意图一；

图9为本发明实施例提供的声音处理装置的结构示意图二。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的声音处理方法的架构图。请参见图1，在对声音处理的过程中，以音频帧为单位进行处理。在对一个音频帧处理时，先对该音频帧进行特征提取，以提取得到至少两个特征向量，每个特征向量的声学特征类型不同，其中，每一个特征向量均可以表示该音频帧的特征，只是每个特征向量可能从不同的角度对语音帧的特征进行描述。对至少两个特征向量进行特征融合，得到融合特征向量，融合特征向量的维数(融合特征向量中包括的元素个数)是至少两个特征向量的维数之和，将融合特征向量输入至预先训练好的预设模型，由预设模型根据融合特征向量对音频帧进行降噪处理。

在本申请中，每种声学特征类型的特征向量均可以对音频帧中的噪声信号进行刻画，只是每种声学特征类型的特征向量从不同的角度对噪声信号的刻画，使得每种声学特征类型的特征向量对噪声信号的刻画均有利有弊。通过将多种声学特征类型的特征向量进行融合，使得融合后的融合特征向量可以更加全面的刻画音频帧中的噪声信号，这样，预设模型根据融合特征向量可以对音频帧中的噪声进行更加全面的抑制，进而提高对噪声的抑制效果。

下面，通过具体实施例对本申请所示的技术方案进行详细说明。需要说明的是，下面几个具体实施例可以相互结合，对于相同或相似的内容，在不同的实施例中不再进行重复说明。

图2为本发明实施例提供的声音处理方法的流程示意图。请参见图2，该方法可以包括：

s201、获取音频帧的至少两个特征向量，音频帧中包括语音信号和噪声信号，至少两个特征向量的声学特征类型不同。

本发明实施例的执行主体可以为终端设备，也可以为设置在终端设备中的声音处理装置。可选的，声音处理装置可以通过软件实现，或者，声音处理装置也可以通过软件和硬件的结合实现。

可选的，终端设备可以为智能家居设备、手机等设备。

需要说明的是，在对声音处理的过程中，以音频帧为单位进行处理，对每个音频帧的处理过程相同，本发明实施例以对声音中的任意一个音频帧的处理过程为例进行说明。

可选的，音频帧是指一段时长的音频。

例如，音频帧的帧长可以为32ms，帧移可以为10ms，在16khz采样频率下每个音频帧的长度可以为512个采样点。

当然，在实际应用过程中，可以根据实际需要设置音频帧的帧长、帧移等属性信息，本发明实施例对此不作具体限定。

可选的，至少两个特征向量的声学特征类型包括如下声学特征类型中的至少两种：梅尔频率倒谱系数(melfrequencycepstrumcoefficient，简称mfcc)、滤波器组(filterbank，简称fbank)类型和线性预测分析(linearpredictivecoding，简称plp)类型。

需要说明的是，声学特征类型还可以包括其它，例如，离散傅氏变换的快速算法(fastfouriertransformation，简称fft)幅值谱类型，在实际应用过程中，可以根据实际需要设置声学特征类型，本发明实施例对此不作具体限定。

可选的，可以获取音频帧的两个不同声学特征类型的特征向量，例如，可以获取音频帧的mfcc类型的特征向量和fbank类型的特征向量，或者，可以获取音频帧的mfcc类型的特征向量和plp类型的特征向量，或者，可以获取音频帧的fbank类型的特征向量和plp类型的特征向量。

可选的，可以获取音频帧的三个不同声学特征类型的特征向量，例如可以获取音频帧的mfcc类型的特征向量、fbank类型的特征向量和plp类型的特征向量。

可选的，mfcc类型的特征向量的维度可以为13。

当然，在实际应用过程中，可以根据实际需要设置mfcc类型的特征向量的维度，本发明实施例对此不作具体限定。

可选的，fbank类型的特征向量的维度可以为40。

当然，在实际应用过程中，可以根据实际需要设置fbank类型的特征向量的维度，本发明实施例对此不作具体限定。

可选的，plp类型的特征向量的维度可以为40。

当然，在实际应用过程中，可以根据实际需要设置plp类型的特征向量的维度，本发明实施例对此不作具体限定。

s202、对至少两个特征向量进行融合处理，得到融合特征向量。

可选的，假设至少两个特征向量包括第一特征向量和第二特征向量，相应的，可以通过如下可行的实现方式对至少两个特征向量进行融合处理，得到融合特征向量：将第二特征向量中的元素插入至第一特征向量，得到融合特征向量，其中，融合语音特征向量中元素的个数为第一特征向量中元素的个数与第二特征向量中元素的个数之和。

可选的，可以在第一特征向量的尾部依次插入第二特征向量中的元素。

例如，假设至少两个特征向量的个数为三个，分别记为特征向量1、特征向量2和特征向量3，假设特征向量1为13维的mfcc类型的特征向量，特征向量2为40维的fbank类型的特征向量，特征向量3为10维的plp类型的特征向量。

假设特征向量1为(a1，a2，a3，……，a12，a13)。

假设特征向量2为(b1，b2，b3，……，b39，b40)。

假设特征向量3为(c1，c2，c3，……，c9，c10)。

则对特征向量1和特征向量2进行融合之后的融合特征向量为：

(a1，a2，……，a13，b1，b2，……，b40，c1，c2，……，c9，c10)

由上可知，由于特征向量1的维度为13，特征向量2的维度为40，特征向量3的维度为10，因此，融合特征向量的维度为13+40+10＝63。

需要说明的是，在实际应用过程中，可以预先设置融合规则，融合规则可以为：在进行特征融合时，第一声学特征类型的特征向量中的元素位于第二声学特征类型的特征向量中的元素之前。

可选的，融合规则可以为mfcc类型的特征向量中的元素位于fbank类型的特征向量中的元素之前，fbank类型的特征向量中的元素位于plp类型的特征向量中的元素之前。

例如，假设至少两个特征向量包括mfcc类型的特征向量1、fbank类型的特征向量2和plp类型的特征向量3，则在进行特征融合时，先将特征向量2中的元素插入至特征向量1的元素之后，再将特征向量3中的元素插入至特征向量2中的元素之后。

需要说明的是，上述只是以示例的形式示意预设的融合规则，并非对融合规则的限定，在实际应用过程中，可以根据实际需要设置融合规则，本发明实施例对此不作具体限定。

在实际应用过程中，不同声学特征类型的特征向量中元素的量化尺度不同。

例如，mfcc类型的特征向量中的元素的量化尺度可以为0-100，即，mfcc类型的特征向量中的元素的取值在0至100之间。

例如，fbank类型的特征向量中的元素的量化尺度可以为0-1，即，fbank类型的特征向量中的元素的取值在0至1之间。

在进行特征融合时，若两个特征向量中元素的量化尺度不同，在后续通过预设模型对融合特征向量进行处理时，为了可以对融合特征向量中的各元素进行统一的处理，则需要为融合特征向量中不同的元素设置不同的权重值。而预设模型需要通过训练才能学习到权重值的设置，而权重值的设置很难通过训练学习得到。

在本申请中，为了便于后续对融合特征向量进行处理，可以先对需要进行融合的特征向量中的元素进行归一化处理，然后对归一化处理后的特征向量进行融合处理。

可选的，归一化处理是指，根据特征向量中的元素的量化尺度与预设量化尺度之间的关系，对特征向量中的元素进行处理，以使特征向量中的元素的量化尺度为预设量化尺度。

可选的，预设量化尺度可以为0-1，或0-10，或0-100，当然，在实际应用过程中，可以根据实际需要设置预设量化尺度，本发明实施例对此不作具体下定。

例如，假设至少两个特征向量的个数为三个，分别记为特征向量1、特征向量2和特征向量3，假设特征向量1中元素的量化尺度为0-100，特征向量2中元素的量化尺度为0-10，特征向量3中的元素的量化尺度为0-1。再假设特征向量1-特征向量3分别如下所示：

特征向量1：(20，22，52，78，12，90)。

特征向量2：(2，4，3，7，2，1，6，8)。

特征向量3：(0.1，0.25，0.3，0.6，0.2，0.5)。

假设预设量化尺度为0-1，则需要对特征向量1和特征向量2进行归一化处理，归一化处理后的特征向量1和特征向量2如下所示：

特征向量1：(0.2，0.22，0.52，0.78，0.12，0.9)。

特征向量2：(0.2，0.4，0.3，0.7，0.2，0.1，0.6，0.8)。

对归一化处理后的特征向量进行特征融合之后的融合特征向量为：

(0.2，0.22，0.52，0.78，0.12，0.9，0.2，0.4，0.3，0.7，0.2，0.1，0.6，0.8，0.1，0.25，0.3，0.6，0.2，0.5)。

s203、根据融合特征向量，获取音频帧的标签值，标签值用于指示音频帧中语音信号与噪声信号的功率比。

可选的，音频标签值为根据音频帧中语音信号在各频率点的功率、和噪声信号在各频率点的功率确定的。

可选的，音频帧的标签值为：

其中，f为音频帧的频域点的标号，为音频帧中频点f处的语音信号的功率，为音频帧中频点f处的噪声信号的功率。

可选的，可以根据预设模型，对融合语音特征向量进行处理，得到音频帧的标签值。

其中，预设模型为通过深度神经网络对多组样本进行学习得到的，每组样本包括融合特征向量样本和对应的标签值样本，融合特征向量样本为对至少两种声学特征类型的特征向量样本融合处理得到的。

可选的，可以通过如下可行的实现方式学习得到预设模型：先获取多个样本语音帧，提取每个样本语音帧的至少两种声学特征类型的特征向量样本，对至少两种声学特征类型的特征向量样本进行融合处理，得到融合特征向量样本，通过预设算法获取每个融合特征向量样本对应的标签值样本。通过深度神经网络对多个融合特征向量和每一个融合特征向量对应的标签值样本进行学习，得到预设模型。

需要说明的是，若预设模型还可以对至少两个特征向量进行融合处理，则在训练预设模型时，每组样本包括一个语音帧的至少两个特征向量样本、及对应的标签值样本，该至少两个特征向量样本的声学特征类型不同。并通过深度神经网络对每组样本进行学习，得到预设模型。

s204、根据音频帧的标签值和音频帧中噪声信号的功率，确定音频帧的处理结果。

将音频帧的标签值和音频帧中信号噪声的功率的乘积确定为处理结果。

本发明实施例提供的声音处理方法，获取音频帧的至少两个特征向量，音频帧中包括语音信号和噪声信号，至少两个特征向量的声学特征类型不同；对至少两个特征向量进行融合处理，得到融合特征向量；根据融合特征向量，获取音频帧的标签值，标签值用于指示音频帧中语音信号与噪声信号的功率比；根据音频帧的标签值和音频帧中噪声信号的功率，对音频帧进行处理得到音频帧的处理结果。在上述过程中，每种声学特征类型的特征向量均可以对音频帧中的噪声信号进行刻画，只是每种声学特征类型的特征向量从不同的角度对噪声信号的刻画，使得每种声学特征类型的特征向量对噪声信号的刻画均有利有弊。通过将多种声学特征类型的特征向量进行融合，使得融合后的融合特征向量可以更加全面的刻画音频帧中的噪声信号，这样，预设模型根据融合特征向量可以对音频帧中的噪声进行更加全面的抑制，进而提高对噪声的抑制效果。

在图2所示实施例的基础上，可选的，当预设模型不同时，对音频帧的处理过程也不同，下面，结合图3-图7所示的处理流程，通过具体示例对音频帧的处理过程进行说明。

图3为本发明实施例提供的处理流程示意图一。请参见图3，预设模型包括卷积层、神经网络和输出层。

假设对音频帧提取得到第一特征向量、第二特征向量和第三特征向量。可选的，第一特征向量为mfcc类型的特征向量，第二特征向量为fbank类型的特征向量，第三特征向量为plp类型的特征向量。对第一特征向量、第二特征向量和第三特征向量进行特征融合，得到融合特征向量。

向预设模型输入融合特征向量，预设模型通过卷积层、神经网络层和输出层对融合特征向量进行处理得到音频帧的标签值，并输出音频帧的标签值。