回声消除方法及装置、计算机可读的存储介质、电子装置与流程

文档序号：22800564发布日期：2020-11-04 03:58阅读：148来源：国知局

本发明涉及音频信号处理领域，具体而言，涉及一种回声消除方法及装置、计算机可读的存储介质、电子装置。

背景技术：

语音信号处理技术是目前人机交互领域的一项关键技术；在语音信号处理实现过程中，回声消除算法可以实现对设备麦克风接收的自身播放声音信号的消除，是整个声音信号处理和语音增强的关键技术，对后端的语音识别具有极其重要的作用。

图1是根据相关技术提供的回声消除方法的示意图，如图1所示，相关技术中的回声消除方法主要采用开源工具网页即时通信(webreal-timecommunication，webrtc)中的回声消除方法，即利用自适应滤波器完成对回声的估计，从而消除线性回声，并利用非线性处理完成对残余非线性回声的抑制。上述方法可以比较好的消除线性回声，但是在处理非线性回声时，由于非线性回声和时延估计误差会引入残余回声，虽然非线性处理可以在一定程度上抑制该残余回声，但是抑制的程度有限，故仍会存在一定的残余回声，特别对于复杂环境和非线性设备引入的回声，上述残余回声的抑制效果极为有限，从而影响最终的回声消除效果，以造成语音信号处理的性能下降。

针对上述相关技术中，回声消除过程中仍存在一定的残余回声，进而影响语音信号处理的性能的问题，相关技术中尚未提出有效的解决方案。

技术实现要素：

本发明实施例提供一种回声消除方法及装置、计算机可读的存储介质、电子装置，以至少解决相关技术中回声消除过程中仍存在一定的残余回声，进而影响语音信号处理的性能的问题。

根据本发明的一个实施例，提供了一种回声消除方法，包括：

根据参考信号与回声检测信息对于声源信号中的回声信号进行估计，以得到回声估计信息；其中，所述声源信号为终端的音频输入通道接收到的音频信号，所述参考信号为所述终端的音频输出通道中的音频信号，所述回声检测信息用于指示所述声源信号中存在所述回声信号的概率；

根据所述声源信号、所述回声估计信息与预设的第一神经网络模型以得到输出信息，并根据所述输出信息消除所述声源信号中的回声信号；其中，所述第一神经网络模型是根据样本声源信号、样本回声信号与样本输出信息训练得到的。

根据本发明的另一个实施例，还提供了一种回声消除装置，所述装置包括：

估计模块，用于根据参考信号与回声检测信息对于声源信号中的回声信号进行估计，以得到回声估计信息；其中，所述声源信号为终端的音频输入通道接收到的音频信号，所述参考信号为所述终端的音频输出通道中的音频信号，所述回声检测信息用于指示所述声源信号中存在所述回声信号的概率；

消除模块，用于根据所述声源信号、所述回声估计信息与预设的第一神经网络模型以得到输出信息，并根据所述输出信息消除所述声源信号中的回声信号；其中，所述第一神经网络模型是根据样本声源信号、样本回声信号与样本输出信息训练得到的。

根据本发明的另一个实施例，还提供了一种计算机可读的存储介质，所述计算机可读的存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的另一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明，由于可以根据参考信号与回声检测信息对于声源信号中的回声信号进行估计，以得到回声估计信息，并进一步根据声源信号、回声估计信息与预设的第一神经网络模型以得到输出信息，并根据输出信息消除声源信号中的回声信号；其中，其中，声源信号为终端的音频输入通道接收到的音频信号，参考信号为终端的音频输出通道中的音频信号，回声检测信息用于指示声源信号中存在回声信号的概率，第一神经网络模型是根据样本声源信号、样本回声信号与样本输出信息训练得到的。因此，本发明可以解决相关技术中回声消除过程中仍存在一定的残余回声，进而影响语音信号处理的性能的问题，以达到改善回声消除的成效，进而提高语音信号处理性能的效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据相关技术提供的回声消除方法的示意图；

图2是根据本发明实施例提供的回声消除系统的功能示意图(一)；

图3是根据本发明实施例提供的回声消除系统的功能示意图(二)；

图4是根据本发明实施例提供的回声消除系统的结构示意图；

图5是根据本发明实施例提供的房间冲激响应生成单元的结构示意图；

图6是根据本发明实施例提供的回声消除系统的工作流程图；

图7是根据本发明实施例提供的回声消除方法的流程图；

图8是根据本发明实施例提供的神经网络模型的训练方法的流程图；

图9是根据本发明实施例提供的神经网络模型的训练方法的训练示意图；

图10是根据本发明实施例提供的神经网络模型的训练方法的流程图；

图11是根据本发明实施例提供的神经网络模型的训练方法的训练示意图；

图12是根据本发明实施例提供的回声消除装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

实施例1

本实施例提供了一种回声消除系统，图2是根据本发明实施例提供的回声消除系统的功能示意图(一)，如图2所示，本实施例中的回声消除系统包括：

消除单元102，包括预设的第一神经网络模型，消除单元配置为，根据声源信号、回声估计信息与第一神经网络模型以得到输出信息；消除单元102还配置为，根据输出信息消除声源信号中的回声信号；

其中，声源信号为终端的音频输入通道接收到的音频信号，回声估计信息用于指示对声源信号中的回声信号进行估计的估计值；

第一神经网络模型是根据样本声源信号、样本回声信号与样本输出信息训练得到的。

需要进一步说明的是，本实施例中的回声消除系统应用于具有语音信号处理功能的终端中，上述实施例中的终端可以为手机、平板电脑、pc、音箱、具有语音交互功能的车载系统等，本发明对此不作限定；上述实施例中，声源信号即为终端的音频输入通道接收到的信号，该信号中即有可能存在需要进行消除的回声信号；终端的音频输入通道即用于终端接收音频，例如，手机中的麦克风的输入通道。

需要进一步说明的是，上述实施例中，由于第一神经网络模型是通过样本声源信号、样本回声信号与样本输出信息训练得到的，故第一神经网络模型可建立样本声源信号、样本回声信号与样本输出信息之间的关系；其中，样本回声信号即对应上述实施例中的回声估计信息。以此，在将终端当前的声源信号与回声估计信息输入至第一神经网络模型后，即可得到相应的输出信息。

通过本实施例中的回声消除系统，由于可通过消除单元以根据声源信号、回声估计信息与预设的第一神经网络模型以得到输出信息，以采用所述输出信息消除所述声源信号中的所述回声信号；其中，所述声源信号为终端的音频输入通道接收到的音频信号，所述回声估计信息用于指示对所述声源信号中的回声信号进行估计的估计值；所述第一神经网络模型是根据样本声源信号、样本回声信号与样本输出信息训练得到的。因此，本实施例中的回声消除系统可以解决相关技术中回声消除过程中仍存在一定的残余回声，进而影响语音信号处理的性能的问题，以达到改善回声消除的成效，进而提高语音信号处理性能的效果。

在一可选实施例中，本实施例中的回声消除系统还包括：

估计单元104，包括预设的第二神经网络模型，估计单元配置为，根据声源信号、参考信号、回声检测信息与第二神经网络模型以得到回声估计信息；

其中，参考信号为终端的音频输出通道中的音频信号，例如扬声器的输出通道，回声检测信息用于指示声源信号中存在回声信号的概率；

第二神经网络模型是根据样本声源信号、样本参考信号、样本回声检测信息与样本回声信号进行训练得到的。

在一可选实施例中，本实施例中的回声消除系统还包括：

检测单元106，包括预设的第三神经网络模型，检测单元配置为，根据声源信号、参考信号与第三神经网络模型以得到回声检测信息；

其中，第三神经网络模型是根据样本声源信号、样本参考信号与样本回声检测信息进行训练得到的。

上述可选实施例中，检测单元、估计单元可与消除单元配合，共同构成本实施例中的回声消除系统。图3是根据本发明实施例提供的回声消除系统的功能示意图(二)，检测单元、估计单元与消除单元的连接功能如图3所示，图4是根据本发明实施例提供的回声消除系统的结构示意图，检测单元、估计单元与消除单元的连接结构如图4所示。

需要进一步说明的是，上述参考信号用于指示终端的音频输出通道中的音频信号，上述终端的音频输出通道用于终端播放音频，例如，手机中的扬声器的输出通道，该参考信号具体即为终端在音频输出通道中准备通过音频器件播放的音频信号，如被扬声器播放之前的音频信号。

需要进一步说明的是，上述可选实施例中，由于第二神经网络模型是通过样本声源信号、样本参考信号、样本回声检测信息与样本回声信号训练得到的，故第二神经网络模型可建立样本声源信号、样本参考信号、样本回声检测信息与样本回声信号之间的关系。以此，在将终端当前的声源信号、参考信号以及回声检测信息输入至第二神经网络模型后，即可得到相应的回声信号，由于该回声信号为估计值，故即为上述实施例中的回声估计信息。类似的，由于第三神经网络模型可通过样本声源信号、样本参考信号与样本回声检测信息进行训练得到的，故第三神经网络模型可建立样本声源信号、样本参考信号与样本回声检测信息之间的关系。以此，在将终端当前的声源信号与参考信号输入至第三神经网络模型后，即可得到相应的回声检测信息。

在一可选实施例中，上述第一神经网络模型为循环神经网络(recurrentneuralnetwork，rnn)模型，第二神经网络模型为rnn模型，第三神经网络模型为rnn模型。

需要进一步说明的是，上述可选实施例中，第一神经网络模型、第二神经网络模型以及第三神经网络模型均采用由门控循环单元(gaterecurrentunit，gru)构成的rnn模型。

上述可选实施例中，由于采用循环神经网络实现各个单元的信号处理，故可利用循环神经网络自身的非线性特性以实现对回声信号中的非线性回声的消除。其次，上述各个单元中，由于第一神经网络模型亦采用是具有时序记忆功能的循环神经网络，相比于相关技术中的自适应滤波方法，可以实现更复杂的非线性运算，同时可利用语音的时序特性更好地完成对回声的消除；类似的，由于第二神经网络模型采用的是循环神经网络，其具有的时序记忆功能可以适应回声的延迟；同时由于循环神经网络的非线性特性，可以正确估计非线性回声，从而完成对回声更准确的估计。

基于此，采用上述循环神经网络构成的回声消除系统，可改善对回声时延估计误差的鲁棒性，从而可以提高回声消除的性能。

需要进一步说明的是，上述实施例中，输出信息用于指示可消除声源信号中的回声信号的信息或参数，例如，声源信号的增益信息。以下通过可选实施例的方式进一步说明上述消除单元根据输出信息消除声源信号中的回声信号的过程：

在一可选实施例中，上述消除单元102还配置为，

根据预设的频段区分方式将声源信号区分为多个频段，并根据回声估计信息与第一神经网络模型，以确定声源信号中的每一个频段对应的频段增益系数；其中，频段增益系数为输出信息；

根据频段增益系数对每一个频段对应的声源信号进行回声消除处理，以得到消除回声信号的声源信号。

需要进一步说明的是，上述可选实施例中，频段区分方式可以为巴克bark频段，即按照22个bark频段对声源信号进行区分，对应得到22个bark频段对应的声源信号；以此，即可通过第一神经网络模型确定声源信号在每一个bark频段所对应的频段增益系数；本可选实施例中，上述22个bark频段所分别对应的频段增益系数即可作为上述实施例中的输出信息。

需要进一步说明的是，上述可选实施例中的频段区分方式也可以为其它频段区分方式，本发明对此不作限定。

上述可选实施例中，根据频段增益系数对每一个频段对应的声源信号进行回声消除处理的过程具体可以为，将声源信号中的每一帧音频通过短时傅里叶变换到频域，将每一个频段乘以该频段对应的频段增益系数，之后通过短时逆傅里叶将其变换到时域，以此即可完成对声源信号的回声消除处理。

在一可选实施例中，上述消除单元102还配置为，

根据预设的频段区分方式将声源信号区分为多个频段，并根据回声估计信息与第一神经网络模型，以确定声源信号中的每一个频段对应的频段增益系数；

根据频段增益系数以确定声源信号的每一个频段中的每一个频点对应的频点增益系数；其中，频点增益系数为输出信息；

对每一个频段中的每一个频点对应的声源信号乘以频点对应的增益系数进行回声消除处理，以得到消除回声信号的声源信号。

需要进一步说明的是，上述可选实施例中，频段区分方式可以为巴克bark频段，即按照22个bark频段对声源信号进行区分，对应得到22个bark频段对应的声源信号；以此，即可通过第一神经网络模型确定声源信号在每一个bark频段所对应的频段增益系数。在确定声源信号在每一个bark频段所对应的频段增益系数的前提下，可进一步确定声源信号在每一个bark频段中每一个频点对应的频点增益系数；本可选实施例中，上述22个bark频段中每一个bark频段中的每一个频点所分别对应的频点增益系数即可作为上述实施例中的输出信息。

上述声源信号在每一个bark频段中每一个频点对应的频点增益系数可由以下公式进行确定：

上式中，gk(m)用于表示第k个频段的第m个频点的增益系数，gk与gk+1分别用于表示第k频段和第k+1频段的频段增益系数，m是第k个频段的第m个频点，m表示第k个频段的长度。

需要进一步说明的是，上述可选实施例中的频段区分方式也可以为其它频段区分方式，本发明对此不作限定。

上述可选实施例中，对每一个频段中的每一个频点对应的声源信号乘以频点对应的增益系数进行回声消除处理的过程具体可以为，将声源信号中的每一帧音频通过短时傅里叶变换到频域，并将每一个频点乘以该频点对应的频点增益系数，从而快速更改每个频段的电平，以衰减声源信号中的远端信号(即回声信号)，令近端信号通过。之后通过短时逆傅里叶将处理后的声源信号变换到时域，以此即可完成对声源信号的回声消除处理。

上述可选实施例中，通过确定每一个频段中的每一个频点对应的频点增益系数，以对声源信号中的每一帧音频信号进行针对性的处理以替代前述可选实施例中的频段增益系数，可进一步改善回声消除的效果，并令处理后的声源信号的还原效果得以进一步改进。

在上述两个可选实施例中，无论采用频段增益或频点增益作为输出信息，在采用增益对于声源信号中的回声信号进行消除的过程中，其涉及的计算量较于相关技术中的滤波处理明显减少；同时，由于增益系数分布在0至1之间，因此，可采用输出同样在0至1之间分布的s型激活函数用于增益系数的计算，其所用函数模型较于相关技术更为简练，并在增益系数计算的正确性上较于相关技术得以提高。另一方面，上述采用频段增益或频点增益对于声源信号中的回声信号进行消除的过程中仅令单音调通过，故不会产生相关技术中常见的音乐噪声伪影。

需要进一步说明的是，在一可选实施例中，还可使用梳状滤波器对上述消除回声信号后的声频信号进行处理，例如，在一个基频周期内消除声频信号中可能存在的谐波回声。

在一可选实施例中，上述声源信号包括：近端信号，或者，近端信号与远端信号；其中，远端信号用于指示声源信号中的回声信号；

检测单元还配置为，根据声源信号、参考信号与第三神经网络模型，检测声源信号中是否包括远端信号；

在声源信号仅包括近端信号的情形下，系统还配置为，将声源信号输出至终端的音频输出通道；或者，

在声源信号包括近端信号与远端信号的情形下，检测单元还配置为，根据声源信号、参考信号与第三神经网络模型以得到回声检测信息。

需要进一步说明的是，上述可选实施例中，声源信号中的远端信号即为声源信号中可能存在的回声信号，因此，在检测单元检测至声源信号中仅包括近端信号的情形下，即声源信号中未包括需要消除的回声信号，故无需对声源信号进行回声消除处理，该情形下，可将声源信号输出至终端的音频输出通道，即令检测单元后续的估计单元及消除单元均不对声源信号进行处理；在检测单元检测至声源信号中包括远端信号的情形下，即按照前述可选实施例中的估计单元与消除单元的工作方式对远端信号进行消除处理。

需要进一步说明的是，检测单元对声源信号中是否包括远端信号的检测是基于第三神经网络模型实现的。根据前述可选实施例，在将终端当前的声源信号与参考信号输入至第三神经网络模型后，即可得到相应的回声检测信息，此时，可将回声检测信息指示声源信号中存在回声信号的概率与预设的阈值进行比较，若远端信号对应的概率小于预设阈值，则表示远端信号不存在。

在一可选实施例中，样本回声信号由样本参考信号与预设的房间冲激响应得到。

需要进一步说明的是，在上述第一神经网络模型与第二神经网络模型训练过程中采用的样本回声信号可由终端的音频输出通道中采样得到的样本参考信号与预设的房间冲激响应得到，具体而言，可将样本参考信号与房间冲激响应卷积以得到样本回声信号，也可以在频域将样本参考信号与房间冲激响应相乘以得到样本回声信号。

在一可选实施例中，上述房间冲激响应可由房间冲激响应生成单元生成，图5是根据本发明实施例提供的房间冲激响应生成单元的结构示意图，上述房间冲激响应生成单元的结构如图5所示，图5所示的房间冲激响应生成单元由多个滤波器构成，具体由相互串联的线性滤波器与非线性滤波器串联构成。需要进一步说明的是，上述房间冲激响应生成单元仅为一可选方案，本领域内任何可模拟房间的冲激响应的单元均可构成本发明实施例中的房间冲激响应生成单元。

如图5所示，线性滤波器采用有限冲激响应(finiteimpulseresponse，fir)实现，其可模拟房间的冲激响应，冲激响应的最大延迟数量可根据应用场景设定，也可以设定一个通用的范围；冲激响应中不同的抽头系数可以根据延时的大小按照时间的平方衰减(抽头系数正比于1/(c²t²)，其中c用于表示声速，t用于表示延迟大小)。非线性滤波器采用无限冲激响应(infiniteimpulseresponse，iir)，其可模拟真实环境引入的非线性因素。

在一可选实施例中，样本声源信号包括：样本远端信号与样本近端信号；

其中，样本远端信号由样本参考信号与房间冲激响应得到，样本近端信号由纯净音频信号与噪声信号得到。

需要进一步说明的是，在上述第一神经网络模型、第二神经网络模型与第三神经网络模型的训练过程中采用的样本声源信号均由样本远端信号与样本近端信号两部分构成。对于样本远端信号而言，可由终端的音频输出通道中采样得到的样本参考信号与预设的房间冲激响应得到，类似于上述样本回声信号，具体可将样本参考信号与房间冲激响应卷积以得到样本远端信号，也可以在频域将样本参考信号与房间冲激响应相乘以得到样本远端信号。对于样本近端信号而言，可在纯净音频信号的基础上叠加不同类型的噪音信号，以生成样本近端信号。

在一可选实施例中，本实施例中的回声消除系统还包括：

输入处理单元，配置为获取声源信号与参考信号，并根据声源信号确定声源特征，根据参考信号确定参考特征；

消除单元还配置为，根据声源特征、回声估计信息与第一神经网络模型以得到输出信息；

估计单元还配置为，根据声源特征、参考特征、回声检测信息与第二神经网络模型以得到回声估计信息；

检测单元还配置为，根据声源特征、参考特征与第三神经网络模型以得到回声检测信息。

需要进一步说明的是，本实施例中消除单元、估计单元、检测单元在实际输入的过程中，均为输入对应的音频信号的特征。具体而言，可通过输入处理单元提取声源信号与参考信号的特征，以作为声源特征及参考特征进行后续回声消除处理。上述可选实施例中的输入处理单元可以为虚拟单元，即集成在终端的处理器中。以下通过可选实施例的方式对输入处理单元提取特征的过程进行说明：

在一可选实施例中，声源特征至少包括声源频域特征与声源音调特征；参考特征至少包括参考频域特征与参考音调特征；输入处理单元还配置为，

获取声源信号与参考信号，并对声源信号与参考信号分别进行分频加窗处理；

将处理后的声源信号变换至频域以提取声源频域特征，并对处理后的声源信号进行音调分析以确定声源音调特征；

将处理后的参考信号变换至频域以提取参考频域特征，并对处理后的参考信号进行音调分析以确定参考音调特征。

需要进一步说明的是，上述可选实施例中，对声源信号与参考信号的分帧加窗处理可有效消除帧边界的频谱不连续；上述将处理后的声源信号或参考信号变换至频域可以通过短时傅里叶变换(short-timefouriertransform，stft)实现。

在一可选实施例中，声源频域特征至少包括：声源信号的多个巴克倒谱系数bfcc频域特征、声源信号的多个bfcc频域特征的一阶差分信息、声源信号的多个bfcc频域特征的二阶差分信息；

声源音调特征至少包括：声源信号的音调对应的多个运算系数的离散余弦变换dct信息、声源信号的音调周期动态特征、声源信号的音调频谱动态特征；

参考频域特征至少包括：参考信号的多个bfcc频域特征、参考信号的多个bfcc频域特征的一阶差分信息、参考信号的多个bfcc频域特征的二阶差分信息；

参考音调特征至少包括：参考信号的音调对应的多个运算系数的dct信息、参考信号的音调周期动态特征、参考信号的音调频谱动态特征。

需要进一步说明的是，上述bfcc频域用于指示22个back频段的特征，故上述可选实施例中，声源信号的bfcc频域特征可为22个；声源信号的多个bfcc频域特征的一阶差分信息可采用声源信号的22个bfcc频域特征中的前6个bfcc频域特征的一阶差分，声源信号的多个bfcc频域特征的二阶差分信息可采用声源信号的22个bfcc频域特征中的前6个bfcc频域特征的二阶差分。同时，声源信号的音调对应的多个运算系数的离散余弦变换dct信息可采用前6个pitch相关运算系数的dct信息。

类似的，参考信号的bfcc频域特征可为22个；参考信号的多个bfcc频域特征的一阶差分信息可采用参考信号的22个bfcc频域特征中的前6个bfcc频域特征的一阶差分，参考信号的多个bfcc频域特征的二阶差分信息可采用参考信号的22个bfcc频域特征中的前6个bfcc频域特征的二阶差分。同时，参考信号的音调对应的多个运算系数的离散余弦变换dct信息可采用前6个pitch相关运算系数的dct信息。

需要进一步说明的是，上述可选实施例中，通过将声源信号与参考信号的相应特征作为回声消除中的输入，进而可避免神经网络模型处理过程中存在大量的神经元而产生大量的输出，较于相关技术中直接采用信号的样本或信号频谱作为回声消除中的输入，可进一步减小系统的运算量。

在一可选实施例中，本实施例中的回声消除系统还包括：

输出处理单元，配置为获取第一输出音频信号，根据声源音调特征对第一输出音频信号进行滤波，并将滤波后的第一输出音频信号转换至时域，以得到第二输出音频信号；其中，第一输出音频信号用于指示消除回声信号的声源信号；

输出处理单元还配置为，将第二输出音频信号输出至终端的音频输出通道。

图6是根据本发明实施例提供的回声消除系统的工作流程图，本实施例中的回声消除系统中，输入处理单元、检测单元、估计单元、消除单元与输出处理单元的工作流程如图6所示。

需要进一步说明的是，上述可选实施例中的输出处理单元可以为虚拟单元，即集成在终端的处理器中。上述输出处理单元根据声源音调特征对第一输出音频信号进行滤波，即可保持声源信号中近端信号的音调特征，从而更好地保持音频的完整性。

实施例2

本实施例提供了一种回声消除方法，图7是根据本发明实施例提供的回声消除方法的流程图，如图7所示，本实施例中的回声消除方法包括：

s202，根据参考信号与回声检测信息对于声源信号中的回声信号进行估计，以得到回声估计信息；其中，声源信号为终端的音频输入通道接收到的音频信号，参考信号为终端的音频输出通道中的音频信号，回声检测信息用于指示声源信号中存在回声信号的概率；

s204，根据声源信号、回声估计信息与预设的第一神经网络模型以得到输出信息，并根据输出信息消除声源信号中的回声信号；其中，第一神经网络模型是根据样本声源信号、样本回声信号与样本输出信息训练得到的。

需要进一步说明的是，本实施例中的回声消除方法的其余可选实施例与技术效果均与实施例1中的回声消除系统相对应，故在此不再赘述。

在一可选实施例中，上述步骤s202中，根据参考信号与回声检测信息对于声源信号中的回声信号进行估计，以得到回声估计信息，包括：

根据声源信号、参考信号、回声检测信息与第二神经网络模型以得到回声估计信息；

其中，第二神经网络模型是根据样本声源信号、样本参考信号、样本回声检测信息与样本回声信号进行训练得到的。

在一可选实施例中，上述步骤s202中，根据声源信号、参考信号、回声检测信息与第二神经网络模型以得到回声估计信息之前，还包括：

根据声源信号、参考信号与预设的第三神经网络模型以得到回声检测信息；

其中，第三神经网络模型是根据样本声源信号、样本参考信号与样本回声检测信息进行训练得到的。

在一可选实施例中，上述步骤s204中，根据声源信号、回声估计信息与预设的第一神经网络模型以得到输出信息，包括：

对每一个频段中的每一个频点对应的声源信号乘以频点对应的增益系数进行回声消除处理，以得到消除回声信号的声源信号。

在一可选实施例中，上述步骤s204中，根据声源信号、回声估计信息与预设的第一神经网络模型以得到输出信息，包括：

根据频段增益系数以确定声源信号的每一个频段中的每一个频点对应的频点增益系数；其中，频点增益系数为输出信息；

根据频点增益系数对每一个频段中的每一个频点对应的声源信号进行回声消除处理，以得到消除回声信号的声源信号。

在一可选实施例中，上述声源信号包括：近端信号，或者，近端信号与远端信号；其中，远端信号用于指示声源信号中的回声信号；

上述根据声源信号、参考信号与预设的第三神经网络模型以得到回声检测信息之前，还包括：

根据声源信号、参考信号与第三神经网络模型，检测声源信号中是否包括远端信号；

在声源信号仅包括近端信号的情形下，将声源信号输出至终端的音频输出通道；或者，

在声源信号包括近端信号与远端信号的情形下，根据声源信号、参考信号与第三神经网络模型以得到回声检测信息。

在一可选实施例中，本发明实施例中的回声消除方法还包括：

获取样本声源信号；其中，样本声源信号由样本远端信号与样本近端信号叠加得到，样本远端信号用于指示样本回声信号；

确定样本声源信号的增益系数，并将增益系数作为样本输出信息；

根据样本声源信号与样本输出信息之间的关系，建立第一神经网络模型。

在一可选实施例中，上述获取样本声源信号，包括：

获取样本参考信号，并根据样本参考信号与预设的房间冲激响应以得到样本远端信号；

获取样本纯净音频信号与预设的样本噪声信号，将样本纯净音频信号与样本噪声信号叠加以得到样本近端信号；

将样本远端信号与样本近端信号叠加以得到样本声源信号。

在一可选实施例中，上述房间冲激响应由预设的房间冲激响应生成单元生成，其中，房间冲激响应生成单元由相互串联的线性滤波器与非线性滤波器串联构成。

在一可选实施例中，上述确定样本声源信号的增益系数，包括：

获取样本纯净音频信号的第一频段能量，并获取样本声源信号的第二频段能量；

根据第一频段能量与第二频段能量以确定样本声源信号的增益系数。

需要进一步说明的是，上述可选实施例中，第一神经网络模型进行训练的过程以下通过实施例3中记载的第一神经网络模型的训练方法进行说明，故在此不再赘述。

在一可选实施例中，本发明实施例中的回声消除方法还包括：

获取样本参考信号与样本声源信号；其中，样本声源信号由样本远端信号与样本近端信号叠加得到，样本远端信号用于指示样本回声信号；

确定第一标签与第二标签；其中，第一标签用于指示样本参考信号中音频存在的概率，第二标签用于指示样本声源信号中至少部分音频存在的概率；

根据样本参考信号与第一标签之间的关系，以及，样本声源信号与第二标签之间的关系，建立第三神经网络模型。

在一可选实施例中，上述获取样本声源信号，包括：

获取样本参考信号，并根据样本参考信号与预设的房间冲激响应以得到样本远端信号；

获取样本纯净音频信号与预设的样本噪声信号，将样本纯净音频信号与样本噪声信号叠加以得到样本近端信号；

将样本远端信号与样本近端信号叠加以得到样本声源信号。

在一可选实施例中，上述确定第一标签与第二标签，包括：

对样本参考信号进行分帧处理，并确定样本参考信号中每一帧音频对应的参考音频能量；

根据参考音频能量与预设阈值之间的关系，确定样本参考信号中每一帧音频存在的概率，并将样本参考信号中每一帧音频存在的概率标识为第一标签；

对样本纯净音频信号进行分帧处理，并确定样本纯净音频信号中每一帧音频对应的声源音频能量；

根据声源音频能量与预设阈值之间的关系，确定样本纯净音频信号中每一帧音频存在的概率，并将样本纯净音频信号中每一帧音频存在的概率设置为第二标签。

需要进一步说明的是，上述可选实施例中，第三神经网络模型进行训练的过程以下通过实施例4中记载的第三神经网络模型的训练方法进行说明，故在此不再赘述。

在一可选实施例中，本发明实施例中的回声消除方法还包括：

获取声源信号与参考信号，并根据声源信号确定声源特征，根据参考信号确定参考特征；

根据声源特征、参考特征与第三神经网络模型以得到回声检测信息；

根据声源特征、参考特征、回声检测信息与第二神经网络模型以得到回声估计信息；

根据声源特征、回声估计信息与第一神经网络模型以得到输出信息。

在一可选实施例中，上述声源特征至少包括声源频域特征与声源音调特征；参考特征至少包括参考频域特征与参考音调特征；

获取声源信号与参考信号，并根据声源信号确定声源特征，根据参考信号确定参考特征，还包括：

获取声源信号与参考信号，并对声源信号与参考信号分别进行分频加窗处理；

将处理后的声源信号变换至频域以提取声源频域特征，并对处理后的声源信号进行音调分析以确定声源音调特征；

将处理后的参考信号变换至频域以提取参考频域特征，并对处理后的参考信号进行音调分析以确定参考音调特征。

在一可选实施例中，上述声源频域特征至少包括：声源信号的多个巴克倒谱系数bfcc频域特征、声源信号的多个bfcc频域特征的一阶差分信息、声源信号的多个bfcc频域特征的二阶差分信息；

声源音调特征至少包括：声源信号的音调对应的多个运算系数的离散余弦变换dct信息、声源信号的音调周期动态特征、声源信号的音调频谱动态特征；

参考频域特征至少包括：参考信号的多个bfcc频域特征、参考信号的多个bfcc频域特征的一阶差分信息、参考信号的多个bfcc频域特征的二阶差分信息；

参考音调特征至少包括：参考信号的音调对应的多个运算系数的dct信息、参考信号的音调周期动态特征、参考信号的音调频谱动态特征。

在一可选实施例中，上述根据声源信号、回声估计信息与预设的第一神经网络模型以得到输出信息之后，还包括：

获取第一输出音频信号，根据声源音调特征对第一输出音频信号进行滤波，并将滤波后的第一输出音频信号转换至时域，以得到第二输出音频信号；其中，第一输出音频信号用于指示消除回声信号的声源信号；

将第二输出音频信号输出至终端的音频输出通道。

在一可选实施例中，第一神经网络模型为循环神经网络rnn模型，第二神经网络模型为rnn模型，第三神经网络模型为rnn模型。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例3

本实施例提供了一种神经网络模型的训练方法，用于实现实施例2中所记载的第一神经网络模型的训练，图8是根据本发明实施例提供的神经网络模型的训练方法的流程图，如图8所示，本实施例中的神经网络模型的训练方法包括：

s302，获取样本声源信号；其中，样本声源信号由样本远端信号与样本近端信号叠加得到，样本远端信号用于指示样本回声信号；

s304，确定样本声源信号的增益系数，并将增益系数作为样本输出信息；

s306，根据样本声源信号与样本输出信息之间的关系，建立第一神经网络模型。

需要进一步说明的是，本实施例中的样本声源信号、样本远端信号、样本近端信号、样本输出信息分别与实施例1中记载的声源信号、远端信号、近端信号及输出信息对应，即样本声源信号、样本远端信号、样本近端信号、样本输出信息分别为声源信号、远端信号、近端信号及输出信息的多个样本。

在一可选实施例中，上述步骤s302中，获取样本声源信号，包括：

获取样本参考信号，并根据样本参考信号与预设的房间冲激响应以得到样本远端信号；

获取样本纯净音频信号与预设的样本噪声信号，将样本纯净音频信号与样本噪声信号叠加以得到样本近端信号；

将样本远端信号与样本近端信号叠加以得到样本声源信号。

需要进一步说明的是，上述可选实施例中，根据样本参考信号与预设的房间冲激响应以得到样本远端信号具体可为，将样本参考信号与房间冲激响应卷积以得到样本远端信号，也可以在频域将样本参考信号与房间冲激响应相乘以得到样本远端信号。

在一可选实施例中，房间冲激响应由预设的房间冲激响应生成单元生成，其中，房间冲激响应生成单元由相互串联的线性滤波器与非线性滤波器串联构成。

需要进一步说明的是，上述可选实施例中的房间冲激响应生成单元与实施例1中的房间冲激响应生成单元对应，故在此不再赘述。

在一可选实施例中，上述步骤s304中，确定样本声源信号的增益系数，包括：

获取样本纯净音频信号的第一频段能量，并获取样本声源信号的第二频段能量；

根据第一频段能量与第二频段能量以确定样本声源信号的增益系数。

需要进一步说明的是，上述可选实施例中，设定样本纯净音频信号的第一频段能量为es,k，设定样本声源信号的第二频段能量为em,k，则样本声源信号的增益系数应满足下式：

上述增益系数即为第一神经网络模型训练过程中的样本声源信号的标签，也即样本输出信息。

需要进一步说明的是，上述步骤s306中，样本声源信号在输入过程中均以特征的方式进行输入，即在根据样本声源信号与样本输出信息进行第一神经网络模型的训练前，需提取样本声源信号的特征，该特征以及特征提取的方式与上述实施例1中记载的对于声源信号的声源特征及提取方式相对应，故在此不再赘述。图9是根据本发明实施例提供的神经网络模型的训练方法的训练示意图，上述神经网络模型的训练方法指示的训练过程如图9所示。

实施例4

本实施例提供了一种神经网络模型的训练方法，用于实现实施例2中所记载的第三神经网络模型的训练，图10是根据本发明实施例提供的神经网络模型的训练方法的流程图，如图10所示，本实施例中的神经网络模型的训练方法包括：

s402，获取样本参考信号与样本声源信号；其中，样本声源信号由样本远端信号与样本近端信号叠加得到，样本远端信号用于指示样本回声信号；

s404，确定第一标签与第二标签；其中，第一标签用于指示样本参考信号中音频存在的概率，第二标签用于指示样本声源信号中至少部分音频存在的概率；

s406，根据样本参考信号与第一标签之间的关系，以及，样本声源信号与第二标签之间的关系，建立第三神经网络模型。

需要进一步说明的是，本实施例中的样本参考信号、样本声源信号、样本远端信号、样本近端信号分别与实施例1中记载的参考信号、声源信号、远端信号、近端信号对应，即样本参考信号、样本声源信号、样本远端信号、样本近端信号、样本输出信息分别为参考信号、声源信号、远端信号、近端信号的多个样本。

在一可选实施例中，上述步骤s402中，获取样本声源信号，包括：

获取样本参考信号，并根据样本参考信号与预设的房间冲激响应以得到样本远端信号；

获取样本纯净音频信号与预设的样本噪声信号，将样本纯净音频信号与样本噪声信号叠加以得到样本近端信号；

将样本远端信号与样本近端信号叠加以得到样本声源信号。

需要进一步说明的是，上述可选实施例中的房间冲激响应生成单元与实施例1中的房间冲激响应生成单元对应，故在此不再赘述。

在一可选实施例中，上述步骤s404中，确定第一标签与第二标签，包括：

对样本参考信号进行分帧处理，并确定样本参考信号中每一帧音频对应的参考音频能量；

根据参考音频能量与预设阈值之间的关系，确定样本参考信号中每一帧音频存在的概率，并将样本参考信号中每一帧音频存在的概率标识为第一标签；

对样本纯净音频信号进行分帧处理，并确定样本纯净音频信号中每一帧音频对应的声源音频能量；

需要进一步说明的是，上述可选实施例中，即通过样本参考信号或样本纯净音频信号中的每一帧音频信号的音频能量分别与相应的阈值进行比较，进而确定样本参考信号或样本纯净音频信号中音频存在的概率，即上述第一标签与第二标签。具体而言，可设置三个门限值作为预设阈值，以样本参考信号为例，将样本参考信号中的每一帧音频信号的能量值分别与上述三个门限值进行比较，大于门限2，则标注该帧音频信号为1，大于门限1小于门限2，则标注该帧音频信号为0.5，小于门限1，则标注该帧音频信号为0；上述0、0.5、1即可作为样本参考信号的该帧音频信号的标签，用于表示该帧音频信号存在的概率。样本纯净音频信号可参照上述方式获取第二标签，在此不再赘述。

在确定样本参考信号或样本纯净音频信号中的每一帧音频信号存在的概率的基础上，可采用sigmoid激活函数完成样本参考信号或样本纯净音频信号的概率计算，即得到相应的第一标签与第二标签。上述sigmoid激活函数的表达式如下：

上述基于sigmoid激活函数完成概率计算的过程是本领域技术人员已知的，故在此不再赘述。

图11是根据本发明实施例提供的神经网络模型的训练方法的训练示意图，上述神经网络模型的训练方法指示的训练过程如图11所示。

实施例5

本实施例提供的一种回声消除装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图12是根据本发明实施例提供的回声消除装置的结构框图，如图12所示，本实施例中的回声消除装置包括：

估计模块502，用于根据参考信号与回声检测信息对于声源信号中的回声信号进行估计，以得到回声估计信息；其中，声源信号为终端的音频输入通道接收到的音频信号，参考信号为终端的音频输出通道中的音频信号，回声检测信息用于指示声源信号中存在回声信号的概率；

消除模块504，用于根据声源信号、回声估计信息与预设的第一神经网络模型以得到输出信息，并根据输出信息消除声源信号中的回声信号；其中，第一神经网络模型是根据样本声源信号、样本回声信号与样本输出信息训练得到的。

需要进一步说明的是，本实施例中的回声消除装置的其余可选实施例与技术效果均与实施例2中的回声消除方法相对应，故在此不再赘述。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

实施例6

本发明的实施例还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述计算机可读的存储介质可以被设置为存储用于执行上述实施例中的计算机程序。

可选地，在本实施例中，上述计算机可读的存储介质可以包括但不限于：u盘、只读存储器(read-onlymemory，简称为rom)、随机存取存储器(randomaccessmemory，简称为ram)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

实施例7

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行上述实施例中的步骤。

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：马路;赵培;苏腾荣
技术所有人：海尔优家智能科技(北京)有限公司
我是此专利的发明人

上一篇：回声消除方法、装置及存储介质与流程
上一篇：一种基于胶囊自修复的坠落式危岩加固方法及装置与流程