去混响方法、电子设备和存储介质与流程

文档序号：29464040发布日期：2022-04-02 02:41阅读：292来源：国知局

1.本发明属于语音处理技术领域，尤其涉及去混响方法、电子设备和存储介质。

背景技术：

2.目前去混响方法大体上分为三种，分别是传统方法，神经网络方法以及二者结合的方法。传统方法指的是利用信号处理理论，从带混响的语音中计算出干净语音的过程，如谱减法，mclp，导向滤波等；神经网络方式指通过训练网络，直接映射得到干净音频的过程，如dnn,fsmn等；最后就是二者结合的方法，如基于dnn的mclp算法等。
3.传统方法基于信号处理学科，理论复杂，且计算复杂度往往随着去混响效果的提高而增加，算法落地可行性随着计算复杂度的提高而降低；神经网络方法，得益于成熟的深度学习框架，搭建模型较为容易，但训练结果依赖于训练数据，当测试场景和训练场景不同时，效果难以保证。且训练数据量对训练结果产生重要影响，当数据量小时，会造成模型泛化能力差。而去混响的公开数据集少，训练数据的收集也较为困难。
4.传统方法想要得到较好的效果，一般有两个思路：一是使得理论依据更加符合真实情况，如在已有的数学模型基础上引入噪声，突发性的干扰等，二是要参考更多的信息，如更长的历史信息等。这两种都会导致算法处理更多的数据，从而增加了计算复杂度。神经网络方式让模型学习输入数据特征，训练一系列权重参数，输入特征与参数经过计算后，得到我们期望的音频信号。因此模型效果非常依赖于输入数据，输入什么学习什么，模型学习不到没有输入的特征，导致当测试输入不同于训练场景的音频，模型效果便大打折扣。
5.发明人发现：传统方法根据应用场景，常对计算复杂度和算法效果进行取舍。在算力吃紧的平台上，牺牲一些算法效果，降低计算复杂度，在更注重算法效果的场景下，增加计算复杂度，得到更有效的去混响效果。神经网络方法为了增加模型通用性，一般会收集包含更多场景的数据，让测试场景尽可能包含在训练数据中，这样测试效果较训练效果不会相差很多；为了模型对训练数据的学习更详尽，收集尽可能多的数据量，搭建更多层网络，调整考虑更多信息的更有效的网络结构，数据量越大，模型学到的东西越多，网络层数越多，学习越深入，模型也就越能体现训练数据的规律，但同时网络越多层，考虑越多信息计算复杂度也随之提高。

技术实现要素：

6.本发明实施例旨在至少解决上述技术问题之一。
7.第一方面，本发明实施例提供一种去混响方法，包括：获取具有混响的语音信号。预处理语音信号，获取处理后的语音信号。对处理后语音信号实施短时傅里叶变换，获取语音的频域信号。并将语音信号划分为高频段信号、中频段信号和低频段信号。
8.通过wpe加权预测误差算法去除中频段信号和低频段信号中的混响。汇合中频段信号、低频段信号和高频段信号，得到处理后的合成音频。对合成音频实施逆傅里叶变换，获取处理后音频的时域信号。时域信号即为去混响音频。
9.第二方面，本发明实施例提供一种电子设备，其包括：至少一个处理器，以及与至少一个处理器通信连接的存储器，其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本发明上述任一项去混响方法。
10.第三方面，本发明实施例提供一种存储介质，存储介质中存储有一个或多个包括执行指令的程序，执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项去混响方法。
11.第四方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项去混响方法。
12.本发明实施例基于传统wpe(weighted prediction error)，通过分频段处理方法，对不同频段独立更新滤波器，更能体现音频在频域的变化趋势，提高算法效果。同时，分频处理方式在提高算法效果的基础上也降低了计算复杂度，适用于通话视频会议等注重听感的场景。
附图说明
13.为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
14.图1为本发明的去混响方法的一实施例的流程图；
15.图2为本发明的去混响方法的另一实施例的流程图；
16.图3为本发明的去混响方法的又一实施例的流程；
17.图4为本发明的电子设备的一实施例的结构示意图。
具体实施方式
18.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
19.需要说明的是，在不冲突的情况下，本技术中的实施例及实施例中的特征可以相互组合。
20.本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
21.在本发明中，“模块”、“装置”、“系统”等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程
中，并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地系统、分布式系统中另一元件交互的，和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。
22.最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括
……”
限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
23.本发明实施例提供一种去混响方法，该方法可以应用于电子设备。电子设备可以是电脑、服务器或者其他电子产品等，本发明对此不作限定。
24.请参考图1，其示出了本发明一实施例提供的一种去混响方法。
25.如图1所示，一种去混响方法，包括以下步骤：
26.步骤s101，获取具有混响的语音信号。
27.步骤s102，预处理语音信号。
28.本步骤中，预处理语音信号，获取处理后的语音信号。
29.步骤s103，对处理后语音信号实施短时傅里叶变换，获取语音的频域信号。
30.步骤s104，获取高频段信号、中频段信号和低频段信号。
31.本步骤中，将语音频域信号划分为高频段信号、中频段信号和低频段信号。
32.步骤s105，去除低中频段混响。
33.本步骤中，通过wpe加权预测误差算法去除中频段信号和低频段信号中的混响。
34.步骤s106，汇合高频段信号、中频段信号和低频段信号。
35.本步骤中，汇合所述中频段信号、低频段信号和所述高频段信号，得到处理后的合成音频；对所述合成音频实施逆傅里叶变换，获取处理后音频的时域信号；所述时域信号即为去混响音频。
36.本步骤中，根据合成音频生成去除混响音频。
37.在一些可选的实施例中，步骤s102中预处理语音信号的步骤包括：分帧、加窗语音信号。
38.在一些可选的实施例中，如图2所示，在本发明去混响方法的步骤s104包括：
39.步骤s1041，获取所述语音频域信号的频点范围。
40.步骤s1042，平分所述频点范围获取高频段范围、中频段范围和低频段范围。
41.步骤s1043，获取高频段信号、中频段信号和低频段信号。
42.本步骤中，根据高频段范围、中频段范围和低频段范围将处理后语音信号划分为高频段信号、中频段信号和低频段信号。
43.在一些可选的实施例中，在本发明去混响方法的步骤s106中汇合中频段信号、低频段信号和高频段信号，获取合成音频的步骤包括：根据高频段范围、中频段范围和低频段范围汇合中频段信号、低频段信号和高频段信号。
44.在一些可选的实施例中，在本发明去混响方法的上述步骤s106中还包括：加窗处
理合成音频。
45.在一些可选的实施例中，在本发明去混响方法的步骤s101中包括：在能够产生混响的房间内设置麦克风。通过麦克风采集具有混响的语音信号。
46.在一些可选的实施例中，分帧长度为32ms。
47.在一些可选的实施例中，在本发明去混响方法的步骤s106后还包括：存储和/或播放去除混响的音频。
48.本方案基于传统wpe(weighted prediction error)，提出分频段处理方法。由于不同频段的音频衰减速度不一样，高频段衰减快，低频段衰减慢，因此不同频段各自独立更新滤波器更能体现音频在频率域的变化趋势，提高算法效果。同时又由于正常说话语音高频信号较少，衰减快，混响小，即使不处理对听感也影响不大，因此算法不处理高频段以降低计算复杂度。分频处理方式在不增加计算复杂度的基础上提高了算法效果，适用于通话视频会议等注重听感的场景。
49.在本发明的一些可选的实施例中，本发明的处理流程如图3所示，具体步骤如下：
50.第一步：用麦克风在包含混响的房间内采集语音信号。
51.第二步：对采集到的语音信号分帧处理，分帧长度为32ms，并加窗；
52.第三步：对上步结果做短时傅里叶变换，得到语音频域信号；
53.第四步：由于语音信号在不同频段的衰减速度不同，高频衰减快，混响小，低频衰减慢，混响大，独立处理各个频段，可以提高算法有效性。因此将所有频点平均分成3份，分别为低中高频段；如将257个频点个频点平分为三份，低频为86个频点、中频为86个频点、高频为85个频点。
54.第五步：又因为语音信号高频分量非常少，又衰减很快，混响小，因此不处理高频段，只对低中频段信号分别通过wpe(weighted prediction error加权预测误差)算法进行去混响处理；
55.第六步：汇合处理完的中低频段信号和未处理的高频段信号，做逆傅里叶变化，再次得到时域信号；
56.第七步：对上步得到的音频做加窗处理，得到最终去混响后的音频。
57.分频段wpe算法忽略高频段的少量混响，降低了三分之一的计算复杂度，同时提升了算法效果，可用于人听的场合，如通话，视频等。
58.分频段wpe算法直接能达到的效果就是在保证去混响效果的同时降低了计算复杂度；更深层次的，由于该算法降低了计算复杂度，提高了在更多算力有限的平台上的落地可能性。
59.需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作合并，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
60.在一些实施例中，本发明实施例提供一种非易失性计算机可读存储介质，存储介质中存储有一个或多个包括执行指令的程序，执行指令能够被电子设备(包括但不限于计
算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项去混响方法。
61.在一些实施例中，本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项去混响方法。
62.在一些实施例中，本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与至少一个处理器通信连接的存储器，其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行去混响方法。
63.图4是本技术另一实施例提供的执行去混响方法的电子设备的硬件结构示意图，如图4所示，该设备包括：
64.一个或多个处理器410以及存储器420，图4中以一个处理器410为例。
65.执行去混响方法的设备还可以包括：输入装置430和输出装置440。
66.处理器410、存储器420、输入装置430和输出装置440可以通过总线或者其他方式连接，图4中以通过总线连接为例。
67.存储器420作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本技术实施例中的去混响方法对应的程序指令/模块。处理器410通过运行存储在存储器420中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例去混响方法。
68.存储器420可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据去混响设备的使用所创建的数据等。此外，存储器420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器420可选包括相对于处理器410远程设置的存储器，这些远程存储器可以通过网络连接至去混响设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
69.输入装置430可接收输入的数字或字符信息，以及产生与去混响设备的用户设置以及功能控制有关的信号。输出装置440可包括显示屏等显示设备。
70.一个或者多个模块存储在存储器420中，当被一个或者多个处理器410执行时，执行上述任意方法实施例中的去混响方法。
71.上述产品可执行本技术实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本技术实施例所提供的方法。
72.本技术实施例的电子设备以多种形式存在，包括但不限于:
73.(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。
74.(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:pda、mid和umpc设备等。
75.(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。
76.(4)其他具有数据交互功能的机载电子装置，例如安装上车辆上的车机装置。
77.以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是
或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
78.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
79.最后应说明的是：以上实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：任云
技术所有人：思必驰科技股份有限公司
我是此专利的发明人