一种目标方向语音提取方法、装置、电子设备和存储介质与流程

文档序号:26540422发布日期:2021-09-07 21:33阅读:146来源:国知局
一种目标方向语音提取方法、装置、电子设备和存储介质与流程

1.本发明涉及语音提取技术领域,具体涉及一种目标方向语音提取方法、装置、电子设备和存储介质。


背景技术:

2.目前根据提取特定方向声音的技术主要是波束形成技术,如果使用固定波束形成技术通常需要较多阵元才能达到较好效果,如果使用自适应波束形成技术,需要实时检测信号数据,调控自适应滤波器更新,避免发生语音损伤,但在噪声下目标信号数据检测并不容易。
3.有学者研究基于相关性的降低混响和散射噪声的方法,但该方法不能去除方向性的声音干扰。


技术实现要素:

4.本发明提供一种目标方向语音提取方法、装置、电子设备和存储介质,能够解决上述不能去除方向性的声音干扰技术问题。
5.本发明解决上述技术问题的技术方案如下:
6.第一方面,本发明实施例提供一种目标方向语音提取方法,包括:
7.获取多路信号数据;
8.根据多路信号数据确定频域信号数据xi(k,f),其中i表示阵元,k为帧(时间),f为频率;
9.计算输入信号归一化互谱;
10.计算多个噪声归一化互谱;
11.选取使得相干散射比cdr最小的噪声归一化互谱,根据最小的相干散射比cdr计算各个频点的增益系数;
12.计算增益系数与频域信号数据xi(k,f)的积,通过傅里叶逆变换与重叠相加操作得到降噪后的信号数据。
13.在一些实施例中,上述方法中根据多路信号数据确定频域信号数据xi(k,f),包括:
14.将多路数据中的每一路数据均使用分帧、加窗分解到时频域;
15.通过傅里叶变换是转到时频域得到频域信号数据。
16.在一些实施例中,上述方法中计算输入信号归一化互谱,包括:
17.计算互功率谱;计算两个自功率谱的模之积;
18.计算互功率谱和两个自功率谱的模之积的商得到数据归一化互谱。
19.在一些实施例中,上述方法中计算多个噪声归一化互谱,包括:
20.根据声音入射模型计算多个噪声方向上的噪声归一化互谱。
21.第二方面,本发明实施例还提供一种目标方向语音提取装置,包括:
22.获取模块:用于获取多路信号数据;
23.确定模块:用于根据多路信号数据确定频域信号数据xi(k,f),其中i表示阵元,k为帧(时间),f为频率;
24.第一计算模块:用于计算输入信号归一化互谱;
25.第二计算模块:用于计算多个噪声归一化互谱;
26.第三计算模块:用于选取使得相干散射比cdr最小的噪声归一化互谱,根据最小的相干散射比cdr计算各个频点的增益系数;
27.第四计算模块:计算增益系数与频域信号数据xi(k,f)的积,通过傅里叶逆变换与重叠相加操作得到降噪后的信号数据。
28.在一些实施例中,上述装置中的确定模块还用于:
29.将多路数据中的每一路数据均使用分帧、加窗分解到时频域;
30.通过傅里叶变换是转到时频域得到频域信号数据。
31.在一些实施例中,上述装置中的第一计算模块还用于:
32.计算互功率谱;计算两个自功率谱的模之积;
33.计算互功率谱和两个自功率谱的模之积的商得到数据归一化互谱。
34.在一些实施例中,上述装置中的第二计算模块计算多个噪声归一化互谱,包括:
35.根据声音入射模型计算多个噪声方向上的噪声归一化互谱。
36.第三方面,本发明实施例还提供了一种电子设备,包括:处理器和存储器;
37.所述处理器通过调用所述存储器存储的程序或指令,用于执行如上所述任一项所述一种目标方向语音提取方法。
38.第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如上所述任一项所述一种目标方向语音提取方法。
39.本发明的有益效果是:获取多路信号数据;根据所述多路信号数据确定频域信号数据xi(k,f),其中i表示阵元,k为帧(时间),f为频率;计算输入信号归一化互谱;计算多个噪声归一化互谱;选取使得相干散射比cdr最小的噪声归一化互谱,根据最小的相干散射比cdr计算各个频点的增益系数;计算所述增益系数与频域信号数据xi(k,f)中第一个阵元的积,通过傅里叶逆变换与重叠相加操作得到降噪后的信号数据。本技术实施例中将噪声归一化互谱由散射噪声扩展为方向噪声,并通过对噪声归一化互谱空间采样,令相干散射比cdr最小的方法选择噪声归一化互谱,最终实现提取目标语音并抑制目标区域以外的干扰。相比于基于相关性的降低混响和散射噪声的方法,本技术可以去除方向性噪声干扰,提取目标方向语音。
附图说明
40.图1为本发明实施例提供的一种目标方向语音提取方法图一;
41.图2为本发明实施例提供的一种目标方向语音提取方法图二;
42.图3为本发明实施例提供的一种目标方向语音提取方法图三;
43.图4为本发明实施例提供的一种目标方向语音提取装置图;
44.图5为本发明实施例提供的一种电子设备的示意性框图。
具体实施方式
45.以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
46.为了能够更清楚地理解本技术的上述目的、特征和优点,下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。此处所描述的具体实施例仅仅用于解释本公开,而非对本技术的限定。基于所描述的本技术的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本技术保护的范围。
47.需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
48.图1为本发明实施例提供的一种目标方向语音提取方法图一。
49.第一方面,结合图1,本发明实施例提供一种目标方向语音提取方法,包括s101、s102、s103、s104、s105和s106六个步骤:
50.s101:获取多路信号数据。
51.s102:根据多路信号数据确定频域信号数据xi(k,f),其中i表示阵元,k为帧(时间),f为频率。
52.s103:计算输入信号归一化互谱。
53.s104:计算多个噪声归一化互谱。
54.具体的,本技术实施例中,由于在实际定向拾音过程中仅知道目标语音方位,并不知道噪声方位,本技术中需要设定多个噪声方向,比如目标方向在0
°
,左右偏差在+

20
°
,那么干扰方向来自(

90
°


20
°
)u(20
°
~90
°
),本技术每隔几度计算一个噪声归一化互谱,比如每隔5
°
计算一个,则有多个噪声归一化互谱γn1,γn2,
……
,在计算增益时选取。
55.s105:选取使得相干散射比cdr最小的噪声归一化互谱,根据最小的相干散射比cdr计算各个频点的增益系数;
[0056][0057]
具体的,本技术实施例中,上面公式中δt为目标语音方位折算的时延,通过该公式即可计算相干散射比cdr;英文为coherent

to

diffuse ratio由于噪声可来自于多个方位,所以此处选取使得相干散射比cdr最小的噪声归一化互谱γn;
[0058][0059]
通过相干散射比cdr即可计算时频点的增益系数,其中gmin=0.1,u=1,这两个参数用于平衡降噪与语音损伤,可取α=2,β=1相当于维纳滤波。
[0060]
s106:计算增益系数与频域信号数据xi(k,f)的积,通过傅里叶逆变换与重叠相加操作得到降噪后的信号数据。
[0061]
具体的,本技术实施例中将噪声归一化互谱由散射噪声扩展为方向噪声,并通过
对噪声归一化互谱空间采样,令相干散射比cdr最小的方法选择噪声归一化互谱,计算增益系数与频域信号数据xi(k,f)的积,增益系数得到后,通常选取与第一个阵元数据x1(k,f)乘积,最终将输出一路降噪后语音,通过傅里叶逆变换与重叠相加操作得到降噪后的信号数据,最终实现提取目标语音并抑制目标区域以外的干扰。相比于基于相关性的降低混响和散射噪声的方法,本技术可以去除方向性噪声干扰,提取目标方向语音。
[0062]
图2为本发明实施例提供的一种目标方向语音提取方法图二。
[0063]
在一些实施例中,结合图2,上述方法中根据多路信号数据确定频域信号数据xi(k,f),包括s201和s202两个步骤:
[0064]
s201:将多路数据中的每一路数据均使用分帧、加窗分解到时频域。
[0065]
s202:通过傅里叶变换转到时频域得到频域信号数据。
[0066]
图3为本发明实施例提供的一种目标方向语音提取方法图三。
[0067]
在一些实施例中,结合图3,上述方法中计算输入信号归一化互谱,包括s301、s302和s303三个步骤:
[0068]
s301:计算互功率谱;
[0069]
s302:计算两个自功率谱的模之积;
[0070]
s303:计算互功率谱和两个自功率谱的模之积的商得到数据归一化互谱。
[0071]
具体的,本技术实施例中,
[0072]
互功率谱是xi(k,f)*conj(xj(k,f)),conj为共轭算子;
[0073]
两个自功率谱的模之积фx(k,f)=|фx1x1(k,f)|*|фx2x2(k,f)|;
[0074]
计算互功率谱和两个自功率谱的模之积的商得到数据归一化互谱如下公式所示:
[0075][0076]
在一些实施例中,上述方法中计算多个噪声归一化互谱,包括:
[0077]
根据声音入射模型计算多个噪声方向上的噪声归一化互谱。
[0078]
具体的,本技术实施例中,根据声音入射模型计算多个噪声方向上的噪声归一化互谱γn(k,f)=exp(j2πfδt),其中j是虚部标识符,即sqrt(

1),δt=d*cos(angle)/c,δt是噪声进入阵元的延时差,其中d指mic间距,angle是噪声相对阵列垂线角(取弧度),c是声音传播速度,常温下c=343m/s。
[0079]
图4为本发明实施例提供的一种目标方向语音提取装置图。
[0080]
第二方面,本发明实施例还提供一种目标方向语音提取装置,结合图4,包括:
[0081]
获取模块401:用于获取多路信号数据。
[0082]
确定模块402:用于根据多路信号数据确定频域信号数据xi(k,f),其中i表示阵元,k为帧(时间),f为频率。
[0083]
第一计算模块403:用于计算输入信号归一化互谱。
[0084]
第二计算模块404:用于计算多个噪声归一化互谱。
[0085]
具体的,本技术实施例中,由于在实际定向拾音过程中仅知道目标语音方位,并不知道噪声方位,本技术中需要设定多个噪声方向,比如目标方向在0
°
,左右偏差在+

20
°
,那么干扰方向来自(

90
°


20
°
)u(20
°
~90
°
),本技术每隔几度第二计算模块404计算一个噪
声归一化互谱,比如每隔5
°
计算一个,则有多个噪声归一化互谱γn1,γn2,
……
,在计算增益时选取。
[0086]
第三计算模块405:用于选取使得相干散射比cdr最小的噪声归一化互谱,根据最小的相干散射比cdr计算各个频点的增益系数;
[0087][0088]
具体的,本技术实施例中,上面公式中δt为目标语音方位折算的时延,通过该公式即可计算相干散射比cdr;由于噪声可来自于多个方位,所以此处选取使得相干散射比cdr最小的噪声归一化互谱γn;
[0089][0090]
通过相干散射比cdr即可计算时频点的增益系数,其中gmin=0.1,u=1,这两个参数用于平衡降噪与语音损伤,可取α=2,β=1相当于维纳滤波。
[0091]
第四计算模块406:计算增益系数与频域信号数据xi(k,f)的积,通过傅里叶逆变换与重叠相加操作得到降噪后的信号数据。
[0092]
具体的,本技术实施例中将噪声归一化互谱由散射噪声扩展为方向噪声,并通过对噪声归一化互谱空间采样,令cdr最小的方法选择噪声归一化互谱,第四计算模块406计算增益系数与频域信号数据xi(k,f)的积,通过傅里叶逆变换与重叠相加操作得到降噪后的信号数据最终实现提取目标语音并抑制目标区域以外的干扰。相比于基于相关性的降低混响和散射噪声的方法,本技术可以去除方向性噪声干扰,提取目标方向语音。
[0093]
在一些实施例中,上述装置中的确定模块402还用于:
[0094]
将多路数据中的每一路数据均使用分帧、加窗分解到时频域;
[0095]
通过傅里叶变换是转到时频域得到频域信号数据。
[0096]
在一些实施例中,上述装置中的第一计算模块403还用于:
[0097]
计算互功率谱;计算两个自功率谱的模之积;
[0098]
计算互功率谱和两个自功率谱的模之积的商得到数据归一化互谱。
[0099]
具体的,本技术实施例中,
[0100]
互功率谱是xi(k,f)*conj(xj(k,f)),conj为共轭算子;
[0101]
两个自功率谱的模之积фx(k,f)=|фx1x1(k,f)|*|фx2x2(k,f)|;
[0102]
计算互功率谱和两个自功率谱的模之积的商得到数据归一化互谱如:
[0103][0104]
在一些实施例中,上述装置中的第二计算模块404计算多个噪声归一化互谱,包括:
[0105]
根据声音入射模型计算多个噪声方向上的噪声归一化互谱。
[0106]
具体的,本技术实施例中,根据声音入射模型计算多个噪声方向上的噪声归一化
互谱γn(k,f)=exp(j2πfδt),其中j是虚部标识符,即sqrt(

1),δt=d*cos(angle)/c,δt是噪声进入阵元的延时差,其中d指mic间距,angle是噪声相对阵列垂线角(取弧度),c是声音传播速度,常温下c=343m/s。
[0107]
第三方面,本发明实施例还提供了一种电子设备,包括:处理器和存储器;
[0108]
所述处理器通过调用所述存储器存储的程序或指令,用于执行如上所述任一项所述一种目标方向语音提取方法。
[0109]
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如上所述任一项所述一种目标方向语音提取方法。
[0110]
图5是本公开实施例提供的一种电子设备的示意性框图。
[0111]
如图5所示,电子设备包括:至少一个处理器501、至少一个存储器502和至少一个通信接口503。电子设备中的各个组件通过总线系统504耦合在一起。通信接口503,用于与外部设备之间的信息传输。可理解,总线系统504用于实现这些组件之间的连接通信。总线系统504除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但为了清楚说明起见,在图5中将各种总线都标为总线系统504。
[0112]
可以理解,本实施例中的存储器502可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。
[0113]
在一些实施方式中,存储器502存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统和应用程序。
[0114]
其中,操作系统,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序,包含各种应用程序,例如媒体播放器(media player)、浏览器(browser)等,用于实现各种应用业务。实现本技术实施例提供的目标方向语音提取方法中任一一种目标方向语音提取方法方法的程序可以包含在应用程序中。
[0115]
在本技术实施例中,处理器501通过调用存储器502存储的程序或指令,具体的,可以是应用程序中存储的程序或指令,处理器501用于执行本技术实施例提供的一种目标方向语音提取方法各实施例的步骤。
[0116]
获取多路信号数据;
[0117]
根据多路信号数据确定频域信号数据xi(k,f),其中i表示阵元,k为帧(时间),f为频率;
[0118]
计算输入信号归一化互谱;
[0119]
计算多个噪声归一化互谱;
[0120]
选取使得相干散射比cdr最小的噪声归一化互谱,根据最小的相干散射比cdr计算各个频点的增益系数;
[0121]
计算增益系数与频域信号数据xi(k,f)的积,通过傅里叶逆变换与重叠相加操作得到降噪后的信号数据。
[0122]
本技术实施例提供的一种目标方向语音提取方法中任一方法可以应用于处理器501中,或者由处理器501实现。处理器501可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件
形式的指令完成。上述的处理器501可以是通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0123]
本技术实施例提供的一种目标方向语音提取方法中任一方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器502,处理器501读取存储器502中的信息,结合其硬件完成目标方向语音提取方法的步骤。
[0124]
本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本技术的范围之内并且形成不同的实施例。
[0125]
本领域的技术人员能够理解,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0126]
虽然结合附图描述了本技术的实施方式,但是本领域技术人员可以在不脱离本技术的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
[0127]
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1