基于麦克风阵列的波束形成方法和装置、存储介质与流程

文档序号:19073756发布日期:2019-11-08 21:07阅读:269来源:国知局
基于麦克风阵列的波束形成方法和装置、存储介质与流程

本发明涉及音频信号处理技术领域,特别是涉及一种基于麦克风阵列的波束形成方法和装置、存储介质。



背景技术:

在车载系统、电话会议与多媒体会议等语音处理系统中,由于受到混响、背景噪声及干扰等因素的影响,麦克风拾取的信号通常为带噪的语音信号。这样,不仅影响语音的可懂度,而且影响语音处理系统的整体性能。因此,需要进行有效的噪声抑制,以增强语音信号的质量。

语音增强是指从带噪声信号中提取出语音信息,它是语音信号处理的一个重要分支,在提高语音质量方面发挥着重要作用。在复杂的声学环境下,单麦克风采集的声音已无法满足日常需求,麦克风阵列融合了语音信号的空时信息,具有灵活的波束控制、较高的空间分辨率、较高的信号增益与较强的抗干扰能力等特点,和单个孤立麦克风相比,麦克风阵列在时频域的基础上增加了一个空间域,对来自空间不同方位的信号进行空时频联合处理。因此,它可以弥补单个孤立的麦克风在噪声处理、声源定位跟踪、语音提取分离等方面存在的不足。

利用麦克风阵列对语音信号进行定位,并对该方向语音进行语音增强,成为智能通信系统中捕捉说话人语音、改善语音质量的重要手段。目前,基于麦克风阵列的语音处理算法己经成为新的研究热点,广泛应用于音视频电话会议系统、人机交互、语音识别以及人工智能等领域。



技术实现要素:

本申请主要解决的技术问题是提供一种基于麦克风阵列的波束形成方法和装置、存储介质,能够提升波束形成的性能。

为解决上述技术问题,本申请实施例采用的一个技术方案是:提供一种基于麦克风阵列的波束形成方法,麦克风阵列包括至少两个麦克风子阵列,每个麦克风子阵列包括多个麦克风,波束形成方法包括:接收语音信号并对语音信号进行预处理;获取语音信号的有效语音段,并估算语音信号的声源空间参数;利用不同的波束形成算法分别对每个麦克风子阵列的每个通道的信号进行波束形成;根据语音信号的声源空间参数选择麦克风阵列中的若干个麦克风对应的输出波束进行输出。

为解决上述技术问题,本申请实施例采用的另一个技术方案是:提供一种基于麦克风阵列的波束形成装置,其特征在于,波束形成装置包括处理器和与处理器电连接的存储器,存储器用于存储计算机程序,处理器用于调用计算机程序以执行上述的波束形成方法。

为解决上述技术问题,本申请实施例采用的又一个技术方案是:提供一种存储介质,该存储介质用于存储计算机程序,计算机程序能够被处理器执行以实现上述的波束形成方法。

本申请实施例通过接收语音信号并对语音信号进行预处理;获取语音信号的有效语音段,并估算语音信号的声源空间参数;利用不同的波束形成算法分别对每个麦克风子阵列的每个通道的信号进行波束形成;根据语音信号的声源空间参数选择麦克风阵列中的若干个麦克风对应的输出波束进行输出,能够提升波束形成的性能。

附图说明

图1是本申请实施例麦克风阵列的分布结构示意图;

图2是本申请实施例麦克风阵列的波束形成方法的流程示意图;

图3是本申请基于麦克风阵列的波束形成装置的硬件结构示意图;

图4是本申请实施例存储介质的示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。可以理解的是,此处所描述的具体实施例仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。

请参阅图1和图2,图1是本申请实施例麦克风阵列的分布结构示意图。图2是本申请实施例麦克风阵列的波束形成方法的流程示意图。

在本实施例中,麦克风阵列10包括至少两个麦克风子阵列,每个麦克风子阵列包括多个麦克风。

可选地,麦克风阵列10包括三个麦克风子阵列,每个麦克风子阵列包括多个沿直线排列且均匀间隔的多个麦克风,三个麦克风子阵列两两平行,三个麦克风子阵列分别为第一麦克风子阵列11、第二麦克风子阵列12、第三麦克风子阵列13,第一麦克风子阵列11中相邻的两个麦克风的间距为第二麦克风子阵列12中相邻的两个麦克风的间距的两倍,第二麦克风子阵列12中相邻的两个麦克风的间距为第三麦克风子阵列13中相邻的麦克风的间距的两倍。

例如,第一麦克风子阵列11中相邻的两个麦克风的间距为4r。第二麦克风子阵列12中相邻的两个麦克风的间距为2r。第三麦克风子阵列13中相邻两个麦克风的间距为r。麦克风阵列10可以为三级嵌套的麦克风阵列。即第一麦克风子阵列11、第二麦克风子阵列12、第三麦克风子阵列13形成三级嵌套的麦克风阵列。将位置重叠的麦克风合并,构成一个嵌套线型麦克风阵列14。

在本实施例中,麦克风阵列的波束形成方法可以包括以下步骤:

步骤s101:接收语音信号并对语音信号进行预处理。

其中,对音频信号进行预处理可包括:对音频信号分帧、加窗、fft(fastfouriertransformation,快速傅里叶变换)中的至少一者。应理解,在其他实施例中,对音频信号进行预处理还可以包括预加重。

通过对语音信号的预处理可以消除由于人类发声器官本身和采集语音信号的设备所带来的混叠、高次谐波失真、高频等等因素,对语音信号质量的影响,尽可能保证后续语音处理得到的信号更均匀、平滑,为信号参数提取提供优质的参数,提高语音处理质量。

步骤s102:获取语音信号的有效语音段,并估算语音信号的声源空间参数。

其中,可以通过端点检测模块进行端点检测从而识别出获取的语音信号中的有效语音段。

对语音信号的端点检测具体可以包括:确定有效语音起始点和终止点,以区分有效语音段和非有效语音段。

在一种实施方式中,语音和噪声的区别可以体现在它们的能量上,语音段的能量比噪声段能量大,语音段的能量是噪声段能量叠加语音声波能量的和。在信噪比比较高时,那么只要计算输入信号的短时能量或短时平均幅度就能够把语音段和噪声背景区分开。

可选地,声源空间参数包括声源方向、声源位置、声源距离、设备的计算能力、声源空间的容积中的至少一者。

可选地,估算语音信号的声源空间参数可以包括:利用声源定位算法估算得到语音信号的声源方向、声源距离、声源位置。

步骤s103:利用不同的波束形成算法分别对每个麦克风子阵列的每个通道的信号进行波束形成。

其中,以麦克风阵列10为例。利用不同的波束形成算法分别对每个麦克风子阵列的每个通道的信号进行波束形成具体可以包括:对第一麦克风子阵列11中每路信号进行四倍降采样,对降采样后的信号进行固定波束形成,然后再进行四倍升采样,得到第一麦克风子阵列11的输出波束;对第二麦克风子阵列12中每路信号进行二倍降采样,对降采样后的信号进行固定波束形成,然后再进行二倍升采样,得到第二麦克风子阵列12的输出波束;对子第三麦克风子阵列13中每路信号进行固定波束形成后输出。固定波束形成为对每路信号进行延时对齐后累加。

其中,二倍升采样是指以固定波束形成时采样率的两倍进行采样,二倍降采样是指以固定波束形成时采样率的二分之一进行采样;四倍升采样是指以固定波束形成时采样率的四倍进行采样,四倍降是指以固定波束形成是采样率的四分之一进行采样。

步骤s104:根据语音信号的声源空间参数选择麦克风阵列中的若干个麦克风对应的输出波束进行输出。

在一种实施方式中,语音信号的声源空间参数选择麦克风阵列中的若干个麦克风对应的输出波束进行输出的步骤,包括:将设备的计算能力与预设能力阈值进行比较,在设备的计算能力低于预设能力阈值时,从麦克风阵列中选择小于预定通道数量的麦克风进行波束形成后的输出。例如,选择小于预定通道数量的麦克风进行波束形成后的输出,这些麦克风可以位于同一麦克风子阵列中,也可以位于不同的麦克风子阵列中,在一种情况下,在设备的计算能力低于预设能力阈值时,选择麦克风阵列10中的一个麦克风子阵列11、12或者13来进行波束的输出。在其他实施方式中,还可以是选择麦克风阵列10中的任意一组麦克风进行波束形成后的输出,只要该组麦克风的数量小于预定数量即可,以使其符合设备的计算能力。

在另一种实施方式中,根据语音信号的声源空间参数选择麦克风阵列中的若干个麦克风对应的输出波束进行输出的步骤,包括:将声源距离与预设距离阈值比较且将声源空间的容积与预设容积比较,在声源距离大于预设距离阈值或者声源空间的容积大于预设容积阈值时,选择相邻麦克风间距大于预设间距阈值的麦克风子阵列进行波束形成后的输出;在声源距离小于预设距离阈值或者声源空间的容积小于预设溶剂阈值时,选择相邻麦克风间距小于预设间距阈值的麦克风子阵列进行波束形成后的输出。

在又一种实施方式中,根据语音信号的声源空间参数选择麦克风阵列中的若干个麦克风对应的输出波束进行输出的步骤,包括:根据声源方向和声源位置选择靠近声源的若干个麦克风构建一组均匀间隔的麦克风子阵列或者非均匀间隔的麦克风子阵列进行波束形成后的输出。

步骤s105:通过声源定位判断是否存在预定方向的噪声干扰,若存在预定方向的噪声干扰,则将多路输出波束通过广义旁瓣消除器后得到一路输出,否则将多路输出波束直接相加后得到一路输出。

其中,在固定波束形成器的基础上再加上广义旁瓣消除器,并对输出波束进行谱减法或后置维纳滤波器处理。

步骤s106:对输出波束进行后置维纳滤波器处理,并对信号进行agc计算,得到最终的语音增强信号。

其中,对信号进行agc计算是指利用自动增益控制算法计算语音信号的增益。

请参阅图3,图3是本申请基于麦克风阵列的波束形成装置的硬件结构示意图,该实施方式中,波束形成装置100包括处理器110和存储器120,处理器110与存储器120电连接(可以为无线电连接或者有线电连接),存储器120用于存储计算机程序,处理器110用于执行该计算机程序以实现上述任一实施例的波束形成方法。

处理器110还可以称为cpu(centralprocessingunit,中央处理单元)。处理器110可以是一种集成电路芯片,具有信号的处理能力。处理器110还可以是通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器110可以是微处理器或者该处理器也可以是任何常规的处理器等。

请参阅图4,图4是本申请实施例存储介质的示意图,该实施方式中,存储介质200存储有计算机程序210,该计算机程序210被执行时能够实现上述任一实施例的波束形成方法。

其中,该程序210可以以软件产品的形式存储在上述存储介质200中,包括若干指令用以使得一个设备或处理器执行本申请各个实施方式方法的全部或部分步骤。

存储介质200是计算机存储器中用于存储某种不连续物理量的媒体。而前述的存储介质200可以为:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序210代码的介质。

在本申请所提供的几个实施方式中,应该理解到,所揭露的方法以及设备,可以通过其它的方式实现。例如,以上所描述的设备实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。

作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外,在本发明各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

本申请实施例通过接收语音信号并对语音信号进行预处理;获取语音信号的有效语音段,并估算语音信号的声源空间参数;利用不同的波束形成算法分别对每个麦克风子阵列的每个通道的信号进行波束形成;根据语音信号的声源空间参数选择麦克风阵列中的若干个麦克风对应的输出波束进行输出,能够提升波束形成的性能。

以上仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1