宽频带背景噪声与语音分离检测系统及方法与流程

文档序号:12128618阅读:469来源:国知局
宽频带背景噪声与语音分离检测系统及方法与流程

本发明涉及信息处理技术及传感信号处理领域,特别是涉及到一种宽频带背景噪声与语音分离检测系统及方法。



背景技术:

人工智能应用领域的一个热点就是语音识别,目前语音识别已经开始在各个领域开始广泛应用。语音检测实现是语音识别系统实时实现的重要部分,其目的是在复杂的实际环境中区分语音段与非语音段,有文献表明,实际应用中识别率较低部分很大程度是由于未对语音进行正确处理,大量的非语音噪声严重影响语音识别系统的准确率,特别是应用环境带有大量噪声的语音识别,正确的语音检测技术可有效地降低系统运算量,缩短系统处理时间,减少移动端发射功率并节省信道资源,提高语音识别准确率,尤其是在复杂背景噪声下,语音识别系统性能的优劣在很大程度上取决于语音检测技术的优劣,因此稳健、精确、实时、自适应性强及鲁棒性好的语音检测技术是每个语音识别系统所必需的。

当前自动语音端点检测的主流方法是依靠时域中短时能量大小,过零率大小,以及频域中频带能量均方差三种方法来检测,具体方法是求出短时能量、过零率或者频带能量均方差,然后与一个经验阈值进行比较,实验证明,这种单独比较短时能量大小或过零率大小的方法对于有噪声的环境适应性不好, 尤其是应用环境会发生变化,同一环境的背景噪声也会发生变化的时候,而频带能量均方差方法对于安静环境适应性不好。

也可以根据时域和频域声音平均能量的变化分别进行语音的检测,最后根据动态估计出的背景噪声大小,选择最优的结果,从而大幅提高语音识别的准确率以及对环境变化的适应性,由于大多数稳态背景噪声的能量集中于低频段,因此这种方法对于多数低频分布的噪声非常有效,而对于物体或动物发出的声音如鸟鸣,汽车喇叭,钢琴及其他乐器弹奏的声音,由于其频带分布较宽,处于同人的语音频带分布范围内, 对于这种类型的噪声采用上述方法则很容易将该类型噪声误判为语音, 区分该类型噪声对于语音检测,语音降噪,语音识别而言都非常重要,也是难点之一。

为解决上述问题,需要发明一种通过对宽频带非语音噪声的频域和时域特性进行大量实验分析及理论研究后提出的宽频带背景噪声与语音分离检测系统及方法。



技术实现要素:

本发明的目的在于克服现有技术中所存在的上述不足,提供一种能大幅提高各类背景噪声的适应性及自动语音检测的准确性的宽频带背景噪声与语音分离检测系统及方法。

为了达到上述目的,本发明提供了如下技术方案。

宽频带背景噪声与语音分离检测系统,其包括:当前帧时频域能量计算电路,与所述当前帧时频域能量计算电路连接的背景噪声计算电路、时域语音检测长短时平均能量比较电路和频域语音检测长短时频域能量比较电路,与所述背景噪声计算电路、时域语音检测长短时平均能量比较电路和频域语音检测长短时频域能量比较电路连接的背景噪声比较电路,与所述时域语音检测长短时平均能量比较电路和频域语音检测长短时频域能量比较电路分别连接的子带能量分布均匀性语音检测电路,与所述子带能量分布均匀性语音检测电路连接的语音帧数统计电路,所述背景噪声计算电路还分别与所述子带能量分布均匀性语音检测电路、语音帧数统计电路、时域语音检测长短时平均能量比较电路和频域语音检测长短时频域能量比较电路连接。

作为本发明的优选方案,所述语音帧数统计电路由时宽滤波器构成,所述时宽滤波器用来统计语音的帧数,所述时宽滤波器的数量大于等于1。

本发明还公开了一种宽频带背景噪声与语音分离检测方法,其包括以下步骤:

步骤一 载入声音数据,所述声音数据按帧处理,所述声音数据是时域内语音数据,所述帧的时间大小可以配置,通常在10毫秒到50毫秒之间;

步骤二 计算时域短时能量和时域长时平均能量,所述时域短时能量是所述时域内语音数据当前帧的能量总和,将多帧所述时域短时能量累加并除以所述时域短时能量的帧数得到所述时域长时平均能量;

步骤三将所述时域内语音数据当前帧进行FFT(快速傅立叶)变换,将所述时域内语音数据当前帧变换成频域内子带语音数据;

步骤四 计算频域短时能量和频域长时平均能量,将所述频域内子带语音数据当前帧人声主要能量分布频率范围子带能量累加得到所述频域短时能量,将多帧所述频域短时能量累加并除以所述频域短时能量的帧数得到所述频域长时平均能量;

步骤五 背景噪声累加计算,将非语音帧的所述时域短时能量送入背景噪声估计单元进行累加,每累加到一定的帧数则输出一个新的所述背景噪声;

步骤六 将所述背景噪声与设定的阈值一进行比较,若大于所述阈值一则进行步骤七,若小于所述阈值一则进行步骤八;

步骤七 进行频域语音检测,是语音则进入步骤九,不是语音则进行步骤五和步骤十一;

步骤八 进行时域语音检测,是语音则进入所述步骤九,不是语音则进行所述步骤五和步骤十一;

步骤九 进行频域子带能量分布均匀性检测,是语音则进入步骤十,不是语音则进行步所述骤五和步骤十一;

步骤十 时宽滤波器统计所述步骤九产生的语音帧数,并与设定的阈值二进行比较,若所述帧数大于所述阈值二则直接进入所述步骤十一,若所述帧数小于所述阈值二则进入所述步骤五和步骤十一;

步骤十一 检测结果输出,检测结束。

作为本发明的优选方案,所述频域语音检测是将所述频域短时能量和频域长时平均能量进行比较,所述频域短时能量超过所述频域长时平均能量一定程度,则为语音,否则为非语音,当判断为非语音时输出结果,检测结束。

作为本发明的优选方案,所述时域语音检测是将所述时域短时能量和时域长时平均能量进行比较,所述时域短时能量超过所述时域长时平均能量一定程度,则为语音,否则为非语音,判断为非语音时输出结果,检测结束。

作为本发明的优选方案,在进行步骤八时,如果检测结果均匀性较高则为语音,如果检测结果均匀性较低则为非语音,判断为非语音时输出结果,检测结束。

作为本发明的优选方案,所述时宽滤波器统计所述声音数据连续为语音的帧数,如果所述帧数大于所述阈值二则为语音,如果所述帧数小于所述阈值二则判断为非语音,判断为非语音时输出结果,检测结束。

作为本发明的优选方案,在运行步骤七至步骤十时,当运行结果判定为非语音时,将所述非语音数据运行步骤五产生新的所述背景噪声。

本发明在检测所述时域内语音数据过程中,使用了三级语音检测,首先使用所述时域语音检测或频域语音检测,其次使用所述频域子带能量分布均匀性检测,最后使用时宽滤波器统计所述步骤八产生的语音帧数,并与设定的阈值二进行比较,逐层进行过滤,最终将真实有效的语音数据筛选出来。

与现有技术相比,本发明的有益效果:

本发明使用三级语音检测手段,对于高低频的背景噪声都有很好的检测效果,同时对于偶然断续行的噪声也有非常好的检测效果,大幅度提高了复杂噪声环境下语音检测的准确性。

附图说明

图1为本发明电路框架图;

图2为本发明流程图。

具体实施方式

下面结合实施例及具体实施方式对本发明作进一步的详细描述,但不应将此理解为本发明上述主体的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。

如图1所示,一种宽频带背景噪声与语音分离检测系统,该系统当前帧时频域能量计算电路,与所述当前帧时频域能量计算电路连接的背景噪声计算电路、时域语音检测长短时平均能量比较电路和频域语音检测长短时频域能量比较电路,与所述背景噪声计算电路、时域语音检测长短时平均能量比较电路和频域语音检测长短时频域能量比较电路连接的背景噪声比较电路,与所述时域语音检测长短时平均能量比较电路和频域语音检测长短时频域能量比较电路分别连接的子带能量分布均匀性语音检测电路,与所述子带能量分布均匀性语音检测电路连接的语音帧数统计电路,所述背景噪声计算电路还分别与所述子带能量分布均匀性语音检测电路、语音帧数统计电路、时域语音检测长短时平均能量比较电路和频域语音检测长短时频域能量比较电路连接,语音帧数统计电路由时宽滤波器构成,时宽滤波器用来统计语音的帧数,在本实施例中时宽滤波器的数量为1个,在本实施例中时宽滤波器是一个语音帧计数器。

如图2所示,一种宽频带背景噪声与语音分离检测方法,其包括以下十一个步骤:

步骤一 载入声音数据,所述声音数据按帧处理,所述声音数据是时域内语音数据,所述帧的时间大小可以配置,通常在10毫秒到50毫秒之间;

步骤二 计算时域短时能量和时域长时平均能量,所述时域短时能量是所述时域内语音数据当前帧的能量总和,将多帧所述时域短时能量累加并除以所述时域短时能量的帧数得到所述时域长时平均能量;

步骤三将所述时域内语音数据当前帧进行FFT(快速傅立叶)变换,将所述时域内语音数据当前帧变换成频域内子带语音数据;

步骤四 计算频域短时能量和频域长时平均能量,将所述频域内子带语音数据当前帧人声主要能量分布频率范围子带能量累加得到所述频域短时能量,将多帧所述频域短时能量累加并除以所述频域短时能量的帧数得到所述频域长时平均能量;

步骤五 背景噪声累加计算,将非语音帧的所述时域短时能量送入背景噪声估计单元进行累加,每累加到一定的帧数则输出一个新的所述背景噪声;

步骤六 将所述背景噪声与设定的阈值一进行比较,若大于所述阈值一则进行步骤七,若小于所述阈值一则进行步骤八;

步骤七 进行频域语音检测,所述频域语音检测是将所述频域短时能量和频域长时平均能量进行比较,所述频域短时能量超过所述频域长时平均能量一定程度,则为语音,否则为非语音,是语音则进入步骤九,不是语音则进行步骤五和步骤十一;

步骤八 进行时域语音检测,所述时域语音检测是将所述时域短时能量和时域长时平均能量进行比较,所述时域短时能量超过所述时域长时平均能量一定程度,则为语音,否则为非语音,是语音则进入所述步骤九,不是语音则进行所述步骤五和步骤十一;

步骤九 进行频域子带能量分布均匀性检测,如果检测结果均匀性较高则为语音,如果检测结果均匀性较低则为非语音,是语音则进入步骤十,不是语音则进行步所述骤五和步骤十一;

步骤十 时宽滤波器统计所述步骤九产生的语音帧数,所述时宽滤波器统计所述声音数据连续为语音的帧数,并与设定的阈值二进行比较,若所述帧数大于所述阈值二则则为语音直接进入所述步骤十一,若所述帧数小于所述阈值二则为非语音进入所述步骤五和步骤十一;

步骤十一 检测结果输出,检测结束。

在运行步骤七至步骤十时,当运行结果判定为非语音时,将所述非语音数据运行步骤五产生新的所述背景噪声。

本实施例中,步骤三的计算过程如下:

假设频域子带数目为N,则平均子带能量为 ,其中Eavg为平均子带能量, Etotal为所有子带能量总和,Ei 为第i子带能量, i = 1,2......N。在频域中,子带能量等于其实部的平方与虚部的平方求和得到。

在本实施例中,步骤九的计算过程如下:

采用均方差方法求非均匀性,设每个子带能量为Ei,则用均方差求非均匀性,公式为 ,其中nU为非均匀性,设阈值Th_nu为非均匀性的阈值,则当nU < Th_nu时,可暂时判为语音,否则为非语音。

在其他实施例中可以用以下两种方式进行计算:

一、采用求差的绝对值和求平均,公式为 ,其中nU为非均匀性, 设阈值Th_nu为非均匀性的阈值,则当nU < Th_nu时,可暂时判为语音,否则为非语音;

二、对子带能量离平均子带能量近的子带进行计数,若较多的子带能量分布在平均能量附近,则为语音,否则为非语音。具体公式如下,若:|Ei-Eavg|<k*Eavg时, U = U + 1,这儿k为一个介于0和1之间的配置参数,典型值可以配置为0.5,U表征为均匀性,设Th_u为阈值,若 U>Th_u, 则判为语音,否则为非语音。

在本实施例中步骤十的详细计算过程如下:

设一个语音帧计数器,该计数器一开始初始为0,遇到非语音帧时清零,遇到语音帧时加1,并将从非语音帧变到语音帧时,将第一个语音帧的序号更新为语音帧起始地址,当该语音帧计数器数值大于一个阈值二时,则从第一个语音帧开始,连续的语音帧都为语音帧,直到非语音帧出现,若从语音帧变到非语音帧时,该语音帧计数器值小于阈值,则此前的语音帧也判为非语音帧。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1