一种基于谱减与自适应子带对数能熵积的语音检测方法

文档序号：30183986发布日期：2022-05-26 16:45阅读：来源：国知局

技术特征：
1.一种基于谱减与自适应子带对数能熵积的语音检测方法，其特征在于包括如下步骤：步骤1：对带噪语音信号首先进行预处理，包括分帧，归一化以及预加重，同时设置一个频率门限，仅保留频率在100hz～3500hz范围内的部分；步骤2：使用自适应参数的多窗谱估计谱减法对预处理后带噪语音信号进行降噪处理，得到增强语音信号；步骤3：计算获得增强语音信号的子带能量；步骤4：通过子带能量计算获得每帧信号的归一化最小带能量参数；步骤5：根据改进后的有效子带个数与归一化最小带能量参数的关系计算出对应信号帧的有效子带个数；步骤6：根据每帧信号的有效子带个数，计算增强语音信号的自适应子带对数能量和自适应子带谱熵；步骤7：根据步骤6中计算得到的自适应子带对数能量和自适应子带谱熵，计算获得待测增强语音信号的自适应子带对数能熵积，并将自适应子带对数能熵积进行中值平滑处理；步骤8：设定动态阈值门限，以经过中值平滑处理后的自适应子带对数能熵积作为检测特征参数，使用单参数动态阈值的双门限检测方法进行语音检测；步骤9：最后利用检测得到的语音端点信息划分原始语音信号，输出检测完成的各个语音片段。2.根据权利要求1所述的基于谱减与自适应子带对数能熵积的语音检测方法，其特征在于上述步骤s1的具体过程为：令噪声为加性噪声，对于第i帧带噪信号y
i
(m)首先求出其平均幅度谱(m)首先求出其平均幅度谱其中，平均幅度谱表示以第i帧信号为中心前后各取j帧，这里前后帧数设置为m即总共2m+1帧进行平滑求平均。然后对信号y
i
(m)进行多窗谱估计，求得其多窗谱功率谱为：p(k,i)＝pmtm[y
i
(m)]式中，pmtm多窗谱估计函数，i和k分别表示第i帧信号和第k条谱线；使用计算信号平均幅度谱的方法求得信号y
i
(m)的平均多窗谱功率谱为：通过平均多窗谱功率谱计算得到多窗谱估计的谱减增益值g(k,i)为：
式中，n表示帧长，y
i
(k)为第i帧信号的幅度谱，而为前nis帧无话语音段的幅度谱的均值；表示噪声的平均多窗谱功率谱，即通过选取前nis帧信号求其平均获得；α和β分别为过减因子以及增益补偿因子。3.根据权利要求2所述的基于谱减与自适应子带对数能熵积的语音检测方法，其特征在于上述步骤s2的具体过程为：通过多窗谱估计的谱减增益值g(k,i)计算谱减后的幅度谱并结合原始信号相位谱θ
i
(k)重构得到增强信号(k)重构得到增强信号4.根据权利要求3所述的基于谱减与自适应子带对数能熵积的语音检测方法，其特征在于上述步骤s3的具体过程为：设将长度为n的第i帧的信号划分为n
b
个子带，每个子带长度为n，计算出第i帧信号的第m个子带的子带能量为e
b
(i,m)：5.根据权利要求4所述的基于谱减与自适应子带对数能熵积的语音检测方法，其特征在于上述步骤s4的具体过程为：根据子带能量为e
b
(i,m)，求出第i帧信号的归一化最小带能量参数nminbe(i)：6.根据权利要求5所述的基于谱减与自适应子带对数能熵积的语音检测方法，其特征
在于上述步骤s5的具体过程为：计算得出第i帧信号的有效子带个数nub(i)：7.根据权利要求6所述的基于谱减与自适应子带对数能熵积的语音检测方法，其特征在于上述步骤s6的具体过程为：第i帧信号第m个子带的自适应子带归一化谱概率密度定义为第m个子带的功率谱与第i帧所有有效子带功率谱之和的比值，即为：根据计算得到的子带能量为e
b
(i,m)和自适应子带归一化谱概率密度p
b
(i,m)，计算得到自适应子带对数能量和自适应子带谱熵：到自适应子带对数能量和自适应子带谱熵：8.根据权利要求7所述的基于谱减与自适应子带对数能熵积的语音检测方法，其特征在于上述步骤s7的具体过程为：计算得到待测增强语音信号的自适应子带对数能熵积leh
b
(i)：9.根据权利要求8所述的基于谱减与自适应子带对数能熵积的语音检测方法，其特征在于上述步骤s8的具体过程为：设置单参数的动态阈值双门限，首先将两个初始阈值门限t1、t2分别定义为：分别定义为：式中，max(leh
b
)表示待测语音信号自适应子带对数能熵积的最大值，leh
b
(nis)为前nis帧噪声段的平均自适子带对数能熵积，δ为前nis帧信号自适应子带对数能熵积的标准差，p为常数，a和b分别为上下限系数，决定检测门限的高低，而p为标准差的权重因子，决定标准差对于阈值门限的影响程度；
根据每帧信号的实时修正信噪比的大小，自适应的调整上下限系数a和b的取值，使其能够随着信噪比的变化而调整门限高低，将具体的上下限系数a和b的取值定义如下：式中，snr(i)表示第i帧信号的实时修正信噪比。10.根据权利要求9所述的基于谱减与自适应子带对数能熵积的语音检测方法，其特征在于上述步骤s9的具体过程为：在初始阈值门限t1、t2的基础上加入每帧信号的语音检测特征参数值进行更新，于是最终动态阈值门限定义为：式中，leh
b
(i)为第i帧信号的自适应子带对数能熵积，c为常数，表示阈值动态更新系数，其取值大小将影响阈值门随语音信号变化的更新率。

技术总结
一种基于谱减与自适应子带对数能熵积的语音检测方法，对带噪语音信号首先进行预处理，仅保留频率在100Hz～3500Hz范围内的部分；使用自适应参数的多窗谱估计谱减法对预处理后带噪语音信号进行降噪处理，得到增强语音信号；进一步得到子带能量、归一化最小带能量参数，从而计算出对应信号帧的有效子带个数；得到自适应子带对数能量和自适应子带谱熵；设定动态阈值门限，使用单参数动态阈值的双门限检测方法进行语音检测；输出检测完成的各个语音片段。解决了现有技术在低信噪比环境下语音检测准确率低、鲁棒性差的问题，能够满足实时语音检测需求，针对不同类型噪声环境，保证语音检测工作的稳定性。检测工作的稳定性。检测工作的稳定性。

技术研发人员：张洪德李晓毅韩鑫怡栗铁桩吴尚峰刘学薛元元高仙
受保护的技术使用者：中国人民解放军陆军工程大学
技术研发日：2021.12.31
技术公布日：2022/5/25

完整全部详细技术资料下载

当前第2页1 2