复杂环境下基于自适应能量检测的鸟鸣识别方法

文档序号：2826317阅读：418来源：国知局

复杂环境下基于自适应能量检测的鸟鸣识别方法
【专利摘要】本发明涉及一种复杂环境下基于自适应能量检测的鸟鸣识别方法，其特征在于包括以下步骤：步骤1，根据鸟叫声频率分布情况将声音分成三个频带；步骤2，对包含有噪声的鸟鸣声音信号用基于噪声功率谱估计和前景声音存在概率的自适应能量检测方法检测并筛选出有用鸟鸣信号；步骤3，根据Mel尺度的分布，对有用鸟鸣信号提取Mel尺度的小波包分解子带倒谱系数（WPSCC）特征；步骤4，用支持向量机（SVM）分类器分别对提取的Mel尺度的小波包分解子带倒谱系数（WPSCC）和麦尔频率倒谱系数（MFCC）特征进行建模分类识别。通过该方法提取的WPSCC特征具有较好的抗噪功能，且经过自适应能量检测后的识别性能更佳，更适用于复杂环境下的鸟鸣识别，对复杂环境下含噪鸟鸣声音具有较好的分类识别效果。
【专利说明】复杂环境下基于自适应能量检测的鸟鸣识别方法
【技术领域】
[0001]本发明涉及鸟鸣识别【技术领域】，特别是一种复杂环境下基于自适应能量检测的鸟鸣识别方法。
【背景技术】
[0002]复杂生态环境中的鸟类能发出各种多样的鸣叫声，其声音蕴含着与人类生存环境息息相关的丰富信息。人们可以通过检测、分析和识别鸟鸣声音来获取相关鸟类信息，了解鸟类物种种群的数量、种类以及生活习性，对鸟类进行监控和保护，从而对周围的生态环境或居住环境进行评估与预测。
[0003]随着科技的日渐发展，鸟类声音的分类识别技术已经取得了不少的研究成果。文献[I]用正弦曲线对连续鸟叫声的音节进行建模，进而用得到的参数对大量鸟叫声进行分类识别。文献[2]把声音信号表征成码书帧柱状图，用由贝叶斯风险最小化导出的最大后验概率(Maximum A-Posteriori, MAP)和基于统计流形的Kullback-Leibler散度规则的最近邻分类器来对大量鸟叫声进行识别。文献[3]提出了基于音节分割的鸟叫声分类识别方法，比对了正弦曲线模型特征、麦尔频率倒谱系数(Mel-Frequency CepstrumCoefficient, MFCC)和基音时频特征三种特征，分析了动态时间规整(Dynamic TimeWarping, DTW)、高斯混合模型(Gaussian Mixture Model, GMM)和隐马尔科夫模型(HiddenMarkov Model, , HMM)三种分类器对鸟叫声自动识别的适用性及有效性。考虑到噪声的影响，研究者也探索了噪声中的鸟叫声识别方法。文献[4]通过降噪分段后提取小波包分解(Wavelet Packet Decomposition, WPD)的小波系数特征,最后用无监督自组织映射(Self-Organizing Map, S0M)和监督多层感知(Mult1-Layer Perceptron, MLP)两种神经网络分类器来对不和谐的瞬时鸟叫声进行分类识别。文献[5]在多种鸟声重叠和存在自然噪声的情况下，对两种濒临灭绝的鸟类进行声音检测，用噪声估计和谱减法去噪，根据鸟叫声监视鸟类种群。文献[6]利用谐音特点提取基于音调的特征，用GMM进行建模，分别在白噪声和真实噪声环境下对95种鸟类的165段谐音鸟叫声音节进行自动检测和分类识别。
[0004]考虑到复杂生态环境中的鸟鸣不可避免地会参杂背景噪声，许多研究者使用去噪方法来排除噪声干扰，但这又会使得鸟鸣声音失真或者残留音乐噪声，影响鸟鸣声音分类识别性能。由此想到先从噪声中检测出有用鸟鸣声音信号，再对其进行分类识别，这样可以提高效率和性能。而传统的端点检测方法，比如短时能量和过零率的双门限方法，在无噪声情况下效果较好，但是在复杂的噪声环境中，其效果不够理想。由此引入能量检测方法，但是传统的能量检测方法需要噪声的先验知识，且没有针对性。

【发明内容】

[0005]本发明的目的是提供一种复杂环境下基于自适应能量检测的鸟鸣识别方法，通过该方法提取的WPSCC特征具有较好的抗噪功能，且经过自适应能量检测后的识别性能更佳，更适用于复杂环境下的鸟鸣识别，对复杂环境下含噪鸟鸣声音具有较好的分类识别效果O
[0006]本发明采用以下方案实现:一种复杂环境下基于自适应能量检测的鸟鸣识别方法，其特征在于包括以下步骤:
[0007]步骤1，根据鸟叫声频率分布情况将声音分成三个频带；
[0008]步骤2，对包含有噪声的鸟鸣声音信号用基于噪声功率谱估计和前景声音存在概率的自适应能量检测方法检测并筛选出有用鸟鸣信号；
[0009]步骤3，根据Mel尺度的分布，对有用鸟鸣信号提取Mel尺度的小波包分解子带倒谱系数(WPSCC)特征；
[0010]步骤4，用支持向量机(SVM)分类器分别对提取的Mel尺度的小波包分解子带倒谱系数(WPSCC)和麦尔频率倒谱系数(MFCC)特征进行建模分类识别。
[0011]本发明在传统能量检测的基础上提出改进的自适应能量检测方法，利用噪声功率谱估计出噪声方差和前景声音存在概率，从而导出检测阈值，构成自适应能量检测，对含噪鸟叫声进行检测，滤除纯粹是噪声信号的成分，仅保留含有鸟叫声信号的部分，为后续的分类识别节省开销，提高效率。为了更好地分类识别鸟鸣声音，提高效率和性能，针对来自不同未知环境声源的鸟鸣声，本发明使用自适应能量检测的方法从复杂噪声中检测出鸟鸣声，在保证声音完整性的情况下滤去无用声音信息帧。在此基础上，根据人耳听觉感知特性，对检测筛选出的声音信号帧提取基于Mel尺度的小波包分解子带倒谱系数(WaveletPacket decomposition Subband Cepstral Coefficient, WPSCC)抗噪特征。与其他分类器相比，支持向量机(Support Vector Machine, SVM)的效率和识别率较高，其建立的模型具有较好的“鲁棒”性，因此本发明选择它作为分类器来对鸟鸣声音进行分类识别。通过15类鸟鸣声音的实验表明，本发明提出的自适应能量检测后提取WPSCC抗噪特征并结合SVM的分类识别方法，对复杂环境下含噪鸟鸣声音具有较好的分类识别效果。
【专利附图】

【附图说明】
[0012]图1是传统能量检测原理示意图。
[0013]图2是自适应能量检测流程。
[0014]图3是Mel尺度小波包分解示意图。
[0015]图4是WPSCC特征提取流程示意图。
[0016]图5a是高斯白噪声环境下的鸟鸣识别率。
[0017]图5b是流水噪声环境下的鸟鸣识别率。
[0018]图5c是汽车噪声环境下WPSCC的鸟鸣识别率。
【具体实施方式】
[0019]下面结合附图及实施例对本发明做进一步说明。
[0020]首先，为了让一般技术人员更好的理解本发明，这里介绍传统能量检测方法。能量检测[7]技术多用于认知无线电中的频谱感知检测，该方法通过比较在特定时间内的信号能量与预先设置的判决门限做出是否存在有用信号的判决，无需预先知道未知信号的任何先验知识，本发明利用此技术来检测噪声环境下的有用鸟鸣声音信号，过滤噪声帧，其检测原理如图1所示。[0021]本发明中的噪声信号为加性噪声，整个检测过程可视为如下二元检验假设模型问
题[8]:
[0022]
【权利要求】
1.一种复杂环境下基于自适应能量检测的鸟鸣识别方法，其特征在于包括以下步骤: 步骤1，根据鸟叫声频率分布情况将声音分成三个频带；步骤2，对包含有噪声的鸟鸣声音信号用基于噪声功率谱估计和前景声音存在概率的自适应能量检测方法检测并筛选出有用鸟鸣信号；步骤3，根据Mel尺度的分布，对有用鸟鸣信号提取Mel尺度的小波包分解子带倒谱系数(WPSCC)特征；步骤4，用支持向量机(SVM)分类器分别对提取的Mel尺度的小波包分解子带倒谱系数(WPSCC)和麦尔频率倒谱系数(MFCC)特征进行建模分类识别。
2.根据权利要求1所述的复杂环境下基于自适应能量检测的鸟鸣识别方法，其特征在于:所述步骤I中，将声音信号的功率谱频率分成三个无重叠的线性频带，其定义如下:
3.根据权利要求2所述的复杂环境下基于自适应能量检测的鸟鸣识别方法，其特征在于:所述步骤2中，对包含有噪声的鸟鸣声音信号用基于噪声功率谱估计，以推出自适应能量检测判决所用的估计的噪声方差；具体实现步骤如下: (1)计算带噪声音的平滑功率谱；假设观察声音信号是Y(n)由纯净前景声音信号S(n)和加性背景噪声W(n)两部分构成，且其经过分帧、加窗、傅里叶变换后得到短时幅度谱Y(f，k):
4.根据权利要求2所述的复杂环境下基于自适应能量检测的鸟鸣识别方法，其特征在于：所述步骤2中，前景声音存在概率的自适应能量检测方法推导出具有针对性的自适应能量检测阈值，计算方式如下：第i频带第f帧的前景声音存在概率Pi (f，k)由公式（15) (16) (17)推导变为(22)；
5.根据权利要求2所述的复杂环境下基于自适应能量检测的鸟鸣识别方法，其特征在于:所述步骤3的实现方式为: 1)使用Mel尺度小波包变换分解代替傅立叶变换；对声音信号进行6层小波包分解，从64个小波包分解的子频带中选取24个子带,求出每一个子带的小波包分解系数WP (i, j),其中i=l，2,...,1为子频带索引，L = 24为子频带总数，j=l, 2，...，Ni为小波系数索弓丨，Ni为第i频带的小波系数总数； 2)计算每个子频带i的总能量
【文档编号】G10L17/02GK103489446SQ201310470092
【公开日】2014年1月1日申请日期:2013年10月10日优先权日:2013年10月10日
【发明者】李应, 张小霞申请人:福州大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李应;张小霞
技术所有人：福州大学
我是此专利的发明人

上一篇：语音识别方法、装置及系统的制作方法
上一篇：用于降低共享媒体会话中的噪声的方法和系统的制作方法