本发明属于生态学与人工智能技术交叉领域,具体涉及一种基于标签层级结构属性关系的鸟类鸣声识别方法。
背景技术:
1、长期运行的基于被动声学监测(pam)的鸟类监测系统将生成大量的记录文件,这些文件需要大量的精力和资源来手动分析。鸟类鸣声自动识别可以显著提高每个记录文件的处理效率,这对于实现鸟类智能监测的目标至关重要。鸟类鸣声自动识别的本质是对音频信号进行分类,类似于声纹识别。近年来,鸟类鸣声自动识别技术已从经典模式识别发展到深度学习,识别性能显著提高。用深度学习解决这类问题的一般方式为,构造一个端到端的神经网络模型,典型工作流程主要分解为以下三个主要步骤:预处理、特征提取和识别。原始录音通过预处理而产生相对干净的鸟叫声。特征提取是提取不同鸟类或个体的区分性特征的过程,可以手工制作(即时域、频域和时频域的计算),也可以从数据结构中自动学习(例如深度卷积神经网络)。识别过程则是将鸟类的发声特征通过分类或聚类得到声音对应的物种或个体。
2、一种理想的鸟类发声自动识别方法应该能够管理嘈杂的野外记录并产生稳健的识别结果,这是确保野生鸟类自动调查和监测成功的一项具有挑战性的任务。现有技术的主要缺陷概述如下:
3、(1)复杂的野外录音环境。在野外录音中,总有环境噪音,如自然环境音(风、雨等)和人造环境音(人为活动声音),这些声音可能会掩盖鸟类的叫声。此外,鸟群中相同或不同种类的鸟类可能会彼此合唱,导致录音中的声音重叠。上述情况使得识别瞬态、部分掩盖或重叠的发声变得困难,导致识别不正确,这对大多数现有的识别方法来说是一个巨大的挑战。
4、(2)巨大的种内发声差异。首先,鸟类拥有自己的发声曲目,其大小和复杂性取决于物种。其次,生活在不同地区的同一物种的鸟类发声可能存在差异。最后,由于发声可能被记录在不同的距离,其振幅、频率会有不同程度的扭曲。所有这些因素都导致了物种内的高度变异,使得学习完全有代表性的特定物种特征变得具有挑战性。
5、(3)有限的人工标注数据。一方面,收集到不同种类的鸣声数据显著不平衡,数据集呈现严重的长尾分布。另一方面,为了防止结果产生偏差,现有的识别方法往往容易过度拟合训练数据,这需要消耗非常大且具有代表性的训练数据集,这些数据集涵盖了野外的自然变异。因此,缺乏全面的、经过专家验证的数据集已成为训练通用且强大的分类器的最基本知识缺口。
6、(4)物种间自然属性关系的生物信息缺失。每种鸟类都隶属于唯一的目、科、属、种。大多数现有的方法忽视了不同鸟类种群之间固有的自然亲缘关系,而这往往隐含大量的生物学信息。例如属于同一科或同一属的鸟类鸣声可能会极其相似。
技术实现思路
1、为解决上述技术问题,本发明提供一种基于标签层级结构属性关系的鸟类鸣声识别方法,从数据、特征、模型三个不同层面对上述技术问题提出相应的解决策略。本发明将物种间的自然层级关系作为先验知识引入分类网络,同时预测对象各层级标签,可以有效地规范特征语义空间;采用场景适应的数据增强方式,以应数据分布不均、不同野外噪音覆盖目标信号等问题。本发明可以大大提升类别预测的准确性并降低分类错误损失。
2、为达到上述目的,本发明采用如下技术方案:
3、一种基于标签层级结构属性关系的鸟类鸣声识别方法,包括如下步骤:
4、步骤1、对每条原始音频进行预处理,所述预处理包括原始音频的信噪分离、预加重、分帧、加窗、离散傅里叶变换,应用梅尔滤波器组进行信号平滑化获得时序信号,并利用差分算子处理所得时序信号,组合为3d频谱图,获得训练鸟类鸣声识别算法模型所需的特征;
5、步骤2、搭建基于层级结构的鸟类鸣声识别算法模型,并利用步骤1获得的特征训练基于层级结构的鸟类鸣声识别算法模型;通过带位置注意力的xception模型增强鸟类鸣声在所有层级粒度的表达能力,并通过层级信息交互模块的设计使位于不同层级粒度的特有特征具有区分性与判别性;采用少数服从多数、底层优先、分数优先的路径矫正策略进行后处理;
6、步骤3、利用所述鸟类鸣声识别算法模型,对外部测试集进行鸟类鸣声识别,针对焦点声音识别与声景识别两种不同应用场景设计不同的模型推理过程,得到识别结果。
7、有益效果:
8、考虑到鸟类声音的种群相似关系,本发明利用鸟类的生态学信息构建了层级关系网,设计了基于层级关系的建模框架,可以对鸟类鸣声进行更细致、更准确的分类。
9、注意力机制有助于突出音频数据中的重要特征,提高模型的整体性能;正交分解和融合模块能够组合不同类型的特征,从而更全面地表示鸟鸣;路径矫正的后处理策略有助于细化结果并减少错误分类的严重程度。
10、最后,本发明提出的一种场景适应的数据增强策略能够有效应对真实场景中的复杂环境噪声以及多样化的种群发声;其中,针对稀有鸟类设计的数据扩充方式能够缓解数据的长尾分布问题,进一步提升识别准确率。
1.一种基于标签层级结构属性关系的鸟类鸣声识别方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种基于标签层级结构属性关系的鸟类鸣声识别方法,其特征在于,所述步骤1包括:
3.根据权利要求2所述的一种基于标签层级结构属性关系的鸟类鸣声识别方法,其特征在于,所述步骤2包括:
4.根据权利要求3所述的一种基于标签层级结构属性关系的鸟类鸣声识别方法,其特征在于,所述步骤3包括: