本发明涉及野外运动车辆目标检测,特别是涉及一种基于卷积循环神经网络的野外运动车辆目标检测方法。
背景技术:
1、根据车辆目标运动过程中采集到的声音信号,对野外经过的运动车辆目标进行检测,其中一种方法是使用卷积神经网络,也就是将声音信号转换为时频图(spectrogram),并沿着时间轴进行多个时刻的运动车辆/非运动车辆的二元分类。通过将时频图输入多层卷积神经网络,可以获取其高维表示,然后对这些高维表示的多个时刻进行二元分类,以确定每个时刻的检测结果。最后,对这些检测结果进行后处理,从而获得一段声音样本的检测结果。
2、上述方法在环境风噪声和突发声音事件较少时,可以得到比较好的检测结果,但当应用于野外环境时,环境风噪声和突发声音事件的特征可能与运动车辆的声音特征相似,导致难以区分,从而降低检测性能。另一方面,传统的卷积网络对声音特征的提取能力还有进一步提高的空间。为了降低环境风噪声和突发声音事件对检测效果的影响,提高野外运动车辆目标检测算法的性能,并减少应用场景的限制,对上述的野外运动车辆检测方法进行改进。
技术实现思路
1、本发明所要解决的技术问题是提供一种基于卷积循环神经网络的野外运动车辆目标检测方法,能够提高野外运动车辆目标检测的抗噪声能力,增强检测结果的稳健性。
2、本发明解决其技术问题所采用的技术方案是:提供一种基于卷积循环神经网络的野外运动车辆目标检测方法,包括以下步骤:
3、接收输入音频;
4、将所述输入音频输送至野外运动车辆目标检测模型,得到野外运动车辆目标检测结果;
5、其中,所述野外运动车辆目标检测模型包括:
6、特征提取部分,用于从所述输入音频中提取出能够有效检测运动车辆的第一特征;
7、卷积处理部分,用于识别出所述第一特征中与检测任务相关的部分,得到包含通道和时频注意信息的第二特征;
8、循环处理部分,用于在时间上对具有前后关联性的第二特征进行时间维度上的建模,提取所述第二特征的时序信息;
9、全连接部分,用于降低维度输出结果。
10、所述特征提取部分包括gcc-phat(generalized cross correlation with phasetransform)提取器和对数梅尔时频图提取器;所述gcc-phat提取器用于从所述输入音频中提取gcc-phat特征作为判断声源移动状态的依据;所述对数梅尔时频图提取器用于从所述输入音频中提取对数梅尔时频图特征;所述gcc-phat特征和对数梅尔时频图特征作为能够有效检测运动车辆的第一特征。
11、所述卷积处理部分包括依次设置的三个非对称卷积块和一个通道时频注意力增强模块;所述非对称卷积块用于对所述输入特征进行卷积处理,得到卷积处理结果;所述通道时频注意力增强模块用于对最后一个非对称卷积块输出的卷积处理结果分别在通道维度和时频平面进行注意力增强,得到包含通道和时频注意信息的第二特征。
12、所述非对称卷积块包括二维卷积核、频率方向卷积核和时间方向卷积核,输入特征分别与所述二维卷积核、频率方向卷积核和时间方向卷积核进行卷积,并将每个卷积结果经过批量归一化和relu激活函数处理,最后对三个处理结果进行求和得到卷积处理结果。
13、所述通道时频注意力增强模块包括通道维度注意力增强单元和时频注意力增强单元,所述通道维度注意力增强单元用于学习通道之间的重要性权重,所述时频注意力增强单元用于学习重要时频位置的权重。
14、所述通道维度注意力增强单元包括全局平均池化层和全局最大池化层;所述全局平均池化层后连接有第一全连接网络,所述全局最大池化层后连接有第二全连接网络,所述第一全连接网络和第二全连接网络共享参数;所述时频注意力增强单元包括二维卷积层;最后一个非对称卷积块输出的卷积处理结果经过所述全局平均池化层和全局最大池化层后得到两个特征向量,两个特征向量分别经过第一全连接网络和第二全连接网络后相加得到通道注意力图;所述通道注意力图对卷积处理结果进行通道加权得到通道校准特征;所述通道校准特征经过所述二维卷积层生成时频注意图,将所述时频注意图应用到所述通道校准特征中得到包含通道和时频注意信息的第二特征。
15、所述循环处理部分由两层双向gru组成。
16、所述全连接部分由两层全连接层组成。
17、有益效果
18、由于采用了上述的技术方案,本发明与现有技术相比,具有以下的优点和积极效果:本发明通过改进输入特征选取和网络架构设计来提高目标检测精度。其中,使用结合对数梅尔时频图和gcc-phat的输入特征,能够有效区分运动车辆目标和其他声音。循环层的引入实现了前后时间特征的关联,而非对称卷积块和通道时频注意力增强模块则增强了网络对特征的提取能力,因此本发明提出的野外运动车辆目标检测方法,可以提高识别准确率,同时具备更高的稳健性,更适用于野外环境中的运动车辆目标检测。
1.一种基于卷积循环神经网络的野外运动车辆目标检测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于卷积循环神经网络的野外运动车辆目标检测方法,其特征在于,所述特征提取部分包括gcc-phat提取器和对数梅尔时频图提取器;所述gcc-phat提取器用于从所述输入音频中提取gcc-phat特征作为判断声源移动状态的依据;所述对数梅尔时频图提取器用于从所述输入音频中提取对数梅尔时频图特征;所述gcc-phat特征和对数梅尔时频图特征作为能够有效检测运动车辆的第一特征。
3.根据权利要求1所述的基于卷积循环神经网络的野外运动车辆目标检测方法,其特征在于,所述卷积处理部分包括依次设置的三个非对称卷积块和一个通道时频注意力增强模块;所述非对称卷积块用于对所述输入特征进行卷积处理,得到卷积处理结果;所述通道时频注意力增强模块用于对最后一个非对称卷积块输出的卷积处理结果分别在通道维度和时频平面进行注意力增强,得到包含通道和时频注意信息的第二特征。
4.根据权利要求3所述的基于卷积循环神经网络的野外运动车辆目标检测方法,其特征在于,所述非对称卷积块包括二维卷积核、频率方向卷积核和时间方向卷积核,输入特征分别与所述二维卷积核、频率方向卷积核和时间方向卷积核进行卷积,并将每个卷积结果经过批量归一化和relu激活函数处理,最后对三个处理结果进行求和得到卷积处理结果。
5.根据权利要求3所述的基于卷积循环神经网络的野外运动车辆目标检测方法,其特征在于,所述通道时频注意力增强模块包括通道维度注意力增强单元和时频注意力增强单元,所述通道维度注意力增强单元用于学习通道之间的重要性权重,所述时频注意力增强单元用于学习重要时频位置的权重。
6.根据权利要求5所述的基于卷积循环神经网络的野外运动车辆目标检测方法,其特征在于,所述通道维度注意力增强单元包括全局平均池化层和全局最大池化层;所述全局平均池化层后连接有第一全连接网络,所述全局最大池化层后连接有第二全连接网络,所述第一全连接网络和第二全连接网络共享参数;所述时频注意力增强单元包括二维卷积层;最后一个非对称卷积块输出的卷积处理结果经过所述全局平均池化层和全局最大池化层后得到两个特征向量,两个特征向量分别经过第一全连接网络和第二全连接网络后相加得到通道注意力图;所述通道注意力图对卷积处理结果进行通道加权得到通道校准特征;所述通道校准特征经过所述二维卷积层生成时频注意图,将所述时频注意图应用到所述通道校准特征中得到包含通道和时频注意信息的第二特征。
7.根据权利要求1所述的基于卷积循环神经网络的野外运动车辆目标检测方法,其特征在于,所述循环处理部分由两层双向gru组成。
8.根据权利要求1所述的基于卷积循环神经网络的野外运动车辆目标检测方法,其特征在于,所述全连接部分由两层全连接层组成。