本发明属于计算机视觉中的目标检测,涉及一种目标检测方法、系统及设备,具体涉及一种基于多模态特征提取网络的目标检测方法、系统及设备。可以应用到隧道安全救援等特定情境中。
背景技术:
1、目标检测是计算机视觉中一个具有挑战的领域,其成果已广泛应用到很多领域。
2、目前目标检测算法采用的基本是yolo,yolo系列是单阶目标检测算法的代表之一,单阶目标类型的目标检测算法省略了对候选框的生成,而是根据每个单元格生成许多形状和大小不同的锚框,根据各个锚框的置信度最终确定最适合目标的锚框。但这个过程本身会生成许多额外的锚框,这会降低检测速度并且导致正负样本不均衡。
3、同时,在一些特定情境下,例如隧道封闭时实施救援,同类事故发生较少,能够获取的数据量也较少,这时能够获得的正负样本差距较大,这会导致检测精度下降,不能达到很好效果。
技术实现思路
1、在一些特定情境下,例如隧道封闭时实施救援,同类事故发生较少,能够获取的数据量也较少,不能够保证目标检测算法能够达到可靠的检测精度,此外检测速度进一步提升可以更快的实施精准救援。但这种情况下除了直接拍摄图像外,可以通过一些已有的传感器获取其他模态数据。为了解决这种问题,本发明提出一种基于多模态特征提取网络的目标检测方法、系统及设备。
2、本发明的方法所采用的技术方案是:一种基于多模态特征提取网络的目标检测方法,包括以下步骤:
3、步骤1:获取待检测场景内的多模态数据,包括时间戳相关的图像和其他模态文本数据;所述其他模态文本数据包括温度、湿度和二氧化碳浓度;
4、步骤2:提取其他模态文本数据得到文本语义特征;
5、步骤3:根据文本语义特征,确定可能存在待检测目标范围;
6、步骤4:将待检测目标范围在相同时间戳的图像上生成预选框;
7、步骤5:将生成的预选框输入多模态特征提取网络中,进行特征提取,舍弃偏离预选框的锚框;
8、所述多模态特征提取网络,包括主干特征提取网络、加强特征提取网络和检测头三部分。
9、所述主干特征提取网络,包括五个conv结构和四个c3结构以及一个sppf结构,第一个卷积特征图输入时为分辨率320*320通道数为32,输出时特征图分辨率为160*160通道数为64,以此类推主干特征提取网络中特征图分辨率依次减小,通道数依次增大;c3结构为三个标准卷积由残差结构并联,目的是融合不同特征;sppf结构由池化核为5*5的三个最大池化层串联,目的是融合多尺度的特征;
10、所述加强特征提取网络,包括自顶向下和自底向上的双特征金字塔,共进行了三次上采样和三次下采样,共包括四个conv结果和四个c3结构;第一个特征金字塔每当特征图分别为20*20、40*40时,从主干特征提取网络特征图大小相同的c3结构中获得输出,两者相加进行采样;第二个特征金字塔与第一个特征金字塔类似,但不从主干特征提取网络中获取输出,而是从第一个特征金字塔中获取相同分辨率的特征图作为相加;
11、所述检测头部分,用于根据主干特征提取网络和加强特征提取网络最终获得的特征图在待检测图片上进行比较,找到与特征图相符的目标,并对其划定锚框,从而找到最终待检测目标;
12、步骤6:对生成锚框的目标根据分类准确进行分类,确定目标类别,获得检测结果。
13、本发明的系统所采用的技术方案是:一种基于多模态特征提取网络的目标检测系统,包括以下模块:
14、模块1,用于获取待检测场景内的多模态数据,包括时间戳相关的图像和其他模态文本数据;所述其他模态文本数据包括温度、湿度和二氧化碳浓度;
15、模块2,用于提取其他模态文本数据得到文本语义特征;
16、模块3,用于根据文本语义特征,确定可能存在待检测目标范围;
17、模块4,用于将待检测目标范围在相同时间戳的图像上生成预选框;
18、模块5,用于将生成的预选框输入多模态特征提取网络中,进行特征提取,舍弃偏离预选框的锚框;
19、所述多模态特征提取网络,包括主干特征提取网络、加强特征提取网络和检测头三部分。
20、所述主干特征提取网络,包括五个conv结构和四个c3结构以及一个sppf结构,第一个卷积特征图输入时为分辨率320*320通道数为32,输出时特征图分辨率为160*160通道数为64,以此类推主干特征提取网络中特征图分辨率依次减小,通道数依次增大;c3结构为三个标准卷积由残差结构并联,目的是融合不同特征;sppf结构由池化核为5*5的三个最大池化层串联,目的是融合多尺度的特征;
21、所述加强特征提取网络,包括自顶向下和自底向上的双特征金字塔,共进行了三次上采样和三次下采样,共包括四个conv结果和四个c3结构;第一个特征金字塔每当特征图分别为20*20、40*40时,从主干特征提取网络特征图大小相同的c3结构中获得输出,两者相加进行采样;第二个特征金字塔与第一个特征金字塔类似,但不从主干特征提取网络中获取输出,而是从第一个特征金字塔中获取相同分辨率的特征图作为相加;
22、所述检测头部分,用于根据主干特征提取网络和加强特征提取网络最终获得的特征图在待检测图片上进行比较,找到与特征图相符的目标,并对其划定锚框,从而找到最终待检测目标;
23、模块6,用于对生成锚框的目标根据回归损失函数ciou准确进行分类,确定目标类别,获得检测结果。
24、本发明的设备所采用的技术方案是:一种基于多模态特征提取网络的目标检测设备,包括:
25、一个或多个处理器;
26、存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现所述的基于多模态特征提取网络的目标检测方法。
27、本发明基于隧道救援情况下使用多模态数据,通过传感器获得例如温度、湿度、二氧化碳浓度等多模态数据,将这些数据处理好后,根据例如人体温度等已知科学知识划定预选框范围。将预选框作为一种先验知识和图像一起输入到多模态特征提取网络中,使得多模态特征提取网络只在预选框范围内生成锚框,这可以总体需要生成的锚框大幅减少,这种方法可以达到保护安全和节省人力的情况下更好的辅助目标检测网络找到目标,在确定范围内检测目标可以提升检测精度,而生成更少的锚框也可以提升检测速度。
1.一种基于多模态特征提取网络的目标检测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于多模态特征提取网络的目标检测方法,其特征在于:步骤1中,从t0时刻开始每隔一个固定的时间间隔t,获取多模态数据以及无人机拍摄的图像数据,两种数据在时间戳上一一对应。
3.根据权利要求1所述的基于多模态特征提取网络的目标检测方法,其特征在于:步骤2中,将所述其他模态文本数据输入文本特征提取网络,得到文本特征语义。
4.根据权利要求1所述的基于多模态特征提取网络的目标检测方法,其特征在于:步骤3中,将文本语义特征转化为时间戳对应的图像上的相对位置,并根据像素坐标系保存为相对坐标标签;结合待检测目标范围确定准则确定图像上的待检测区域。
5.根据权利要求1所述的基于多模态特征提取网络的目标检测方法,其特征在于:步骤4中,使用一阶目标检测算法对待检测目标进行检测,忽略中心锚点处在预选框外的锚框,获得精确的锚框。
6.根据权利要求1所述的基于多模态特征提取网络的目标检测方法,其特征在于:步骤6中,所述对生成锚框的目标根据yolov5算法将图片分为13*13个区域,在每个区域生成若干锚框,然后框体间根据回归损失函数ciou计算置信度,最终使用nms非极大抑制方法,提出置信度较小的框体,从而进行分类。
7.根据权利要求1-6任意一项所述的基于多模态特征提取网络的目标检测方法,其特征在于:步骤5中所述多模态特征提取网络,为训练好的多模态特征提取网络;其训练过程包括以下步骤:
8.一种基于多模态特征提取网络的目标检测系统,其特征在于,包括以下模块:
9.一种基于多模态特征提取网络的目标检测设备,其特征在于,包括: