基于相似度对比的目标检测方法及其装置

文档序号：33017893发布日期：2023-01-20 17:51阅读：46来源：国知局

1.本发明属于图片处理技术领域，具体涉及一种基于相似度对比的目标检测方法及其装置。

背景技术：

2.目标检测是机器视觉领域的基础任务之一，目标检测中的主要目的是确定目标图片中是否存在目标对象，如果存在就返回目标所在的类以及其定位区域。给定一张待检测的目标图作为算法的输入，然后在目标图上进行候选框的选取，选择可能存在的感兴趣区域，再对这些感兴趣区域进行特征的提取，最后训练一个分类器对感兴趣区域的特征进行计算，从而判断是否包含目标和类别，经过最终的区域合并后对目标检测的结果进行输出。
3.现有技术中，采用滑动窗口的方法来提取候选框，以进行目标检测；其中，滑动窗口的原理是使用了暴力穷举的方法，将所有可能的候选区域框出来，送入网络进行识别；采用该方法在滑动步幅较大的情况下会产生信息丢失，步幅较小的情况下又会产生大量的冗余框，且由于图片中物体的目标大小长短各不相同，使用统一尺寸的窗口进行选取，会存在框不住或者框出的区域非目标区域较多等问题，造成后期分类错误等问题，设计多种尺寸的窗口，又会造成大量的计算，导致运行速度较慢，方法的复杂度较高。
4.因此，亟需改善现有技术的缺陷，提高目标检测的效率。

技术实现要素：

5.为了解决现有技术中存在的上述问题，本发明提供了一种基于相似度对比的目标检测方法及其装置。
6.本发明要解决的技术问题通过以下技术方案实现：
7.第一方面，本技术提供一种基于相似度对比的目标检测方法，包括：
8.基于目标图片样本，生成候选框；目标图片样本包括待检测目标；
9.基于候选框，进行目标特征提取，构建待选特征数据库；
10.基于已有的图片样本，进行目标特征提取，构建标准特征数据库；
11.从待选特征数据库中，获取置信度最高的候选框，将该候选框与标准特征数据库进行相似度对比，得到分数最高的标准特征数据库图片，并记录其类别信息；
12.将分数最高的标准特征数据库图片与待选特征数据库进行相似度对比，得到分数最高的待选特征数据库图片，并记录其位置信息；
13.将分数最高的标准特征数据库图片的类别信息和分数最高的待选特征数据库图片的位置信息映射到目标图片样本，得到待检测目标的检测结果。
14.可选地，还包括：对标准特征数据库进行扩充；
15.对标准特征数据库进行扩充包括图像检索模块和图像入库模块。
16.可选地，图像检索模块包括：
17.将候选框的目标特征与标准特征数据库中的特征逐一进行相似度对比，得到候选
框对应类别的分数；
18.图像入库模块包括：
19.对候选框对应类别的分数进行筛选，将满足第一条件的候选框放入所述标准特征数据库，以扩充所述标准特征数据库。
20.可选地，第一条件为候选框对应类别的分数在0.6～0.7之间。
21.可选地，采用msnr特征提取网络进行目标特征提取。
22.可选地，msnr特征提取网络包括第一模块、第二模块和第三模块；其中，第二模块和第三模块的结构相同。
23.可选地，第一模块包括依次级联的卷积层、最大池化层和残差收缩模块。
24.可选地，第二模块包括依次级联的卷积层、第一池化层、第二池化层、残差收缩模块和特征增强模块；
25.其中，特征增强模块包括多尺度卷积核模块和注意力机制降噪模块。
26.第二方面，本技术还提供一种基于相似度对比的目标检测装置，包括：
27.生成模块，用于基于目标图片样本，生成候选框；目标图片样本包括待检测目标；
28.待选特征数据库提取模块，用于基于候选框，进行目标特征提取，构建待选特征数据库；
29.标准特征数据库提取模块，用于基于已有的图片样本，进行目标特征提取，构建标准特征数据库；
30.第一相似度对比模块，用于从待选特征数据库中，获取置信度最高的候选框，将该候选框与标准特征数据库进行相似度对比，得到分数最高的标准特征数据库图片，并记录其类别信息；
31.第二相似度对比模块，用于将分数最高的标准特征数据库图片与待选特征数据库进行相似度对比，得到分数最高的待选特征数据库图片，并记录其位置信息；
32.结果获取模块，用于将分数最高的标准特征数据库图片的类别信息和分数最高的待选特征数据库图片的位置信息映射到所述目标图片样本，得到待检测目标的检测结果。
33.本发明的有益效果：
34.本发明提供的一种基于相似度对比的目标检测方法及其装置，基于目标图片样本，产生多个候选框，对获取的候选框通过msnr特征提取网络进行目标特征提取，对已有的图片样本通过msnr特征提取网络进行目标特征提取；将对候选框提取的图像特征、相应的位置信息以及置信度信息进行保存，作为待选特征数据库，将已有的图片样本提取的图像特征和相应的类别信息进行保存，作为标准特征数据库；从待选特征数据库中，获取置信度最高的候选框，将该候选框与标准特征数据库进行相似度对比，得到分数最高的标准特征数据库图片，并记录其类别信息；将分数最高的标准特征数据库图片与待选特征数据库进行相似度对比，得到分数最高的待选特征数据库图片，并记录其位置信息，本实施例中采用相似度对比进行目标检测，能够解决目标检测中的长尾问题，解决现有技术中目标检测样本不平衡的问题，即对于训练样本较多的类别检测效果更好，对于训练样本少的类别准确度更高；将上述分别获取的位置信息和类别信息映射到目标图片样本，得到检测结果；如此，可以纠正对候选框错误类别的判断，增加对小样本目标的召回率，减少因置信度阈值降低、iou阈值提高所产生的大量的重复低质量候选目标框，能够有效减少对于中小目标的漏
检率，提高目标定位的准确率，综合提高目标检测的效果。
35.以下将结合附图及实施例对本发明做进一步详细说明。
附图说明
36.图1是本发明实施例提供的一种基于相似度对比的目标检测方法的一种流程图；
37.图2是本发明实施例提供的一种基于相似度对比的目标检测方法的另一种流程图；
38.图3是本发明实施例提供的对标准特征数据库进行扩充的一种流程图；
39.图4是本发明实施例提供的msnr特征提取网络的一种结构示意图；
40.图5是本发明实施例提供的fem模块的一种结构示意图；
41.图6是本发明实施例提供的多尺度卷积核模块的一种结构示意图；
42.图7是本发明实施例提供的注意力机制降噪模块的一种结构示意图；
43.图8是本发明实施例提供的基于相似度对比的目标检测装置的一种结构示意图。
具体实施方式
44.下面结合具体实施例对本发明做进一步详细的描述，但本发明的实施方式不限于此。
45.目标检索技术主要包括基于文本和基于内容，其中，基于文本的目标检索主要通过对图像的文本描述，如图片名称、作者、年代和风格等信息进行图像检索，需要对数据进行额外的信息标注，如此，超级消耗人力资源和物力资源；基于内容的图像检索则不需要进行额外的标注，根据图像本身的特征进行比对，仅仅通过输入待检测目标图片，就能够查找出类似的同类目标图片。
46.基于内容的图像检索(content-based image retrieval，cbir)，始于19世纪90年代，是图像检索领域的一个重要研究方向。主要是通过输入相关图像进行搜索，系统通过提取待检索目标图片的特征，计算其与标准数据库中特征之间的类似程度，最后输出特征数据库中与待检索目标图像最具有相似性内容的图像，后期随着人们需求的不断提高，检索结果中不仅要包含目标图片还要包含目标在图像中的坐标信息，以用来实现精准定位。
47.目前基于内容的目标检测存在的问题包括：图像中的低信噪比问题，图像中目标占比较小，背景比较杂乱的情况下，直接使用深度学习网络提取卷积特征进行检测效果并不理想，存在漏检率高的问题；并且低信噪比的图像直接拿整张图片进行检索是不可行的；外界环境干扰问题，在小目标居多且目标存在遮挡、模糊、目标不完整的情况下，这些问题的存在使得特征提取网络从图像中提取出的有效信息量被大幅削减，严重影响目标检测算法效果；类别不均衡，在使用传统目标检测方法进行检测时，对于训练时样本较多的类别检测效果更好，但对于在训练时样本较少的类别检测效果较差，即长尾问题。
48.有鉴于此，本技术提供一种基于相似度对比的目标检测方法，设计了动态候选框提取方法，构建了针对相似度对比的msnr特征提取网络，能够有效减少对于中小目标的漏检率，提高目标定位的准确率，综合提高目标检测的效果。
49.请参见图1和图2所示，图1是本发明实施例提供的一种基于相似度对比的目标检测方法的一种流程图，图2是本发明实施例提供的一种基于相似度对比的目标检测方法的
另一种流程图，本技术所提供的一种基于相似度对比的目标检测方法，包括：
50.s101、基于目标图片样本，生成候选框；目标图片样本包括待检测目标；
51.s102、基于候选框，进行目标特征提取，构建待选特征数据库；
52.s103、基于已有的图片样本，进行目标特征提取，构建标准特征数据库；
53.s104、从待选特征数据库中，获取置信度最高的候选框，将该候选框与标准特征数据库进行相似度对比，得到分数最高的标准特征数据库图片，并记录其类别信息；
54.s105、将分数最高的标准特征数据库图片与待选特征数据库进行相似度对比，得到分数最高的待选特征数据库图片，并记录其位置信息；
55.s106、将分数最高的标准特征数据库图片的类别信息和分数最高的待选特征数据库图片的位置信息映射到目标图片样本，得到待检测目标的检测结果。
56.具体而言，请继续参见图1和图2所示，本实施例中，基于目标图片样本，使用yolov3或者其他传统目标检测方法，将置信度阈值继续减小到0.001，iou阈值升高到0.99，在避免漏检的基础上，产生多个候选框，对获取的候选框通过msnr特征提取网络进行目标特征提取，对已有的图片样本通过msnr特征提取网络进行目标特征提取；对候选框提取的图像特征、相应的位置信息以及置信度信息进行保存，作为待选特征数据库，将已有的图片样本提取的图像特征和相应的类别信息进行保存，作为标准特征数据库；从待选特征数据库中，获取置信度最高的候选框，将该候选框与标准特征数据库进行相似度对比，得到分数最高的标准特征数据库图片，并记录其类别信息；将分数最高的标准特征数据库图片与待选特征数据库进行相似度对比，得到分数最高的待选特征数据库图片，并记录其位置信息，本实施例中采用相似度对比进行目标检测，能够解决目标检测中的长尾问题，解决现有技术中目标检测样本不平衡的问题，即对于训练样本较多的类别检测效果更好，对于训练样本少的类别准确度更高；将上述分别获取的位置信息和类别信息映射到目标图片样本，得到检测结果；如此，可以纠正对候选框错误类别的判断，增加对小样本目标的召回率，减少因置信度阈值降低、iou阈值提高所产生的大量的重复低质量候选目标框，能够有效减少对于中小目标的漏检率，提高目标定位的准确率，综合提高目标检测的效果。
57.需要说明的是，本实施例通过动态提取候选框，提高了目标的检出率，降低了目标检测的漏检率；可选地，漏检率降低了5％，map相较于使用传统方法提高了4个百分点，从0.84提高到0.88，其中，小样本类别提高了15个百分点，从0.62提高到0.77，有效地解决了目标进程中的类别不均衡问题。
58.可选地，在进行相似度对比时，可以采用resnet、vgg或densenet等网络。
59.可选地，在获取候选框时，可以采用rpn或滑动窗口等。
60.可选地，在筛选候选框时，可以不使用相似度对比的方式计算候选框分数，也可以使用分类模型，对候选框进行分类获取置信度。
61.请参见图3所示，图3是本发明实施例提供的对标准特征数据库进行扩充的一种流程图，在本技术的一种可选地实施例中，还包括：对标准特征数据库进行扩充；
62.对标准特征数据库进行扩充包括图像检索模块和图像入库模块。
63.具体而言，请继续参见图3所示，本实施例中，基于闭环的目标扩充，实现对标准特征数据库进行扩充，如此，随着标准数据库的不断扩充，实现检测精度的提高，对于少量训练样本的数据可以及时补充，并且可以更加高效的利用小样本特征。
64.请继续参见图3所示，在本技术的一种可选地实施例中，图像检索模块包括：
65.将候选框的目标特征与标准特征数据库中的特征逐一进行相似度对比，得到候选框对应类别的分数；
66.图像入库模块包括：
67.对候选框对应类别的分数进行筛选，将满足第一条件的候选框放入标准特征数据库，以扩充标准特征数据库。
68.具体而言，本实施例中，可以有效的将具有信息量且不会造成冗余的目标检测结果加入标准特征数据库，可以在算法运行时不断提高目标检测的精度。
69.在本技术的一种可选地实施例中，第一条件为候选框对应类别的分数在0.6～0.7之间。
70.具体而言，本实施例中，在将候选框对应类别的分数进行筛选的过程中，如果分数高于0.7或低于0.6，则将对应的候选框的图像特征丢弃，如果分数介于0.6到0.7之间，则将对应的候选框的图像特征放入标准特征数据库，以进行扩充数据库，随着标准数据库的不断扩充，实现检测精度的提高。
71.请参见图4所示，图4是本发明实施例提供的msnr特征提取网络的一种结构示意图，在本技术的一种可选地实施例中，采用msnr特征提取网络进行目标特征提取。
72.具体而言，本实施例提供的msnr特征提取网络，提高了特征提取效率，降低了特征提取所需要的时间，并且该模型轻量化，可以在边缘计算节点部署，该网络中增加了去噪模块，可以有效的缓解噪声和遮挡等问题，降低了相关目标的漏检率，效果优于vgg、resnet等主流特征提取网络；在使用参数量更少的情况下达到了更好的效果，在无人机车辆数据集中，用21.03m的参数量达到了98.9的准确率。
73.请继续参见图4所示，在本技术的一种可选地实施例中，msnr特征提取网络包括第一模块、第二模块和第三模块；其中，第二模块和所述第三模块的结构相同。
74.具体而言，本实施例中提供的msnr特征提取网络，依次设置有第一模块、第二模块和第三模块。
75.可选地，第一模块包括依次级联的卷积层、最大池化层和残差收缩模块。
76.其中，输入的目标图片样本的大小为224*224，卷积层设置有64个卷积核，卷积核大小为3*3；最大池化层的卷积核大小为2*2；残差收缩模块基于残差块改进而来，残差收缩模块输入为c*w*1，其中，c为通道数，w为宽度，经过残差的两个卷积层后，将结果取绝对值，经过全局池化层得到c*1*1的向量，经过两个全连接层后得到1*1*1的向量，并通过sigmoid得到α，将全局池化层的结果与α相乘得到软阈值，使用该阈值对原输入目标图片样本进行阈值化。
77.可选地，请参见图5～图7所示，图5是本发明实施例提供的fem模块的一种结构示意图，图6是本发明实施例提供的多尺度卷积核模块的一种结构示意图，图7是本发明实施例提供的注意力机制降噪模块的一种结构示意图，第二模块包括依次级联的卷积层、第一池化层、第二池化层、残差收缩模块和特征增强模块；
78.其中，特征增强模块包括多尺度卷积核模块和注意力机制降噪模块。
79.第二模块为基础模块(base module，bs)，第二模块包括依次级联的卷积层、第一池化层、第二池化层、残差收缩模块和特征增强模块(feature enhancement module，fem)；
其中，卷积层中的卷积核大小为3*3；最大池化层的卷积核大小均为2*2，并将通道数翻倍；fem模块是将原始特征分别通过一个多尺度卷积核模块(multiscale convolution kernel module，mskm)和一个注意力机制降噪模块(nram)后，将两部分特征进行简单的叠加操作得到最终的特征输出，特征通道数不变；可以理解的是，mskm模块将输入分别通过1个1*3卷积核、1个3*1卷积核、1个1*5卷积核、1个5*1卷积核、1个步长为2的3*3卷积核和1个步长为3的3*3卷积核，并将每个卷积核输出的结果通过通道拼接后通过一个3*3的卷积层，得到最终的输出结果；nram模块，输入为c*w*h的特征向量，通过一个全局池化层得到c*1*1的特征向量，经过一个全连接层后得到c/16*1*1的特征向量，通过relu激活层后，经过一个全连接层后得到c*1*1的特征向量，之后经过sigmoid层后得到c*1*1的特征向量，并将该特征向量与c*w*h相乘得到全新的c*w*h的特征向量。
80.可选地，请继续参见图4所示，第三模块的结构与第二模块的结构相同，经过第三模块处理后的特征向量在经过全局平均池化后得到最后的结果。
81.基于同一发明构思，请参见图8所示，图8是本发明实施例提供的基于相似度对比的目标检测装置的一种结构示意图，本技术还提供一种基于相似度对比的目标检测装置，应用于本技术上述实施例提供的方法，方法的内容请参考上述实施例，本技术在此不再赘述，该装置包括：
82.生成模块201，用于基于目标图片样本，生成候选框；目标图片样本包括待检测目标；
83.待选特征数据库提取模块202，用于基于候选框，进行目标特征提取，构建待选特征数据库；
84.标准特征数据库提取模块203，用于基于已有的图片样本，进行目标特征提取，构建标准特征数据库；
85.第一相似度对比模块204，用于从待选特征数据库中，获取置信度最高的候选框，将该候选框与所述标准特征数据库进行相似度对比，得到分数最高的标准特征数据库图片，并记录其类别信息；
86.第二相似度对比模块205，用于将分数最高的标准特征数据库图片与待选特征数据库进行相似度对比，得到分数最高的待选特征数据库图片，并记录其位置信息；
87.结果获取模块206，用于将分数最高的标准特征数据库图片的类别信息和分数最高的待选特征数据库图片的位置信息映射到目标图片样本，得到待检测目标的检测结果。
88.本技术提供一种基于相似度对比的目标检测方法，设计了动态候选框提取方法，构建了针对相似度对比的msnr特征提取网络，能够有效减少对于中小目标的漏检率，提高目标定位的准确率，综合提高目标检测的效果。
89.以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵一帆李甫王慎弘张伟乐仁华付博勋吴昊冀有硕李阳张利剑陈远方石光明
技术所有人：西安电子科技大学
我是此专利的发明人

上一篇：保证轮胎胎圈强度的工艺的制作方法
上一篇：多联装密集发射冲击减振机构的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。