本发明涉及一种基于图像划分的小目标检测和训练方法,属于计算机视觉。
背景技术:
1、目标检测是计算机视觉领域的重要研究方向之一,在人脸识别、不规范驾驶行为识别、医疗诊断等领域应用广泛。无人机目标检测技术目前还存在一些挑战,如无人机图像中包含大量重叠的目标团、目标尺度不一、目标类别不均衡、相似类别难以区分等。由于小目标的外观特征相比于大目标而言比较模糊,且受无人机拍摄角度和高度的影响,会出现目标聚成一团的情况,如等红绿灯的行人、紧挨着摆放的共享单车均有大量的遮挡和重叠的问题。同时,根据视觉理论可知物体存在近大远小的问题,导致目标的尺度差距过大。此外,由于无人机采集图像的区域大部分位于城市中的某些具体场景,因此目标的类别也出现了不平衡的状况,如公共道路上的人和汽车数量也存在一定差异。
2、目前已有的目标检测方法分为传统目标检测方法和基于深度学习的目标检测方法。传统的目标检测方法分为三个步骤:区域选择、特征提取、分类器分类。然而随着对目标检测算法研究的深入,研究人员发现此类方法具有三个较大的问题,首先是区域选择策略没有针对性,其次是时间复杂度高,以及手工设计的特征鲁棒性较差等特点,使得检测效果不理想。
3、随着卷积神经网络(cnn)的迅速发展,逐渐出现了基于深度学习的目标检测方法。从最初的两步式的r-cnn、fast r-cnn到faster r-cnn的目标检测算法,对物体检测回归框的精度提升有一定效果,再到一步式的ssd、yolo系列的目标检测算法,其中ssd算法是一种直接预测边界框的坐标和类别的目标检测算法,相比fast r-cnn系列进一步提高了检测速度,而yolo系列则将目标检测问题定义为边界框和分类置信度的回归问题,不同的版本采取了不同的改进方法,进一步提高了目标检测的准确率,其中yolov5包含了不同深度和宽度的网络,针对不同的场景应用可以选择性能更优的大网络或速度更优的小网络。
4、进一步的,针对小目标的检测而言,tsung-yi lin等人提出了feature pyramidnetworks(fpn)和top-down结构,利用多尺度特征融合的方式,将包含丰富语义信息的高层特征映射到大分辨率、包含充分细节信息的底层特征来提升小目标的检测结果。为避免直接特征叠加导致维度过高,abhinav shrivastava等人提出了top down modulation的结构,将高层与底层的特征进行卷积融合,而不是如fpn般直接叠加。为进一步提升对小目标的检测性能,d.dwibedi等人提出了一种复制粘贴的数据增强方法,其操作方法非常简单,从其他图像中选择某一个目标并将其复制多份任意放置在图像中即可提升检测的性能。alexey等人在yolov4中提出裁剪目标框并将其打包成马赛克图像的增强方式,其原理是采用了2×2的四张拼接图像作为一张新的图像,称为马赛克图像。
5、但是上述方法在面对小目标重叠、难以分辨的相似类别以及无人机采集图像的局限性导致的种类数量不均等情况时难以获得较好的检测性能。
技术实现思路
1、针对现有技术在面对小目标重叠、难以分辨的相似类别以及无人机采集图像的局限性导致的种类数量不均等情况时难以获得较好的检测性能的问题,本发明的主要目的是提出一种基于图像划分的小目标检测和训练方法,利用强化图像拼接与拷贝粘贴两种数据增广方法,面向无人机采集图像中小目标的检测,提高无人机应用场景下小目标检测的精度和效率。
2、本发明的目的是通过以下技术方案实现的:
3、本发明公开的一种基于图像划分的小目标检测和训练方法,采取yolov5网络作为基础检测器,通过平移移动窗口对输入图像进行划分,然后对划分后的图像及原始图像进行目标检测。在数据增广部分引入改进的图像拼接和拷贝粘贴两种数据处理方式,解决因划分后图像中目标数量减少、某些类别数量稀少的问题,同时通过此方法模拟实际情况中的密集目标团,从而提高无人机应用场景下小目标检测的精度和效率。
4、本发明公开的一种基于图像划分的小目标检测和训练方法,包括以下步骤:
5、步骤1:图像划分检测框架,将输入图像划分为小块,同时保持划分框的长宽比与原图一致。
6、原图的长宽分别为a、b,比例系数为ψ,ψ∈(0,1],则每一个划分后的子块的长宽分别为a=ψa、b=ψb。在相同的输入尺寸下,子块上目标的相对比例增加为(1/ψ-1),即将输入图像放大了1/ψ倍。n为沿轴的采样数(n>1),总块数为n2,输入图像数量则等于(n2+1)。因此,两个连续子块之间的重叠为即对于最大相对尺度低于l的任何目标,无论其位于图像上的任何位置,都必须存在至少一个子块,在该子块中该目标能够被完全包含且没有任何截断。因此,子块之间的间隔为
7、步骤2:设置相对尺度阈值δ1和δ2,其中δ1,δ2∈(0,1),对目标进行尺寸筛选,以区别目标属于微小目标、中型目标还是大型目标。
8、最大尺度阈值δ1的值取决于整个数据集中目标的最大尺度,而最小尺度阈值δ2的值低于连续子块的重叠l。对于图像中最大相对尺度小于最小尺度阈值δ2的目标,将其视作微小目标,在训练和推理过程中只分配给子块进行局部检测任务。同理,最小相对尺度仍大于最大尺度阈值δ1的目标则被视为大型目标,只进行全局检测任务。其他尺度的目标则既参与全局检测任务又参与局部检测任务。
9、步骤3:在训练中,通过控制图像块的长宽,使之能够灵活拼接成新的图像,拼接方式以完全破坏语义信息为目的,同时保持拼接后的图像与初始图片的比例不变,进行图像拼接强化。
10、步骤3.1:定义基本的组合单元为沿水平或垂直两个方向拼接的两个图像块,即两个长宽分别为a×b/2或a/2×b的块,生成a×b的标准补丁。然后进一步得到三个补丁的组合:先沿垂直方向拼接两个a/2×b/2的补丁,然后沿水平方向拼接a/2×b的补丁。同样,四个宽度为a/2×b/2的补丁进行三次拼接能够得到a×b的图像。
11、步骤3.2:除了步骤3.1中普通的图像拼接以外,定义两种强化的拼接方式,分别为补丁嵌入、三角拼接。
12、补丁嵌入的具体操作方式如下:首先裁剪一个a×b的标准补丁以及一个较小的长宽为ρ1a×ρ2b的补丁,其中ρ为均匀分布u(0.3,0.6)的采样因子,然后将较小的补丁随机放置在标准补丁上。
13、三角拼接的具体操作方式如下:首先裁剪两个标准补丁并将它们填充到相同大小的方阵中,然后沿主对角线或反对角线生成上三角矩阵和下三角矩阵作为补丁的掩体,经过矩阵计算之后就得到了两个三角形的补丁组合。
14、步骤4:进行拷贝粘贴强化,其中粘贴的对象与原始图像具有相同类别和相似的背景,用以模拟城市中重叠的密集目标;
15、首先在拼接图像补丁或原始图像中随机挑选一个目标对象作为拷贝的原型,然后在该对象周围随机放置来自其他图像或原始图像中的同类别的目标物体,其中允许粘贴的对象有轻微重叠部分。此外,其他类别的目标对象也会被选为粘贴的原型以增强模拟的真实性。
16、在上述常规方法的基础上,定义两种强化后的拷贝粘贴方式,第一种是选取几个目标对象分别作为拷贝的原型,在其周围进行粘贴,得到几个相对独立的集群;第二种方式是先挑选一个对象作为原型,在经过随机粘贴操作后,从生成的集群中选取新的原型并再次进行随机粘贴操作,重复所述过程直至获得一个巨大的集群。此外,在选择粘贴对象时,适当增加罕见类别的出现概率,以解决目标类别比例差距过大的问题。
17、步骤5:基于相对定目标裁剪的局部-全局混合数据训练,得到目标检测模型;
18、步骤5.1:相对定目标随机裁剪。训练时,在线裁剪有效的训练子块作为增强措施,其中有效指图像中至少包含一个完整的目标对象。首先随机选择一个目标作为相对定目标,然后围绕该目标随机选择划分的位置得到子块,但同时需保证相对定目标在该子块中且不发生截断的情况。最后检查所有子块中目标的截断情况,如果该子块上的某一目标面积小于其完整面积的设定比例,则判定为无效并被移除。否则将有效目标框转换成子块上的相对目标,并按照子块的缩放比例1/ψ对其边长进行缩放。
19、步骤5.2:按照步骤1的划分方式对训练图像进行预划分,然后将原图和子块一并作为训练样本,同时利用步骤5.1的方式进行增强,并采用局部-全局混合训练策略,其中对原始图像进行全局检测以保证较大目标的检测性能,对划分得到的子块进行局部检测以避免微小目标的截断。得到目标检测模型。
20、步骤6:将子块调整大小并进行填充后,与原图组成小批量张量用于并行推理。然后通过缩放并加上位置偏差εi,将子块上的预测框转换成绝对坐标,使之能同时进行预测和非极大值抑制操作。由于子块与原始图像具有明确的相对位置关系,上述操作能够高效并行执行。
21、还包括步骤7:根据步骤5得到的训练好的目标检测模型,并将最佳的权重输入步骤6的推理过程得到在验证集上的检测结果,将验证过的最佳模型部署在类脑芯片上,应用于无人机实拍序列,能够实时显示目标检测结果,提升目标检测精度。
22、有益效果
23、1、本发明公开的一种基于图像划分的小目标检测和训练方法,通过划分检测框架利用混合数据训练策略,使检测器对大小目标的检测性能差距减小;同时通过引入两种数据增强方法,一方面,利用强化图像拼接操作完全破坏图片的语义特征,从而增加有效目标的数量,缓解某些目标类别数量稀少的问题,同时也提高了背景的复杂性,显著提升检测器的检测精度。另一方面,利用改进后的拷贝粘贴的数据增强方式,模拟现实场景中具有挑战性的场景如密集集群、遮挡重叠等,从而也提高检测器的检测精度。
24、2、本发明公开的一种基于图像划分的小目标检测和训练方法,在训练和推理中使用混合数据策略的划分检测框架,避免目标截断的同时可以处理所有尺度的目标,采用随机在线相对定目标裁剪的方式构建有效的训练子块,再通过尺度筛选对目标进行分配,根据不同的目标特点选择全局检测或局部检测,能够获得最优的预测结果且保持尺度不变,其中大部分附加操作均为并行处理模式,提高检测效率。