基于yolox的旋转目标检测方法
技术领域
1.本发明涉及一种基于yolox的旋转目标检测方法,属于图像旋转目标检测技术领域。
背景技术:2.图像是人类认识世界的一个重要来源,并且能够传送比其他形式更加丰富、真切和具体的信息。随着社会经济的不断发展,城市化步伐的不断加速,城市的秩序显得越来越紊乱。而目标检测作为计算机视觉(computer vision,cv)领域的一个重要分支,正在被广泛应用于工业检测、道路交通和航空航天等领域,例如,使用摄像头实时捕获道路上的人员信息并进行处理和存储,从而达到减小刑侦工作的强度以及减少人力资本消耗的目的,因此这一技术具有重要的现实意义。
3.根据目标框的方向,目标检测通常可以被分为水平检测和旋转检测。具体来说,水平框检测通常更适合于一般自然场景图像。而遥感图像、人脸识别和车牌识别等场景,通常要求更精确的定位,这就需要一个有效的旋转目标检测模型。
4.yolo(you only look once)系列算法是著名的one-stage检测器,用于检测水平目标,该检测器将目标的定位和分类一并进行回归。图像经过yolo主干网络后,会直接输出各个目标物体的位置和类别,最后只需使用相应的算法进行重叠框的去除以及其他的后处理操作即可。一个比较具有代表性的网络为yolo v3,在其前身yolo v1和yolo v2上进行了一些改进,如加入了anchor机制,主要参考了特征金字塔网络(feature pyramid network,fpn)的设计,并且可对输入图像进行多尺度检测。
5.scrdet可用于解决旋转检测问题,该模型会回归五个参数,即中心点的坐标、宽度、高度和旋转角度,用来描述旋转边界框。为了更准确地预测旋转框,scrdet在平滑l1损失函数中添加了iou常数因子。由于角度的固有周期性,目标的宽高的突然交换导致的损失不连续性,以及坐标和角度单位的不同,所以简单地将五参数系统中的坐标和角度一并考虑会导致训练不稳定以及性能退化的问题。另一种旋转目标检测器rsdet采用了可以使用相同单位坐标的八参数回归方法来缓解此问题,进一步解决了参数回归不一致的问题。在p-rsdet模型中,任意角度的目标检测可以通过预测中心点并回归一个极径和两个极角来实现。此外,为了表达极径与极角之间的几何约束关系,该模型采用了极环面积损失函数以提高预测精度。p-rsdet以更简单的模型和更少的回归参数实现了更加优秀的性能。
6.本专利着重于解决对于旋转一定角度的目标进行检测的问题。在一些特定场景,如卫星遥感图像检测,图像中的目标一般都会带有旋转角度,这时如果使用常规的目标检测方法去检测图像中的物体,准确度将会较低。而如果可以使用一个更小的矩形框来标记这些物体,那么检测模型将会更加专注于目标物体,从而解决目标四周的背景所带来的低准确率问题。
7.类似yolo的one-stage目标检测模型存在着一些缺陷,比如不能较好地检测小物体,这是由于同时回归目标类别和位置,模型无法快速收敛导致的。所以对于对密集的小物
体的目标检测问题,如何提高模型的检测准确率有着一定的研究价值。
8.有鉴于此,确有必要提出一种基于yolox的旋转目标检测方法,以解决上述问题。
技术实现要素:9.本发明的目的在于提供一种基于yolox的旋转目标检测方法,以提升检测准确率。
10.为实现上述目的,本发明提供了一种基于yolox的旋转目标检测方法,所述旋转目标检测方法主要包括:
11.步骤1,输入图像,并对目标框进行读取以及相关的预处理;
12.步骤2,将图像中所有目标框进行转换,以呈现矩形框;
13.步骤3,将转换后的目标框进行后处理,以得到模型检测出的矩形框。
14.作为本发明进一步改进,步骤2具体包括:将所述矩形框的逆时针方向的连续四个顶点坐标分别设为a、b、c和d,以图像从左到右的水平方向作为正方向。
15.作为本发明进一步改进,在所述矩形框中找到一条边,该边在所述矩形框中的逆时针方向与正方向成锐角,取该边上的两个顶点,不妨设靠近图像下方的顶点为a,另一顶点为b,坐标分别设为(x1,y1)和(x2,y2),最后,取该边与cd边的距离,即bc或ad的长,设为h。
16.作为本发明进一步改进,步骤3具体包括:经过不同尺寸的卷积层后,三个不同的检测头将输出三种尺寸的特征图,对其进行后处理即可得到模型检测出的矩形框。
17.作为本发明进一步改进,将所述特征图的尺寸调整为batch_size
·
(num_classes+6)
·
ofm_w
·
ofm_h,其中batch_size为输入到模型中的图像数量,num_classes为目标种类数量,ofm_w和ofm_h分别代表所述特征图的宽和高。
18.作为本发明进一步改进,将三个所述特征图进行flatten操作并进行连接后,可得到一个尺寸为batch_size
·
(num_classes+6)
·
n的特征图;其中,n为所述矩形框的数量,在后处理操作中将使用阈值限制以及nms算法进行所述矩形框的过滤。
19.作为本发明进一步改进,单独看每个所述矩形框对应的张量,每个张量的尺寸则为num_classes+6,其中的数字6代表对每个旋转所述矩形框预测6个值,即所述矩形框的两个坐标点、以这两个点连接所成线段为底的矩形高,以及对该目标的置信度,分别以x1,y1,x2,y2,h和c表示。
20.本发明的有益效果是:本发明基于yolox的旋转目标检测方法,在旋转目标检测中,针对旋转目标图像提出一种新的旋转矩形框的描述方法,只选取矩形框的两个坐标点,再通过另一个参数就可以得到矩形的具体位置,能够实现提高旋转目标检测的性能和精度,并减小相应模型的大小。通过此描述方法,进一步对yolox模型的损失函数进行优化,可提高该模型的性能。经实验证明,应用了该矩形框描述方法的旋转目标检测方法的性能和精确度达到一定的平衡,在检测准确率上有了大幅提升。
附图说明
21.图1是本发明基于yolox的旋转目标检测方法对矩形框的描述。
22.图2是本发明基于yolox的旋转目标检测方法对矩形框的张量的描述。
23.图3是本发明中yolox模型的检测流程图。
具体实施方式
24.为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
25.本发明揭示了一种基于yolox的旋转目标检测方法,即在旋转目标检测中,针对旋转目标图像提出一种新的旋转矩形框的描述方法,只选取矩形框的两个坐标点,再通过另一个参数就可以得到矩形的具体位置,可以实现提高旋转目标检测的性能和精度,并减小相应模型的大小。通过此描述方法,进一步对yolox模型的损失函数进行优化,可提高该模型的性能。
26.经实验证明,应用了该矩形框描述方法的旋转目标检测方法的性能和精确度达到一定的平衡,在检测准确率上有了大幅提升。
27.本发明基于yolox的旋转目标检测方法,首先选取矩形框的两个坐标点,再通过预测出以这两点连接所成线段为底的矩形框的高就可以得到矩形的具体位置,从而提高旋转目标检测的性能和精度,并减小相应模型的大小。该描述方法的改变主要影响目标检测算法的两个阶段,即对数据集读取后的处理,以及对模型输出的目标框的处理。
28.如图1所示,首先输入图像通过对目标框的读取以及相关的预处理之后,将图像中所有目标框进行转换,以新的描述方法进行描述。将矩形框的逆时针方向的连续四个顶点坐标分别设为a、b、c和d,以图像从左到右的水平方向作为正方向。接着,在矩形框中找到一条边,此边在矩形框中的逆时针方向与正方向成锐角,取该边上的两个顶点,不妨设靠近图像下方的顶点为a,另一顶点为b,坐标分别设为(x1,y1)和(x2,y2)。最后,取该边与cd边的距离,即bc或ad的长,设为h,即可完成对矩形框的描述,所取的五个参数分别为x1、y1、x2、y2和h。
29.结合图2和图3,yolox模型的检测流程主要分为预处理、输入到网络进行计算和后处理三个步骤。在应用上述改进的旋转框描述方法后,还需对模型的检测头进行改进。经过不同尺寸的卷积层后,三个不同的检测头将输出三种尺寸的特征图(output feature map,ofm),对其进行后处理即可得到模型检测出的矩形框。将ofm的尺寸调整为batch_size
·
(num_classes+6)
·
ofm_w
·
ofm_h,其中batch_size为输入到模型中的图像数量,num_classes为目标种类数量,ofm_w和ofm_h分别代表ofm的宽和高。将三个ofm进行flatten操作并进行连接后,可得到一个尺寸为batch_size
·
(num_classes+6)
·
n的特征图,其中n为矩形框的数量,在后处理操作中将使用阈值限制以及nms算法进行矩形框的过滤。单独看每个矩形框对应的张量(tensor),每个张量的尺寸则为num_classes+6,其中的数字6代表对每个旋转矩形框预测6个值,即矩形框的两个坐标点,以及以这两个点连接所成线段为底的矩形高,以及对该目标的置信度,分别以x1,y1,x2,y2,h和c表示。
30.综上所述,本发明基于yolox的旋转目标检测方法,在旋转目标检测中,针对旋转目标图像提出一种新的旋转矩形框的描述方法,只选取矩形框的两个坐标点,再通过另一个参数就可以得到矩形的具体位置,能够实现提高旋转目标检测的性能和精度,并减小相应模型的大小。通过此描述方法,进一步对yolox模型的损失函数进行优化,可提高该模型的性能。经实验证明,应用了该矩形框描述方法的旋转目标检测方法的性能和精确度达到一定的平衡,在检测准确率上有了大幅提升。
31.以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发
明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围。