用于视觉概念检测的自监督数据增强方法、系统、设备

文档序号:28383007发布日期:2022-01-07 23:24阅读:206来源:国知局
用于视觉概念检测的自监督数据增强方法、系统、设备

1.本发明属于图像处理技术领域,尤其涉及一种用于视觉概念检测的自监督数据增强方法、系统、设备。


背景技术:

2.近年来,深度神经网络(deep neural network,dnn)在目标检测、图像分类等计算机视觉任务上得到了广泛应用并取得了显著成果。然而,目标检测领域存在检测图像有一定角度的倾斜或者检测图像中的目标有一定角度倾斜的问题,从而导致此类图像检测精准度较低。目前,解决这一问题的可行方法是在不影响检测精度的情况下对数据集进行有效的数据增强操作。数据增强是一种常见的数据处理方法,并在处理目标检测模型上展现其显著优势,增强模型的泛化能力。
3.图像数据增强即让一张图片变得更加多样,数据增强是人工扩充数据集的一种方法,让有限的数据产生更多有价值的数据。通过寻找这些样本中的相似特征,放入神经网络中进行训练从而提高网络模型的鲁棒性,降低外界因素对目标检测的影响,解决模型过拟合等问题。图像的数据增强操作包含水平翻转、平移、旋转、裁剪、视角变换、jpeg压缩、尺度变换、颜色变换、cutout等。自监督任务是一种基于数据变换的任务,也是一种数据增强的方法,自监督学习的出发点是考虑在缺少标签或者没有标签的情况下,依然能够学习到原始图像中有意义的特征。在数据增强的过程中,这些常用的变换方法可以被全部使用。然而还要考虑图像中目标的标注框(box)位置变换的情况。
4.目标检测任务是把图像输入到网络中,经特征提取后输出目标的类别及位置信息。目标检测比较流行的算法可以分为两类,一类是基于region proposal的r-cnn系算法(r-cnn,fast r-cnn,faster r-cnn等),首先生成候选区域,然后对候选区域进行分类和调整,最终获得检测结果。而另一类是yolo,ssd等算法,其仅仅使用一个卷积神经网络cnn直接预测不同目标的类别与位置信息。目标检测有两个主要任务:物体分类和定位。检测过程中,需要依赖于图像的标注文件,其中的标注信息(annotations)主要包括图像中目标物体的矩形标注框、标注框对应的坐标值、目标类别、图像名字及目标类别等。
5.现有技术的缺陷如下:mscoco数据集中物体尺度占比均衡,即small、middle、large object的尺度占比平均;mscoco数据集相比于其他数据集而言,bounding box的数量几乎是imagenet det数据集中的两倍,而图像数量不足imagenet det中的三分之一,说明mscoco数据集中每张图像上存在多个目标。在实际的检测任务中出现检测精度低及漏检的问题,导致mscoco数据集在目标检测任务上检测效果不理想。
6.现有方法存在严重的标签依赖性,当待检图像存在倾斜或图像中的目标倾斜时,目标物体的标注框(标注信息)位置改变从而导致标注信息(标签)缺失,进而影响检测的精度。
7.通过上述分析,现有技术存在的问题及缺陷为:现有的数据增强方法存在严重的标签依赖性,且无法精准的进行数据集的扩充。
8.解决以上问题及缺陷的难度为:在自监督旋转的基础上,如何把原始数据集中每张图片上涉及到的所有object坐标信息进行准确的标注,且坐标信息格式符合原始数据集格式。
9.解决以上问题及缺陷的意义为:随着神经网络规模的增加,需要学习的参数也会与之俱增,从而导致拟合现象的发生,当数据集较小时,过多的参数会拟合数据集的所有特征,而非特征之间存在的共性信息。神经网络可以高度拟合训练数据的分布情况,但是对于测试数据来说精准度很低,缺乏泛化能力。为了防止过拟合现象,需要对数据进行增强处理。


技术实现要素:

10.针对现有技术存在的问题,本发明提供了一种用于视觉概念检测的自监督数据增强方法、系统、设备。
11.本发明是这样实现的,一种用于视觉概念检测的自监督数据增强方法,所述用于视觉概念检测的自监督数据增强方法包括:
12.使用自监督中图像自身旋转的方法对图像进行处理,修改并增加图像中用于目标检测与实例分割的标注信息。
13.进一步,所述用于视觉概念检测的自监督数据增强方法包括以下步骤:
14.步骤一,对数据集中的图像数据进行预处理,进行数据集的初步扩充;
15.步骤二,对图像对应标注信息进行修改与新增;新增旋转后图像对应的标注文件信息。
16.对图像数据进行预处理后,再将所有处理后的图像所对应的标注文件信息进行补充,积极的作用在于,使所有图像数据存在各自对应的标签,解决数据扩充带来的标签缺失问题,同时为后续的检测模型提供精准的数据。
17.进一步,步骤一中,所述对数据集中的图像数据进行预处理包括:
18.对图像分别进行四个角度的旋转处理,并对应修改图像的名称。
19.进一步,所述四个角度分别为:0
°
、90
°
、180
°
、270
°

20.进一步,所述对图像对应标注信息进行修改与新增包括:将图像标注文件中的images字段与annotations字段进行修改与新增。
21.进一步,所述对图像对应标注信息进行修改与新增包括以下步骤:
22.1)将images字段中file_name的值修改为图像名称一致;当图像置为90
°
和270
°
时,交换images字段中height与width的值;
23.2)根据images字段中id与annotations中image_id的对应关系,找到每张图像中的所有object的bbox,分别根据四个旋转角度将bbox的坐标信息进行修改。
24.进一步,所述分别根据四个旋转角度将bbox的坐标信息进行修改包括:
25.根据height与width的值计算标注框旋转中心,把旋转中心设为新的坐标轴原点;计算基于新原点的坐标值;利用两点连线与x坐标轴的正向的夹角正弦/余弦值,计算当前坐标点到新的原点即旋转中心的直线距离;旋转一定角度后,将旋转角度与原始夹角相加,计算所有旋转后对应角度的坐标值;将坐标轴原点从旋转中心转换到原始左上角。
26.进一步,所述对图像对应标注信息进行修改与新增还包括:将每张图片相应的id
与image_id进行统一修改。
27.进一步,所述新增旋转后图像对应的标注文件信息包括:
28.对图像相应的目标检测与实例分割的标注信息进行四种旋转角度的修改。
29.进一步,所述用于视觉概念检测的自监督数据增强方法还包括:
30.将增强后的数据部署在yolov3模型上进行实验验证,确定数据增强处理的有效性。
31.本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述用于视觉概念检测的自监督数据增强方法的步骤。
32.本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述用于视觉概念检测的自监督数据增强方法的步骤。
33.本发明的另一目的在于提供一种实施所述用于视觉概念检测的自监督数据增强方法的用于视觉概念检测的自监督数据增强系统,所述用于视觉概念检测的自监督数据增强系统包括:
34.数据集初步扩充模块,用于对数据集中的图像数据进行预处理,进行数据集的初步扩充;
35.信息修改与新增模块,用于对图像对应标注信息进行修改与新增;新增旋转后图像对应的标注文件信息。
36.结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明使用自监督中图像自身旋转的方法处理了ms coco数据集中的所有图像(包括训练集、验证集、测试集)。本发明修改并增加了ms coco数据集中用于目标检测与实例分割的标注信息。将本发明处理好的数据集应用于yolov3模型上,证明了处理后标注信息的可用性,并实现旋转后图像的检测,得到理想的检测效果。
37.本发明将处理后的图片数据与文本数据部署在yolov3模型上进行训练,得到视觉概念的检测结果,即置信度得分与物体所属类别情况,验证了处理后文本数据的可行性,并在旋转后图像上得到较高的map值。
附图说明
38.图1是本发明实施例提供的用于视觉概念检测的自监督数据增强方法原理图。
39.图2是本发明实施例提供的用于视觉概念检测的自监督数据增强方法流程图。
40.图3是本发明实施例提供的图片数据的处理过程示意图。
41.图4是本发明实施例提供的图像数据的处理结果示意图。
42.图5是本发明实施例提供的文本数据的处理过程示意图。
43.图6是本发明实施例提供的文本数据的处理结果示意图。
44.图7(a)至图7(d)是本发明实施例提供的检测结果对比情况示意图。
45.图8(a)至图8(d)是本发明实施例提供的检测结果对比情况示意图。
具体实施方式
46.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
47.针对现有技术存在的问题,本发明提供了一种用于视觉概念检测的自监督数据增强方法、系统、设备,下面结合附图对本发明作详细的描述。
48.如图1所示,本发明实施例提供的用于视觉概念检测的自监督数据增强方法包括:
49.使用自监督中图像自身旋转的方法对图像进行处理,修改并增加图像中用于目标检测与实例分割的标注信息。
50.如图2所示,本发明实施例提供的用于视觉概念检测的自监督数据增强方法包括以下步骤:
51.s101,对数据集中的图像数据进行预处理,进行数据集的初步扩充;
52.s102,对图像对应标注信息进行修改与新增;新增旋转后图像对应的标注文件信息。
53.本发明实施例提供的数据集中的图像数据进行预处理包括:
54.对图像分别进行0
°
、90
°
、180
°
、270
°
四个角度的旋转处理,并对应修改图像的名称。
55.本发明实施例提供的对图像对应标注信息进行修改与新增包括:将图像标注文件中的images字段与annotations字段进行修改与新增。
56.本发明实施例提供的对图像对应标注信息进行修改与新增包括以下步骤:
57.1)将images字段中file_name的值修改为图像名称一致;当图像置为90
°
和270
°
时,交换images字段中height与width的值;
58.2)根据images字段中id与annotations中image_id的对应关系,找到每张图像中的所有object的bbox,分别根据四个旋转角度将bbox的坐标信息进行修改;同时将每张图片相应的id与image_id进行统一修改。
59.本发明实施例提供的分别根据四个旋转角度将bbox的坐标信息进行修改包括:
60.根据height与width的值计算标注框旋转中心,把旋转中心设为新的坐标轴原点;计算基于新原点的坐标值;利用两点连线与x坐标轴的正向的夹角正弦/余弦值,计算当前坐标点到新的原点即旋转中心的直线距离;旋转一定角度后,将旋转角度与原始夹角相加,计算所有旋转后对应角度的坐标值;将坐标轴原点从旋转中心转换到原始左上角。
61.本发明实施例提供的新增旋转后图像对应的标注文件信息还包括:对图像相应的目标检测与实例分割的标注信息进行四种旋转角度的修改。
62.本发明实施例提供的用于视觉概念检测的自监督数据增强方法还包括:
63.将增强后的数据部署在yolov3模型上进行实验验证,确定数据增强处理的有效性。
64.下面结合具体实施例对本发明的技术方案做进一步说明。
65.实施例1:
66.本发明为了提高网络模型泛化能力,避免拟合现象的发生,对图像数据及文本数据进行增强处理,使得检测模型能够获取更多的特征信息,提升模型的检测效果。基于旋转
的自监督学习任务是一种常用的数据增强方法,神经网络可以从原始图像与旋转图像中更好的获取目标的位置、类别、动作、状态等语义信息。由于其他角度在进行网络训练时涉及补充边角的问题,因此本发明选择了90
°
的四种倍数角度(0
°
,90
°
,180
°
,270
°
)进行自监督旋转操作。
67.mscoco数据集相比于其他用于检测任务的数据集imagenet det等而言,bounding box的数量接近于imagenet det的2倍,但是以mscoco2014为例,图像的数量却远远小于imagenet det,这说明mscoco数据集上每张图像存在较多的目标,这就对视觉概念检测器提出了很高的要求。另外,mscoco数据集中,小目标的数据样本不足。检测模型进行训练时,获取小目标的特征信息不足,从而导致检测网络对小目标的检测不敏感。针对mscoco数据集存在的问题,本发明专利做出了有效的解决,提出基于自监督的数据扩充方法,经过旋转等操作后,增加小目标及多目标图像的样本数据量,为检测模型的训练提供充足的数据,使得能够捕获更多的特征信息,同时避免拟合现象的发生,增强模型对小目标的检测能力。原始mscoco数据集与本发明改善后的数据集检测结果对比情况如图7所示:
68.图7(a),图7(b),图7(c),图7(d)四幅图均来自mscoco2014测试集,左图使用未处理的数据对模型进行训练,存在目标漏检现象,右图为使用本发明技术处理后数据集的检测结果图。图7(a)中左图漏检了坐在车里的人物目标,右图给予检测;图7(b)中左图漏检了餐桌后显示不完整的人物目标,右图给予检测;图7(c)中左图漏检了远距离的小型人物目标,右图给予检测;图7(d)中左图漏检了远距离小型电子显示器目标,右图给予检测。
69.使用基于自监督的旋转对数据集进行处理后,annotations的修改与新增是本发明技术关键所在。每张图像中的所有object的bbox(目标的矩形标注框),分别根据0
°
,90
°
,180
°
,270
°
四种角度将bbox键中对应的所有坐标信息进行修改。坐标信息修改的具体步骤为:
70.根据height与width的值计算标注框旋转中心,把旋转中心设为新的坐标轴原点(默认原点为标注框左上角)
71.计算基于新原点的坐标值
72.利用两点连线与x坐标轴的正向的夹角正弦/余弦值,计算当前坐标点到新的原点即旋转中心的直线距离
73.旋转一定角度后,将旋转角度与原始夹角相加,按照c中的方式计算所有旋转后对应角度的坐标值
74.坐标轴原点从旋转中心转换到原始左上角。
75.yolo是you only look once的缩写。它是一种通过使用深度卷积神经网络学习特征来检测物体的目标检测器。yolo在视觉概念检测任务上,十分精准快速。将处理后的图片数据与文本数据部署在yolov3模型上进行训练,得到视觉概念的检测结果,即置信度得分与物体所属类别情况,验证了处理后文本数据的可行性,并在旋转后图像上得到较高的map值。得到的检测结果具体示例如图8所示。
76.图8(a),图8(b),图8(c),图8(d)四幅图均来自mscoco2014测试集,从左到右依次为基于0
°
,90
°
,180
°
,270
°
旋转的目标检测效果。
77.应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系
统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、cd或dvd-rom的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
78.以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1