一种基于数据增强的提高实例分割模型检测性能的方法与流程

文档序号:25608567发布日期:2021-06-25 14:26阅读:417来源:国知局
一种基于数据增强的提高实例分割模型检测性能的方法与流程
voc 2012分割数据集;针对复制粘贴基础测试试验,选用lvis v1.0数据集。
12.进一步地,所述步骤s2还包括:
13.s21:随机选择所述数据集中的两个图像,标记为图像ⅰ和图像ⅱ,并对每个图像进行随机比例抖动和随机水平翻转;
14.s22:在图像ⅰ中随机选择一个目标对象子集;
15.s23:将所述目标对象子集粘贴到图像ⅱ的随机位置上,得到粘贴图像;
16.s24:调整所述粘贴图像的真实标注,并删除所述粘贴图像上的被完全遮挡的目标对象,更新部分遮挡的目标对象的掩膜和边界框,得到新图像。
17.进一步地,所述步骤s21还包括:对每个图像进行标准尺度抖动调整或大尺度抖动调整;所述标准尺度抖动调整的调整范围为原始图像大小的0.8到1.25,所述大尺度抖动调整的调整范围在原始图像大小的0.1到2.0之间。
18.进一步地,所述步骤s24还包括:
19.为了使所述目标对象子集融合到所述图像ⅱ中,需要使用真实的标注来计算粘贴目标的二进制制掩码,根据以下计算公式得到新图像:
20.i1×
α+i2×
(1

α),
21.其中,表示目标对象子集所在的图像ⅰ,表示的是要被粘贴的图像ⅱ。
22.进一步地,所述步骤s3中的实例分割模型包括mask r

cnn模型、以efficientnetb7

fpn为主干的mask r

cnn模型、resnet

101模型、efficientnet

b7模型、含efficientnet

b7主干网络和nas

fpn的mask r

cnn模型中的一种或多种。
23.进一步地,所述步骤3还包括:在半监督学习环境下结合自训练方法及复制粘贴技术对实例分割模型进行训练,具体步骤如下:
24.s341、采用增强数据集对监督模型进行训练,得到新监督模型;
25.s342、用所述新监督模型对未进行数据增强的数据集进行训练,生成伪标签数据集;
26.s343、将目标对象实例粘贴到伪标签数据集和增强数据集中,得到粘贴数据集,并根据粘贴数据集来训练实例分割模型。
27.本发明的有益效果在于:
28.本文提出了一种基于实例分割的数据增强的方法,具体是采用复制粘贴技术,其策略的选择也是很简单,将一幅图像中包含的目标对象粘贴到另一幅已经填充了实例的图像在多个实验中都表现出对性能的良好提升,而且在coco和lvis实例分割数据集上都相比基准的模型性能有了不少的提升。而且该方法易于插入任何实例分割的代码库,并且不会增加训练成本或推理时间。并且能够结合半监督的自训练方法,在训练过程中合并额外的未标记图,能够与自训练技术的带来的收益相加。
29.本发明利用的数据增强方法是复制

粘贴技术,通过将各种比例的各种目标对象粘贴到新的背景图像中,它可以免费创建具有挑战性和新颖性的训练数据。复制粘贴技术背后的关键思想是将对象从一个图像粘贴到另一图像。先前关于复制粘贴技术的研究,是通过对周围的视觉环境进行建模,用于确定将其他对象粘贴到何处的方法。但是,我们发现,随机选择对象并将其粘贴到目标图像上随机位置的简单策略,可以在多个设置好的基线之上显著地提高性能。
附图说明
30.附图1是本发明的数据扩增算法的流程图。
具体实施方式
31.下面,结合附图以及具体实施方式,对本发明做进一步描述:
32.一种基于数据增强的提高实例分割模型检测性能的方法,包括以下步骤:
33.s1、选取用于进行数据增强的数据集;
34.s2、利用复制粘贴技术对数据集进行数据增强,得到增强数据集;
35.s3、通过利用增强数据集去训练实例分割模型,进而提高实例分割模型的检测性能。
36.进一步地,步骤s1还包括:采用多个数据集来验证本方法在针对不同实力分割下具有普遍性和适应性。针对不同实验,我们采用的数据集也不同,主要包括:
37.(1)针对自训练实验选用coco数据集和objects365数据集,我们使用有标记的coco数据集以及部分未标记的coco数据集和objects365数据集作为未标记的图像。其中一半是来自有监督的coco数据,大约有120k张图片,另一半是来自伪标签数据,包括110k无标签的coco数据和610k无标签的object365数据;
38.(2)针对迁移学习实验,选用coco数据集和pascal voc数据集,我们在coco数据集上对模型进行预训练,然后在pascal voc数据集上进行微调。
39.(3)针对语义分割实验,选用pascal voc 2012分割数据集,我们在pascal voc 2012分割数据集上训练模型,训练集大概1.5k张图片。
40.(4)针对目标检测实验,选用pascal voc 2007数据集和pascal voc 2012分割数据集;
41.(5)针对复制粘贴基础测试试验,选用lvis v1.0数据集,在lvis v1.0(大概包括100k张训练图片)上对复制

粘贴方法进行了基准测试实验,并在通过lvis v1.0验证集(20k张图片)来显示实验结果。
42.步骤s2还包括:
43.s21:随机选择数据集中的两个图像,标记为图像ⅰ和图像ⅱ,并对每个图像进行随机比例抖动和随机水平翻转;
44.s22:在图像ⅰ中随机选择一个目标对象子集;
45.s23:将目标对象子集粘贴到图像ⅱ的随机位置上,得到粘贴图像;
46.s24:调整粘贴图像的真实标注,并删除粘贴图像上的被完全遮挡的目标对象,更新部分遮挡的目标对象的掩膜和边界框,得到新图像。
47.步骤s24还包括:
48.为了使目标对象子集融合到图像ⅱ中,需要使用真实的标注来计算粘贴目标的二进制制掩码(α),根据以下计算公式得到新图像:
49.i1×
α+i2×
(1

α),
50.其中,i1表示目标对象子集所在的图像ⅰ,i2表示的是要被粘贴的图像ⅱ。将i1中掩膜部分的像素抠出来,然后粘贴到i2上为了使粘贴对象的边缘平滑,我们对α应用了高斯滤波器。这个过程有很大的随机性:(1)选择用于粘贴的源图和目标图的随机性;(2)选择粘贴
源图中哪些对象的随机性;(3)选择粘贴到目标图像的哪些位置的随机性。
51.步骤s2可概括为5个随机:
52.(1)随机选择两幅训练图像;
53.(2)随机尺度抖动缩放;
54.(3)随机水平翻转;
55.(4)随机选择一幅图像中的目标子集;
56.(5)粘贴在另一幅图像中随机的位置。
57.本实施例采用的复制粘贴技术参考了前人的一些方法(contextual copy

paste
58.建模周围的可视上下文来放置被复制的对象实例、instaboost通过对图像上已经存在的实例上进行抖动、cut

paste

and

learn建议提取目标对象实例,混合并粘贴到不同的背景上,并在原始数据集之外的增强图像上训练),同时也增加了许多不同点,主要包括:
59.(1)没有使用几何变换(如旋转等),并发现粘贴实例的高斯模糊是无效的。
60.(2)研究复制粘贴技术,将一幅图像中包含的目标对象粘贴到另一幅已经填充了实例的图像中,在拥有目标对象实例和背景场景库的情况下提高性能。
61.(3)将复制粘贴与自训练相结合,研究半监督学习环境下复制粘贴的有效性。
62.(4)我们在广泛使用的coco和lvis数据集上对复制粘贴进行了基准测试和深入研究。
63.进一步地,实例分割模型包括mask r

cnn模型、以efficientnetb7

fpn为主干的mask r

cnn模型、resnet

101模型、efficientnet

b7模型、含efficientnet

b7主干网络和nas

fpn的mask r

cnn模型中的一种或多种。步骤s3为通过利用增强数据集去训练实例分割模型,进而提高实例分割模型的检测性能。包含以下七个实施例:
64.实施例一:利用增强后的coco数据集去训练mask r

cnn模型,具体步骤如下:
65.s311、使用imagenet对mask r

cnn模型进行训练,得到mask r

cnn模型ⅰ;
66.s312、使用增强后的coco数据集训练mask r

cnn模型,并且采取随机初始化的方式进行训练,得到mask r

cnn模型ⅱ;
67.s313、分别检验mask r

cnn模型ⅰ和mask r

cnn模型ⅱ在coco数据集上的性能表现,得出mask r

cnn模型的检测性能ⅱ比mask r

cnn模型ⅰ的的检测性能好。
68.训练mask r

cnn的常见做法是使用imagenet预先训练的检查点初始化主干。但是,通过随机初始化训练的模型进行更长的训练时,具有更好的性能。相反,使用了imagenet预先训练的模型并且进行了其他形式的数据增强,在coco数据集上的性能表现比采用本文方法的表现要低1ap。可见,复制粘贴技术能有效地提升模型性能,并且采取随机初始化的训练方式表现更加好。
69.实施例二:从coco数据集中选取相同尺寸图像,将相同尺寸图像进行标准尺度抖动调整和大尺度抖动调整,再将调整后的图像输入至以efficientnetb7

fpn为主干的mask r

cnn模型进行训练,比较标准尺度抖动调整方式和大尺度抖动调整方式对mask r

cnn模型检测性能的影响。
70.随机尺度抖动是一种强大的数据增强功能,已广泛用于训练计算机视觉模型。通过实验比较了两种较大的范围和较小的范围的尺度抖动对性能提升的影响,实验采用以efficientnetb7

fpn为backbone的mask r

cnn作为模型,输入图像的尺寸为640
×
640。标
准尺度抖动调整和裁剪图像的大小,调整范围为原始图像大小的0.8到1.25。大尺度抖动的调整范围在原始图像大小的0.1到2.0之间。如果图像比原始尺寸小,那么图像将填充灰色像素值。这两种缩放抖动方法也使用水平翻转。这些方法随机调整和裁剪图像。实验中观察到大规模抖动产生了显著的性能改进,而且随着训练时间越长,性能提升越显著。
71.实施例三:从coco数据集中选取不同尺寸图像,将不同尺寸图像进行大尺度抖动调整,再将不同尺寸图像输入至resnet50模型、resnet

101模型以及efficientnet

b7模型进行训练,评估实例分割模型检测性能;
72.进行对采取不同的标准主干网络架构和不同的输入图像尺寸的模型采用复制粘贴技术带来的性能提升。表明复制粘贴技术可以有助于提升使用resnet50和resnet

101的标准主干架构以及最新的efficientnet

b7架构的模型的性能。并且适应于使用不同输入尺寸的图像。我们使用这些主干训练模型的图像大小为640
×
640、1024
×
1024或1280
×
1280。实验结果显示,对于所有经过大尺度抖动的模型而言,我们性能得到了显著的改善。在具有不同主干和输入图像大小的6个模型中,复制粘贴技术平均提高了1.3boxap和0.8maskap。box就是用来评估目标检测性能的,mask是用来评估实例分割的性能
73.实施例四:在半监督学习环境下结合自训练方法及复制粘贴技术对实例分割模型进行训练,在训练完成后,评估实例分割模型检测性能,具体步骤如下:
74.s341、采用增强数据集对监督模型进行训练,得到新监督模型;
75.s342、用新监督模型对未进行数据增强的数据集进行训练,生成伪标签数据集;
76.s343、将目标对象实例粘贴到伪标签数据集和增强数据集中,得到粘贴数据集,并根据粘贴数据集来训练实例分割模型。
77.进行了在半监督学习环境下使用标准自训练方法与复制粘贴技术的结合的有效性,结果表明可以将两个方法结合在一起来利用未标记的数据。为了结合自我训练和复制粘贴,我们首先使用通过复制粘贴训练的监督教师模型在未标记的数据上生成伪标签。接下来,我们从coco中获取真实的标注,并将其粘贴到伪标记图像和coco图像中。最后,我们在所有这些图像上训练学生模型。实验结果表明采取两个方法相结合的策略,得到的模型性能比基准提高了2.9ap,其中如果只使用复制粘贴技术会提升的1.5ap,只使用自训练方法提升了1.5ap,将两者相结合,提升了2.9ap,基本可以认定为是一种增益可加的结合
78.实施例五:利用增强后的coco数据集和object365数据集去训练级联有efficientnet

b7主干网络和nas

fpn的mask r

cnn模型,并结合自训练的方法进行训练,判断训练后的模型是否可以改善coco上soat的实例分割方法;
79.实验研究了复制粘贴技术是否可以改善coco上soat的实例分割方法。目的为了展示采取复制粘贴技术的数据增强的增益及其通过自我训练获得的累加收益能够适应于各种soat的实例分割方法。实验采取的基准模型是一个级联有efficientnet

b7主干网络和nas

fpn的mask r

cnn模型。使用复制粘贴技术,我们观察到在box上有1.2ap的提升和mask上有0.5ap的提升。如果再加上自训练的方法,用无标签的coco和无标签的object365数据集进行伪标签化再进行训练,可以得到一个在box上2.5ap和mask上2.2ap的提升。
80.实施例六:利用增强后的coco数据集去训练级联有efficientnet

b7主干网络和nas

fpn的mask r

cnn模型,在pascal voc 2007和pascal voc2012数据集上来验证迁移学习的性能;
81.在迁移学习实验上,我们研究使用在coco数据集上采用复制粘贴技术训练的预训练实例分割模型的迁移学习性能。采用的模型是级联有efficientnet

b7主干网络和nas

fpn的在coco数据集上预训练的mask r

cnn模型。在pascal voc 2007和pascal voc2012数据集来验证迁移学习的性能。我们发现经过复制粘贴预训练后进行迁移的模型比基准的模型更好地进行微调。
82.实施例七:、在lvis数据集上对复制粘贴技术进行基准测试,以查看其在具有1203个类的长尾分布的数据集上的性能表现。
83.在lvis数据集上对复制粘贴技术进行基准测试,以查看其在具有1203个类的长尾分布的数据集上的性能表现。lvis基准测试使用单阶段的检测器的训练范例。我们在coco上的复制粘贴设置非常相似。除了标准的训练设置外,还使用某些方法来处理lvis上的分类不平衡的问题。我们采用了重复因子采样(rfs)的方法,t=0.001。此方法旨在通过对包含稀有类别的图像进行超采样来解决lvis上的大型类别不平衡问题。使用的模型是输入大小为640
×
640的efficientnet

b7fpn。通过rfs和复制粘贴技术的结合,能够很好地提升检测器的性能。最佳的整体效果来自rfs和复制粘贴增强功能的组合,实现了+2.4ap的提升。
84.对本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及形变,而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1