一种跨域小样本缺陷目标检测方法

文档序号：32896579发布日期：2023-01-13 00:32阅读：57来源：国知局

1.本发明涉及深度学习小样本目标检测方法，具体涉及一种基于多尺度注意力机制和双感兴趣区域头部结构(region of interest head，roi head)的跨域小样本缺陷目标检测模型方法，属于计算机视觉技术领域。

背景技术：

2.工业技术的发展在经济、社会和文化中发挥着重要作用。目前，人工智能理论和技术可以加速产业技术的转型，图像目标检测方法特别是基于深度学习的目标检测方法，已被应用于工业缺陷检测。
3.在工业领域，不良品只占大批量生产的很小一部分；换句话说，工业领域不良品的概率分布属于长尾分布，正常产品的数据多，缺陷产品的数据少。但是，如果这些产品在交付前没有被发现，产品的使用寿命就会降低，从而产生个人和社会保障风险，并对个人和社会造成重大安全事故。因此，对工业产品的缺陷对象进行检测和分类对产品质量的控制具有重要意义。目前，国内许多工厂使用人工视觉对产品缺陷进行检测和分类，但存在效率低、易疲劳、精度差等问题。与传统的人工视觉检测和图像处理方法相比，机器视觉的工业目标检测具有明显的优势。特别是近年来，随着深度学习技术的发展，基于深度学习的方法可以提高检测精度，稳定模型并降低成本。对工业目标检测和分类的发展具有重要意义。
4.根据不同的下游任务，工业缺陷检测方法可分为缺陷分类、缺陷目标检测和缺陷分割。其中，缺陷目标检测方法不仅可以判断图像中是否存在缺陷，还可以实现缺陷的定位。随着双阶段的更快区域卷积神经网络(faster r-cnn)的发展，它首先被引入工业缺陷目标检测。在早期阶段，faster r-cnn直接应用于混凝土裂纹检测、钢腐蚀检测、螺栓腐蚀检测、钢层检测、高压线上绝缘子断裂检测及浴室陶瓷检测等。faster r-cnn使得工业缺陷检测性能相较于使用深度学习方法前大大提高。此后，基于faster r-cnn的改进性工业缺陷目标检测逐渐被提出。例如，li等人设计了一种用于混凝土表面缺陷检测的监督深度卷积神经网络。经过网络训练，检测精度可达80.7％平均精度均值(mean average precision，map)，一幅图像的处理时间仅为0.41s。此外，随着单阶段目标检测模型的发展，即yolo(只需要看一次模型)、ssd(单次探测器)等，它们也已应用于工业缺陷目标检测。显然，将深度学习方法引入工业缺陷目标检测是可行的途径。然而，直接用于工业缺陷检测任务的深度学习方法的研究仍处于起步阶段，存在缺陷样本尺度不一、缺陷细粒度问题(缺陷之间太过相似难以分辨)、小样本学习的模型微调快速学习等研究难点。

技术实现要素：

5.为了解决上述现有技术存在的问题，本发明实现一种基于深度学习的工业缺陷小样本目标检测方法，建立了多尺度残差注意力和双roi head模型(multi-scale attention mechanism anddouble roi heads model，mam-droih)。
6.本发明提供的技术方案是：
7.一种跨域小样本缺陷目标检测方法，如图1所示，其步骤包括：
8.1)在残差网络基础上，融入特征金字塔结构fpn和残差注意力模块ram构成主干网路，图片以张量格式输入该网络，经过特征提取操作后得到特征图；
9.2)将特征图送入gdl层进行前向传播，得到的输出分别传入区域生成结构rpn网路和双感兴趣区域头部结构roi head，其中每个roi head部分包括r-cnn网路、框分类器和框回归器；其中rpn网络用于提供可能存在目标的回归框，r-cnn网络用于对特征图进行处理；
10.3)将每个感兴趣区域头部网络中框分类器得到的分数和框回归器得到的参数融合，输出给总的框分类器和框回归器，通过原型校准模块pcb对总的框分类器得到的预测分数进行校准得到最后的预测类别分数，再通过总的框回归器得到最后预测坐标，从而实现小样本缺陷目标检测。
11.为了解决样本尺度不一及小样本目标检测模型快速微调的问题，本发明提出了多尺度残差注意力机制，多尺度残差注意力机制包括特征金字塔结构(fpn)和残差注意力模块 (ram)，通过多尺度残差注意力网络后输出的特征图进入梯度解耦层(gdl)；双感兴趣区域头部结构用来解决缺陷细粒度问题，将每个感兴趣区域头部网络中框分类器得到的分数和框回归器得到的参数融合得到预测类别分数和预测坐标，输出给总的框分类器和框回归器，通过原型校准模块pcb对总的框分类器得到的预测分数进行校准得到最后的预测类别分数，通过总的框回归器得到最后的预测坐标。实验结果表明，本发明在跨域小样本目标检测场景下具有很强的鲁棒性和泛化能力，不仅保证了参数的充分学习，而且不会产生严重的过拟合现象。
附图说明
12.图1：本发明基于多尺度注意力和双roi head的跨域小样本缺陷目标检测模型网络结构图；
13.图2：本发明具体实施例中主干网络架构示意图；
14.图3：本发明具体实施例中特征金字塔结构示意图；
15.图4：本发明具体实施例中残差注意力模块结构示意图。
具体实施方式
16.本发明模型结构包括：(1)特征提取部分，该部分包括残差网络结构、特征金字塔结构 (fpn)和残差注意力模块(ram)；(2)带有梯度解耦层gdl的rpn和r-cnn结构；(3)双头感兴趣区域头部结构，双头roi head的框回归器的外积结果作为最终的预测框结果，pcb 模块与双头roi head的框分类器输出结果的组合作为最终的分类结果。
17.如图2所示，本发明主干网路结构包括：采用多尺度模型的特征金字塔结构解决缺陷样本尺度不一的问题，特征金字塔结构是用于检测不同尺度目标模型的基本组件，该结构具有从低级到高级的语义，并构建一个具有高级语义的特征金字塔，不仅可以增强多尺度信息，还可以避免计算过多的问题；经典的特征金字塔由两个阶段组成，即自下而上和自上而下的过程；自下而上阶段与典型的cnn模型相同，经过一系列的卷积操作得到不同大小的特征图，相同大小的特征图归为一个阶段(stage)，每次抽取的特征都是每个stage的最后一层输出，这样就能构成特征金字塔，如图3所示，最后自下而上阶段生成4个stage，分别
为conv2(c2)，conv3(c3)，conv4(c4)，conv5(c5)，以640
×
640
×
3的输入图像为例，通过一系列卷积操作后c2、c3、c4、c5输出的特征图的维度大小分别为160
×
160
×
256、80
×
80
×
512、40
×
40
×
1024、20
×
20
×
2048；自上而下阶段，把高层特征图进行上采样，这里的上采样是一个2倍的上采样，上采样后保证了特征图的高和宽相同，使用横向连接可以进行相加融合操作。上采样的算法采用的是最近邻插值算法。然后把该特征横向连接(lateralconnections)至前一层特征，使得高层特征得到加强，在横向连接时采用1
×
1大小的卷积核，主要作用是调整不同特征层的输出通道数，使得通道数都为256，以便于上采样后的其他层特征可以相加。每个横向连接融合来自自下而上和自上而下的路径上同样空间尺寸的特征图。在进行融合后采用3
×
3大小的卷积核对每个融合结果进行卷积，目的是消除上采样的混叠效应。假设生成的特征图结果是p2、p3、p4、p5，与原来自下而上的卷积结果c2、c3、c4、c5一一对应。
18.本发明采用残差注意力模块(ram)解决小样本模型在微调阶段快速学习的问题，残差注意力模块主要由残差单元和卷积层组成，如图4所示，利用上、下采样融合不同语义层之间的特征信息，最后得到注意力参数增强特征信息，残差注意力模块涉及的公式如下：
19.h
i,c
(x)＝(1+m
i,c
(x))
·fi,c
(x)(1)
[0020][0021][0022][0023]
其中，h
i,c
(x)是残差注意力模块的输出，f
i,c
(x)是最后一层的特征图，m
i,c
(x)是由ram计算的掩码注意力参数。不同的注意力机制可以通过f(x)来选择：空间注意力机制对应f3(x)，通道注意力机制对应f2(x)，混合注意力机制对应f1(x)；具体的，设f(x)为残差注意力模块的输入特征图，f(x)依次经过3次下采样和3次上采样进行不同语义层的特征信息处理，最后得到注意力参数m(x)，在特征图f(x)降维和升维的过程中伴随着残差单元操作，残差单元是残差网络的核心组成部件，不会改变特征图的维度，只是为了丰富特征信息，f(x)经过3个残差单元后得到f
′
(x)，通过增强特征信息后得到特征图f
″
(x)，如式(5)所示：
[0024]f″
(x)＝(1+m(x))f
′
(x)(5)
[0025]
将fpn模型中自下而上阶段的一系列卷积操作上同时加入ram结构，组成多尺度残差注意力机制的骨干网络。
[0026]
本发明每个感兴趣区域头部分包括r-cnn、框分类器和框回归器，其中残差网络结构、特征金字塔结构和残差注意力模块为主要特征提取结构，图片首先以张量(tensor)格式输入网络，经过一系列特征提取操作后得到特征图，将特征图送入梯度解耦层进行前向传播，分别作为区域生成网络结构和r-cnn结构的输入，其中区域生成网络结构提供可能存在目标的回归框，r-cnn结构将特征图进行处理，进一步送入框分类器和框回归器对目标进行分类识别和生成预测框，将区域生成网络结构输出的特征图与经过梯度解耦层层进行前向传播的特征图分别送入两个相同的感兴趣区域头部网络，两个感兴趣区域头部网络的框分类器和框回归器对应的外积结果是mam-droih模型最终的输出结果。
[0027]
其中，在感兴趣区域头部结构处采用双roi头结构，解决缺陷细粒度图像分析 (fine-grained image analysis，fgia)的问题；具体来说，用于图像分类的双线性卷积神经网络模型由四元模型组成,如式(6)所示：
[0028]
b＝(fa,fb,p,c)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0029]
其中，fa和fb是特征函数，p是池化函数，c是分类函数。特征函数是获取图像i和位置l并输出大小为c
×
d特征的映射。通过矩阵外积将每个位置的特征输出进行组合，即在某一位置l的双线性特征组合由双线性网络给出,如式(7)所示：
[0030]
(l,i,fa,fb)＝fa(l,i)
t
fb(l,i)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0031]
本发明中，双头感兴趣区域头部的框回归器输出的是物体的坐标，最终的分类结果是由原型校准模块输出与双头感兴趣区域头的输出组合得到的。
[0032]
下面结合附图，使用3种工业数据集进行实验，对mam-droih模型进行评估，作为实例对本发明作进一步描述：
[0033]
1.利用公共的数据分割方法来划分3种工业数据集(dagm 2007、neu-det、法兰轴数据集)，以此来公正评估本发明方法。如表1、表2和表3所示，首先将3种数据集共计 24个类别的5421张缺陷样本按照1：1的比例划分为训练集和测试集；然后按照小样本目标检测的数据集划分方法，将dagm 2007和neu-det数据集共16个类别设置为基类，法兰轴零件数据集共8个类别设置为新类别(这里采用跨域的思想，即源域和目标域来自于不同的数据集)；再根据先前研究者们在工作中提供的划分方法，将novel类别的每个类别随机选择k＝1，2，3，5，10个样本作为微调的样本。本实验采用了通用的小样本目标检测评估方法，选择的评估指标是新类平均精度均值(novel mean average precision，nap)、交并比(iou) 阈值大于0.5时的新类平均精度均值(nap50)、交并比(iou)阈值大于0.75时的新类平均精度均值(nap75)等。
[0034]
表1基类dagm 2007数据划分情况
[0035][0036]
表2基类neu-det数据划分情况
[0037][0038][0039]
表3新类法兰轴数据划分情况
[0040][0041]
模型训练采用端到端的随机梯度下降算法优化参数，其它实验设置如表4所示：
[0042]
表4实验参数设置
[0043][0044]
实验环境如表5所示。rpn的gdl中的λ设置为0以停止梯度，r-cnn的gdl中的λ设置为0。在基类训练期间λ为0.75，在新类微调期间λ为0.01用于缩放梯度。在所有设置中 pcb的α统一设置为0.5。
[0045]
表5实验环境
[0046][0047]
基类预训练模型的迭代次数和使用新类微调模型的迭代次数如表6所示：
[0048]
表6模型在训练和微调时的情况
[0049][0050]
2.将图片送入网络模型当中，进行训练与推理。图片按批次进入网络模型，以tensor格式输入，经过由残差网络结构、特征金字塔结构(fpn)和残差注意力模块(ram)组成的主干网络，输出的特征图进入梯度解耦层gdl，得到的输出分别传入rpn和感兴趣区域头部结构，在感兴趣区域头部结构处采用双roi head，将每个roi head中框分类器得到的分数和框回归器得到的参数进行融合，输出给总的框分类器和框回归器，通过原型校准模块pcb对总的框分类器得到的预测分数进行校准，得到最后的预测类别分数，通过总的框回归器得到最后的预测坐标。
[0051]
3.基于mam-droih模型进行跨域小样本缺陷目标检测实验，得到实验结果。汽车零件法兰轴数据集的共8个类别的平均精度均值map结果如表7所示。
[0052]
表7法兰轴数据集中每个类别的map(％)检测结果
[0053][0054]
显然，本发明所提出的基于多尺度注意力和双roi head的跨域小样本缺陷目标检测模型，在大部分类别中的检测结果都优于defrcn模型的结果。在1-shot设置的齿轮类别情况下，提升了大约8％，其它类别也有不同程度的提升。充分说明了本发明提出的方法可以使模型在小样本情况下快速让模型学习和优化，解决了小样本在微调时快速学习的问题，并且能够达到很好的检测效果。针对尺度不一的问题，测试集中不同大小的缺陷在本发明方法中的目标检测结果相较于原模型方法均有提升，体现了fpn结构的作用。针对缺陷图像细粒度分析问题(fgia)，在挫伤和裂纹相似度高的类别上也均有提升，体现了双roi head结构的作用。在10-shot设置下所有类别的检测结果均得到了提升，提升了大约1％～12％。对于难检测的裂纹缺陷目标检测结果实现了成倍的增长。表8显示了在不同评估方法下，对于综合评估能力较强的nap指标，在所有设置中本发明所提出的方法都始终优于defrcn。对于综合评估条件较为苛刻的nap75指标，在所有设置中本发明的方法优于defrcn。
[0055]
表8汽车零件法兰轴数据集上的实验结果
[0056]
[0057][0058]
最后需要注意的是，公布实例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：肖洪兵洪兆瑞于重重萨良兵
技术所有人：北京工商大学
我是此专利的发明人

上一篇：一种折叠式多腔收纳包装盒的制作方法
上一篇：基于单元化的分布式事务处理系统及方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。