本发明涉及工业计算机视觉领域,特别涉及一种基于视觉大模型的通用外观缺陷检测方法。
背景技术:
1、随着深度神经网络的发展,现有的一些深度学习工业缺陷检测技术在精度上已经大大超越了传统工业视觉方法,但是,在实际应用中,缺陷检测技术依旧存在如下缺陷:
2、(1)因为大多数工业数据背景结构简单,但是缺陷样式复杂,导致现有的工业缺陷检测方法泛化性差,对某一张工业零件图像容易过拟合。
3、(2)现有的工业缺陷检测方法需要较高的训练成本和人工标注成本。
4、(3)现有的工业检测方法缺陷依赖于单个模型,对不同缺陷需要不同模型检测,耗时耗力,不能够有效支撑项目完成周期。
5、因此,本发明提出了一种基于视觉大模型的通用外观缺陷检测方法,用于解决上述问题。
技术实现思路
1、为了解决上述技术问题,本发明中披露了一种基于视觉大模型的通用外观缺陷检测方法,所述方法包括步骤如下:
2、s1,在自动化缺陷检测机台收集带有缺陷的图片作为提示,调整缺陷图片尺寸为h*w,并进行色彩归一化,其中,h为高,w为宽;
3、s2,对缺陷图片中的缺陷进行人工标注,通过第一编码器生成缺陷图片标签并编码提取缺陷图片特征t1;
4、s3,缺陷图片特征t1经过编码计算得到目标区域特征目标区域特征经过归一化块编码计算得到目标嵌入特征t2;
5、s4,将目标区域特征和目标嵌入特征t2保存至内存库,其中内存库通过python实例化实现,通过加载gpu来将目标区域特征和目标嵌入特征t2存放在gpu内存上,对实例化参数调用不分次数;
6、s5,构建缺陷检测端到端神经网络模型,初始化模型参数并部署到自动化缺陷检测机台;
7、优选地,所述第一编码器和所述第二编码器为tinyvit编码器;所述视觉大模型解码器为sam解码器;
8、所述第一编码器通过与视觉大模型sam编码器进行神经网络蒸馏而获得,所述第二编码器结构与所述第一编码器相同,所述余弦相似度块用来量化所述第一编码器输出的目标区域特征和所述第二编码器输出的待检测图片特征s1之间的相似程度。
9、优选地,所述步骤s2中,缺陷图片中的缺陷通过第一编码器生成缺陷图片标签,缺陷图片特征t1的输出维度为b×h/32×w/32×c,b为图片输入批次,一般为1,c为输出通道,设为256。
10、优选地,所述步骤s3中目标区域特征的编码计算过程为:
11、
12、其中,mask为二值化操作之后的缺陷图片标签,
13、所述目标嵌入特征t2的经过归一化块的编码计算过程为:
14、
15、其中,mean表示对输入张量在第一个维度求平均值,norm操作为弗罗贝尼乌斯范数,对矩阵求范数,代表矩阵相乘。
16、s6,调整待检测图片尺寸为h*w,并进行色彩归一化,其中,h为高,w为宽;
17、s7,对待检测图片中的缺陷进行人工标注,通过第二编码器生成缺陷图片标签并编码提取缺陷图片特征s1;
18、优选地,所述待检测图片中的缺陷通过第二编码器生成缺陷图片标签,缺陷图片特征s1的输出维度为b×h/32×w/32×c,b为图片输入批次,一般为1,c为输出通道,设为256。
19、s8,将待检测图片特征s1与内存库中的目标区域特征经过余弦相似度块编码计算得到目标导向注意力图s2,并根据余弦相似度数值大小进行阈值卡控从而得到位置提示信息t3;
20、优选地,所述目标导向注意力图s2编码计算过程如下:
21、
22、norm操作为弗罗贝尼乌斯范数对矩阵求范数,代表矩阵相乘。
23、优选地,所述余弦相似度数值大小通过topk算法量化,根据余弦相似度数值大小进行阈值卡控,如果低于阈值,则返回在自动化缺陷检测机台上提示通过,表示该图片没有缺陷,如果高于阈值,topk算法则返回两个提示点坐标信息,分别为最相似的和最不相似的,对应视觉大模型解码器的位置提示接口,提示点坐标信息填充之后通过和掩码嵌入张量通道堆叠操作之后得到位置提示信息t3。
24、s9,将目标嵌入特征t2、目标导向注意力图s2、位置提示信息t3、待检测图片特征s1输入视觉大模型解码器,得到特征张量s3;
25、s10,特征张量s3经过上采样块编码得到预测图像p,并输出到自动化缺陷检测机台;
26、优选地,所述上采样块采用方法是双线性插值,输出图像大小为原图大小。
27、本发明的优点如下:
28、(1)在本发明步骤s1、s2和s3中,只需要一张及以上带有指定缺陷的图片以及标注,能有效减少标注时间,因为只对缺陷图片进行特征提取,免去其他发明中训练部分的迭代以及神经网络反向传播计算,所以能有效节省算力。
29、(2)在本发明步骤s4中,通过建立内存库将目标区域特征和目标嵌入特征t2保存,在步骤s8中直接调用内存库来有效节省算力、训练成本和人工成本。
30、(3)在本发明步骤s1中,用户可通过提供不同的缺陷图片来决定模型检出缺陷类型,假设共存在m种缺陷,对于指定缺陷数量及指定缺陷类型,在推理部分输入n张待检测图片,通过softmax函数计算存在指定缺陷数量及指定缺陷类型预测概率y。因为相较于现有技术检测新的缺陷需要制定一个新的数据集,再通过对新的数据集重新标注来训练模型,而本发明无需迭代即可得到一个新的缺陷检测模型,可有效适应更短的项目周期。
31、(4)在本发明中,构建的第一tinyvit编码器通过与视觉大模型sam编码器进行神经网络蒸馏而获得,既保留了视觉大模型学习大数据的泛化能力和精度,又有效减少了模型参数量大小,参数量仅为21m,在teslav100工业显卡上乘加累积操作数仅为4.3g,能有效部署在自动化缺陷检测平台服务中。
32、(5)在本发明步骤s8中,如图2所示,余弦相似度块可通过量化余弦相似度来直接返回结果,因为现工业外观数据中主要以不带缺陷样本为主,所以此功能能有效节约检测时间,提高检测速度。
33、(6)本发明通过结合缺陷检测与视觉大模型,依赖于大模型预训练的复杂数据集,减少训练成本并提高检测精度。利用特定缺陷图片作为神经网络提示,增强方法的泛化性和模型部署的灵活性,适应不同缺陷检测项目,满足客户需求。
1.一种基于视觉大模型的通用外观缺陷检测方法,其特征在于,包括步骤如下:
2.根据权利要求1所述的一种基于视觉大模型的通用外观缺陷检测的方法,其特征在于,所述第一编码器和所述第二编码器为tinyvit编码器;所述视觉大模型解码器为sam解码器。
3.根据权利要求2所述的一种基于视觉大模型的通用外观缺陷检测方法,其特征在于,所述第一编码器通过与视觉大模型sam编码器进行神经网络蒸馏而获得,所述第二编码器结构与所述第一编码器相同,所述余弦相似度块用来量化所述第一编码器输出的目标区域特征和所述第二编码器输出的待检测图片特征s1之间的相似程度。
4.根据权利要求1所述的一种基于视觉大模型的通用外观缺陷检测方法,其特征在于,所述步骤s2中,缺陷图片中的缺陷通过所述第一编码器生成缺陷图片标签,缺陷图片特征t1的输出维度为b×h/32×w/32×c,b为图片输入批次,c为输出通道。
5.根据权利要求4所述的一种基于视觉大模型的通用外观缺陷检测方法,其特征在于,所述步骤s3中目标区域特征的编码计算过程为:
6.根据权利要求1所述的一种基于视觉大模型的通用外观缺陷检测方法,其特征在于,所述步骤s7中,待检测图片中的缺陷通过所述第二编码器生成缺陷图片标签,缺陷图片特征s1的输出维度为b×h/32×w/32×c,b为图片输入批次,c为输出通道。
7.根据权利要求6所述的一种基于视觉大模型的通用外观缺陷检测方法,其特征在于,所述步骤s8中,目标导向注意力图s2编码计算过程如下:
8.根据权利要求1所述的一种基于视觉大模型的通用外观缺陷检测方法,其特征在于,所述步骤s8中,余弦相似度数值大小通过topk算法量化,根据余弦相似度数值大小进行阈值卡控,如果低于阈值,则返回在自动化缺陷检测机台上提示通过,表示该图片没有缺陷,如果高于阈值,topk算法则返回两个提示点坐标信息,分别为最相似的和最不相似的,对应视觉大模型解码器的位置提示接口,提示点坐标信息填充之后通过和掩码嵌入张量通道堆叠操作之后得到位置提示信息t3。
9.根据权利要求1所述的一种基于视觉大模型的通用外观缺陷检测方法,其特征在于,所述步骤s10中,所述上采样块采用双线性插值法处理图像,所述上采样块输出图像大小为原图大小。