一种基于多模态可学习提示的零样本异常检测方法

文档序号:39861360发布日期:2024-11-01 19:45阅读:来源:国知局

技术特征:

1.一种基于多模态可学习提示的零样本异常检测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于多模态可学习提示的零样本异常检测方法,其特征在于:所述的异常图像检测网络包括视觉编码网络、多层感知机mlp、多模态可学习提示模块和异常区域计算模块;视觉编码网络中加载有多模态可学习提示模块中的可学习视觉提示向量,视觉编码网络的输出经多个多层感知机mlp后输入到异常区域计算模块,同时通过多模态可学习提示模块获得可学习文本提示嵌入特征,将可学习文本提示嵌入特征输入到异常区域计算模块,异常区域计算模块的输出依次经改变特征维度操作和元素相加操作后获得异常区域热图的结果。

3.根据权利要求2所述的一种基于多模态可学习提示的零样本异常检测方法,其特征在于:所述的视觉编码网络包括依次进行的四个阶段,每个阶段均包含多层依次连接的残差注意层,视觉编码网络的每个阶段均输出视觉编码特征,四个阶段分别输出第一视觉编码特征t1、第二视觉编码特征t2、第三视觉编码特征t3和第四视觉编码特征t4作为视觉编码网络的输出。

4.根据权利要求3所述的一种基于多模态可学习提示的零样本异常检测方法,其特征在于:所述视觉编码网络输出的四个编码视觉特征均经各自的多层感知机mlp处理后获得四个视觉特征,四个视觉特征共同输入到异常区域计算模块中。

5.根据权利要求2所述的一种基于多模态可学习提示的零样本异常检测方法,其特征在于:所述的多模态可学习提示模块包括可学习文本提示嵌入特征e,可学习文本提示嵌入特征e的构建步骤如下:

6.根据权利要求3所述的一种基于多模态可学习提示的零样本异常检测方法,其特征在于:所述的多模态可学习提示模块还包括可学习视觉提示向量p,可学习视觉提示向量p插入至视觉编码网络中,可学习视觉提示向量p的构建步骤如下:

7.根据权利要求2所述的一种基于多模态可学习提示的零样本异常检测方法,其特征在于:所述的异常区域计算模块中,是根据视觉编码网络输出的视觉特征与多模态可学习提示模块输出的可学习文本提示嵌入特征按照以下方式的余弦相似度计算获得异常区域:

8.根据权利要求7所述的一种基于多模态可学习提示的零样本异常检测方法,其特征在于:将所述异常区域计算模块输出的四个初步异常区域图gm经改变特征维度操作reshape后获得了四个目标异常区域图mm,再将四个目标异常区域图mm按对应元素相加,获得最终的异常区域热图。

9.根据权利要求7所述的一种基于多模态可学习提示的零样本异常检测方法,其特征在于:所述步骤s2)训练时采用零样本迁移学习方法,对异常图像检测网络中的视觉编码网络的网络参数不做更新,仅对多模态可学习提示模块中可学习文本提示嵌入特征e、可学习视觉提示向量p的参数以及多层感知机mlp的参数进行优化训练。

10.根据权利要求7所述的一种基于多模态可学习提示的零样本异常检测方法,其特征在于:所述步骤s3)中具体是在异常区域热图中以像素值大于预设的异常阈值的图像区域作为异常区域。


技术总结
本发明公开了一种基于多模态可学习提示的零样本异常检测方法。方法包括针对正常样本和异常样本状态构建了通用性较强的可学习文本提示嵌入特征,针对视觉编码网络,设计可学习视觉提示向量,并插入到指定视觉编码网络的输入空间,利用视觉语言大模型的视觉编码网络从多个阶段提取输入图像的视觉特征,将获得的多个视觉特征与构建的可学习文本提示嵌入特征计算余弦相似度,通过构建的异常区域计算模块预测待检输入图像的异常区域。本发明提出的可学习文本提示嵌入特征有效降低了提示工程的设计难度,可学习视觉提示向量降低了大模型微调难度,异常检测网络不依赖文本编码网络,极大降低了网络的复杂度,同时提高了异常检测准确率。

技术研发人员:宋亚楠,潘柏松,吴全会
受保护的技术使用者:浙江工业大学
技术研发日:
技术公布日:2024/10/31
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1