一种基于Transformer和融合注意力机制的目标检测方法及系统与流程

文档序号:33741147发布日期:2023-04-06 09:59阅读:66来源:国知局
一种基于Transformer和融合注意力机制的目标检测方法及系统与流程

本发明属于深度学习计算机视觉相关,尤其涉及一种基于transformer和融合注意力机制的目标检测方法及系统。


背景技术:

1、本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。

2、随着近两年深度学习技术的发展,越来越精良的模型结构应运而生,2020年以前,图像视觉领域大多采用卷积神经网络(cnn)用于图像特征提取,卷积神经网络采用分层方式进行特征表示,相较于自然语言处理(nlp)采用序列进行特征表示,cnn需要逐层积累,由浅入深提取更高级的语义信息特征。即便如此cnn所获取的实际感受野仍远小于理论感受野,不利于特征信息的捕获,反而带来了计算量的剧增。为此不少学者开始尝试将nlp领域应用的transformer应用于计算机视觉(cv)领域。2020年google提出vit模型验证了transformer模型在图像分类领域的有效性。由此,基于transformer的cv时代得以展开。swin transformer模型提出于cvpr2021,该模型通过shifted windows来计算,针对视觉实体的尺度变换以及图像高分辨问题,借助shifted windows multi-head self-attention(sw-msa)概念,实现信息在相邻窗口间的传递,加强上下文联系,swin transformer在性能上展现了较好的优势,但其更倾向于获取图像的全局特征,对于局部信息的提取能力不强,而目标检测任务中存在较多低信噪比的目标特征,为此存在局部边缘纹理等特征信息提取能力弱的情况。


技术实现思路

1、为克服上述现有技术的不足,本发明提供了一种基于transformer和融合注意力机制的目标检测方法及系统,采用swin transformer技术作为骨干网络应用于目标检测任务中。同时提出agff方法融合局部感受野与transformer的全局信息,以进一步提升局部特征与全局信息融合的能力,增强低信噪比目标的检测效果。同时采用yolox检测器完成检测任务。

2、为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:一种基于transformer和融合注意力机制的目标检测方法,包括:

3、获取待检测图像进行预处理;

4、将预处理后的待检测图像输入至训练好的目标检测模型中,输出检测结果;

5、其中,所述目标检测模型包括swin transformer模块、注意力融合模块和检测模块,所述swin transformer模块用于提取待检测图像的全局特征,所述注意力融合模块用于局部特征提取,并将全局特征和局部特征采用跨层级联的方式进行融合,所述检测模块用于根据融合后的特征输出检测结果。

6、本发明的第二个方面提供一种基于transformer和融合注意力机制的目标检测系统,包括:

7、图像获取模块:获取待检测图像进行预处理;

8、目标检测模块:将预处理后的待检测图像输入至训练好的目标检测模型中,输出检测结果;

9、其中,所述目标检测模型包括swin transformer模块、注意力融合模块和检测模块,所述swin transformer模块用于提取待检测图像的全局特征,所述注意力融合模块用于局部特征提取,并将全局特征和局部特征采用跨层级联的方式进行融合,所述检测模块用于根据融合后的特征输出检测结果。

10、本发明的第三个方面提供一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成上述方法所述的步骤。

11、本发明的第四个方面提供一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述方法所述的步骤。

12、以上一个或多个技术方案存在以下有益效果:

13、在本发明中,将transformer模型应用于目标检测任务中,融合卷积神经网络,提高模型捕获特征能力。首先swin transformer可借助shifted windows实现相邻窗口信息交互和传递,弥补vit中只在窗口内进行特征交互的缺陷。同时在检测层分支处,引入三个1×1卷积层,实现维度变换的同时获取局部边缘纹理特征信息,以提升模型的特征提取能力。

14、在本发明中,提出了一种注意力全局特征融合方法(agff),该方法是将局部感受野信息与全局信息做融合,该方式采用跨层级联的方式,融合语义和尺度不一致的特征,将不同层的语义信息融合的同时,获取到由transformer处得到的全局信息,在此基础上,将局部感受野信息与全局信息作进一步融合处理以实现特征融合。

15、在本发明中,采用yolox检测器,该检测器采用anchor-free机制,具有更高的灵活性和适应性。同时采用分支解耦头部,极大的改善了收敛速度。引入simota方法,自动分析每个ground truth(gt)所需样本数,自适配gt对应特征图以完成检测任务。

16、本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。



技术特征:

1.一种基于transformer和融合注意力机制的目标检测方法,其特征在于,包括:

2.如权利要求1所述的一种基于transformer和融合注意力机制的目标检测方法,其特征在于,所述swin transformer模块包括依次顺序连接的4个layer层,其中,layer1层包括依次连接的linear embedding层和2个swin transformer block层;layer2层包括依次连接的patch merging层和2个swin transformer block层;layer3层包括依次连接的patchmerging层和6个swin transformer block层;layer4层包括依次连接的patch merging层和2个swin transformer block层。

3.如权利要求1所述的一种基于transformer和融合注意力机制的目标检测方法,其特征在于,所述swin transformer block层包括w-msa结构以及sw-msa结构,所述w-msa结构对特征图进行分割,分割为多个窗口;所述sw-msa结构对分割的多个窗口进行像素偏移,使多个窗口实现信息交流。

4.如权利要求2所述的一种基于transformer和融合注意力机制的目标检测方法,其特征在于,1×1的卷积层分别对layer1层的输出特征图、layer2层的输出特征图以及layer4层的输出特征图进行维度变换分别得到第一特征图、第二特征图、第三特征图。

5.如权利要求4所述的一种基于transformer和融合注意力机制的目标检测方法,其特征在于,分别将layer1层的linear embedding层的输出特征图与第一特征图、layer4层的patch merging层的输出特征图和layer4层的输出的第三特征图作为所述注意力融合模块的输入进行特征融合后输出第四特征图和第五特征图。

6.如权利要求5所述的一种基于transformer和融合注意力机制的目标检测方法,所述注意力融合模块包括最大池化层和平均池化层,将注意力融合模块的两个输入融合相加后分别输入至两个分支最大池化层、平均池化层;将两个分支的输出结果输入至sharedmlp层,所述sharedmlp层将两个分支输出结果的像素点位置元素相加,得到特征融合信息;将所述特征融合信息输入至global_mlp层进行不同层的融合;

7.如权利要求5所述的一种基于transformer和融合注意力机制的目标检测方法,其特征在于,所述第四特征图、layer2层输出的特征图、第五特征图分别作为预测模块的三个预测分支,所述预测模块采用yolox检测器;

8.一种基于transformer和融合注意力机制的目标检测系统,其特征在于,包括:

9.一种计算机可读存储介质,其上存储有计算机程序,其特征是,该程序被处理器执行时实现如权利要求1-7中任一项所述的一种基于transformer和融合注意力机制的目标检测方法中的步骤。

10.一种处理装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征是,所述处理器执行所述程序时实现如权利要求1-7中任一项所述的一种基于transformer和融合注意力机制的目标检测方法中的步骤。


技术总结
本发明提出了一种基于Transformer和融合注意力机制的目标检测方法,包括:获取待检测图像进行预处理;将预处理后的待检测图像输入至训练好的目标检测模型中,输出检测结果;其中,所述目标检测模型包括Swin Transformer模块、注意力融合模块和检测模块,所述Swin Transformer模块用于提取待检测图像的全局特征,所述注意力融合模块用于局部特征提取,并将全局特征和局部特征采用跨层级联的方式进行融合,所述检测模块用于根据融合后的特征输出检测结果。融合局部感受野与Transformer的全局信息,以进一步提升局部特征与全局信息融合的能力,增强低信噪比目标的检测效果。

技术研发人员:赵志刚,张兆虔,耿丽婷,霍吉东,李传涛,王春晓,张俭,李响
受保护的技术使用者:山东省计算中心(国家超级计算济南中心)
技术研发日:
技术公布日:2024/1/12
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1