基于核函数注意力机制的目标检测方法、系统及介质

文档序号:36898009发布日期:2024-02-02 21:29阅读:29来源:国知局
基于核函数注意力机制的目标检测方法、系统及介质

本发明涉及计算机视觉领域,具体地,涉及一种基于核函数注意力机制的目标检测方法、系统及介质。


背景技术:

1、目标检测是计算机视觉领域中的重要环节,目标检测广泛运用于场景监控、医学图像、行人检测等方向中,目标检测的任务包括从包含多种物体的图像中,计算机自动识别图像中待检测物体的位置及其类别。传统的目标检测网络基于深度卷积网络所组成,包括一阶段网络和两阶段网络。其中,两阶段网络由特征提取模块、特征融合模块、分类和回归模块组成,特征提取模块为目标检测网络的核心,承载学习图像特征的任务,特征融合模块由特征金字塔构成,分类和回归模块由卷积网络和全连接层构成。

2、近年来,基于卷积的深度神经网络在检测精度上出现瓶颈,与此同时,基于注意力机制(attention)的transformer算法在图像检测领域取得长足进步。

3、基于注意力机制的transformer算法主要运用在自然语言处理领域,在后续发展过程中,逐渐运用在计算机视觉领域。但是由于注意力机制最初来源于自然语言处理领域,与计算机视觉任务具有较大区别,其中,语言信息较容易受词向量出现的位置顺序的影响,而在视觉任务中,目标的种类不受位置因素的影响,此外,目标检测的视觉任务存在目标尺度的变换,而自然语言处理中不涉及目标尺度变换的干扰。

4、基于注意力机制的目标检测算法能够学习像素和物体之间的关系,实现对目标的检测。然而,由于当前的基于注意力机制的目标检测算法未对注意力机制做出改进,依然是针对自然语言处理问题提出的算法,一方面,在解决目标检测问题时,会过多地学习目标的位置信息而非语义信息,在目标检测时容易出现精度不足的问题;另一方面,图像在出现遮挡的干扰信息时,会对目标的位置信息产生干扰,现有的基于注意力机制的目标检测算法对图像遮挡干扰缺乏鲁棒性。


技术实现思路

1、针对现有技术中的缺陷,本发明的目的是提供一种基于核函数注意力机制的目标检测方法、系统及介质。

2、为了实现上述目的,根据本公开的一个方面,提供一种基于核函数注意力机制的目标检测方法,包括:

3、将待测图像的图像像素信息进行编码处理,确定每一所述图像像素信息对应的图像向量信息,所述图像向量信息包括所述图像的语义特征;

4、将所述图像向量信息进行核函数处理,确定核函数注意力输出量;

5、根据通道注意力权重和每一层的所述核函数注意力输出量,确定所述待测图像的特征图像;

6、将所述待测图像的特征图像进行分类处理,确定所述待测图像中的待测目标的物体类别,将所述待测图像的特征图像进行回归处理,确定所述待测图像中的待测目标的位置。

7、可选地,所述将所述图像向量信息进行核函数处理,确定核函数注意力输出量,包括:

8、将所述图像向量信息划分为预设尺寸的窗口区域;

9、将每一所述预设尺寸的窗口区域内的图像向量信息进行核函数处理,确定每一图像向量信息与每一图像向量信息之间的高斯核函数值;

10、根据所述每一图像向量信息与每一图像向量信息之间的高斯核函数值,确定所述每一预设尺寸的窗口区域对应的向量相关度矩阵,所述向量相关度矩阵包括在所述预设尺寸的窗口区域内的每一图像像素信息与每一图像像素信息之间的关联程度;

11、将所述每一预设尺寸的窗口区域对应的向量相关度矩阵与所述向量相关度矩阵对应的预设尺寸的窗口区域内的每一图像向量信息进行乘积处理,确定所述核函数注意力输出量。

12、可选地,所述将每一所述预设尺寸的窗口区域内的图像向量信息进行核函数处理,确定每一图像向量信息与每一图像向量信息之间的高斯核函数值,包括:

13、

14、其中,k(x,y)表示图像向量信息x与图像向量信息y之间的高斯核函数值,σ表示高斯核函数的参数。

15、可选地,所述方法还包括:

16、采用平均池化层对特征提取网络中的每一层网络的每一通道进行信息融合处理,确定每一通道的初始权重;

17、依次对所述每一通道的初始权重进行降维处理和升维处理,获取每一通道的权重信息;

18、将所述每一通道的权重信息进行归一化处理,确定所述通道注意力权重。

19、可选地,所述根据通道注意力权重和每一层的所述核函数注意力输出量,确定所述待测图像的特征图像,包括:

20、将所述每一层的核函数注意力输出量作为新的图像向量信息进行核函数处理;

21、将所述通道注意力权重和最后一层所述核函数注意力输出量进行乘积处理,确定所述待测图像的特征图像。

22、可选地,所述将所述待测图像的特征图像进行分类处理,确定所述待测图像中的待测目标的类别,将所述待测图像的特征图像进行回归处理,确定所述待测图像中的待测目标的位置,包括:

23、将所述待测图像的特征图像输入分类分支网络,输出所述待测图像中的物体类别信息,确定所述待测图像中的待测目标的类别;

24、将所述待测图像的特征图像输入回归分支网络,输出所述待测图像中的物体位置信息,并将所述物体位置信息进行所述回归处理,确定所述待测图像中的待测目标的位置。

25、根据本公开的第二方面,提供一种基于核函数注意力机制的目标检测系统,包括:

26、编码模块,用于将待测图像的图像像素信息进行编码处理,确定每一所述图像像素信息对应的图像向量信息,所述图像向量信息包括所述图像的语义特征;

27、核函数注意力模块,用于将所述图像向量信息进行核函数处理,确定核函数注意力输出量;

28、特征提取模块,用于根据通道注意力权重和每一层的所述核函数注意力输出量,确定所述待测图像的特征图像;

29、目标检测模块,用于将所述待测图像的特征图像进行分类处理,确定所述待测图像中的待测目标的物体类别,将所述待测图像的特征图像进行回归处理,确定所述待测图像中的待测目标的位置。

30、可选地,所述特征提取模块包括预设数量的核函数注意力模块和预设数量的通道注意力机制模块,所述特征提取模块由预设数量的核函数注意力模块通过堆叠处理形成,并且,每一所述核函数注意力模块连接一个所述通道注意力机制模块。

31、根据本公开的第三方面,提供一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开第一方面提供的基于核函数注意力机制的目标检测方法的步骤。

32、根据本公开的第四方面,提供一种电子设备,包括:

33、存储器,其上存储有计算机程序;

34、处理器,用于执行所述存储器中的所述计算机程序,以实现本公开第一方面提供的基于核函数注意力机制的目标检测方法的步骤。

35、与现有技术相比,本公开实施例具有如下至少一种有益效果:

36、通过上述技术方案,将图像像素信息进行统一编码,并采用核函数处理的方式作为注意力机制的计算方式,无需将图像向量信息映射至三个不同的向量上,能够确定图像向量信息与图像向量信息之间的相关程度,即向量相关度矩阵,并且所确定的向量相关度矩阵具有对称性,以保证图像向量信息与其自身之间的相关程度最大,在特征提取时具有较好的位置鲁棒性,并且在图像遮挡中也能体现较好的鲁棒性,进而提高目标检测的准确性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1