基于级联注意力的检测模型训练和目标检测方法、系统

文档序号:36080192发布日期:2023-11-18 01:16阅读:46来源:国知局
基于级联注意力的检测模型训练和目标检测方法、系统

本发明涉及计算机视觉、模式识别及人工智能,具体涉及一种基于级联注意力的目标检测模型训练方法、系统及目标检测方法、系统。


背景技术:

1、近年来,海量图片视频数据的涌现,为图像及视频语义理解研究提供了新的动力与挑战。在此背景下,基于全监督的视觉分析与理解仍是计算机视觉领域中的热门研究方向。作为计算机视觉领域的一项经典任务,目标检测旨在识别图像中感兴趣物体的位置和类别。同时作为计算机视觉领域中的一个重要分支,目标检测已经迅速发展并产生了深远影响,为图像分割、场景理解、目标跟踪等视觉任务的实现提供了重要的辅助作用,具有较为广阔的研究价值。此外,与目标检测相关的技术应用也在加速落地,在自动驾驶、智能安防、医疗影像分析等实际任务具有较高的经济价值。

2、在目标检测任务中,复杂场景下的目标常存在遮挡或部分遮挡等现象,导致目标的不完整,从而引起目标的定位不准确问题。基于深度学习的目标检测方法更关注显著区域的目标,不完整目标的信息随着神经网络层数的增加逐渐被完整目标的显著信息取代,无法有效获取不完整目标的信息,从而造成不完整目标的定位不准确问题。

3、针对目标不完整性导致的信息丢失问题,近年来,基于特征金字塔结构的方法从增强特征空间表征能力和多尺度融合角度挖掘目标信息,综合不同感受野更好地学习不完整目标的特征信息,有效缓解了不完整目标的信息缺失问题。如ma j,chen b等人于2020年提出双重细化特征金字塔网络drfpn,该网络模型从上采样和多尺度融合两个角度进行改善,借助相邻网络层之间的上下文信息学习上采样中的位置信息,实现更加鲁棒的上采样,借助通道注意力机制实现多尺度融合过程中特征通道的自适应合并。luo y,cao x等人于2022年提出通道增强特征金字塔网络cefpn,该网络模型重点从特征通道维度的信息利用角度考虑,利用子像素卷积代替1x1卷积和融合过程中的上采样,将1x1卷积过程中减少的通道信息,弥补在特征的空间上下文信息中。同时使用多种卷积组合获取更大感受野的局部信息和全局信息,结合利用通道注意力机制,生成更具判别性的特征。

4、尽管上述这些方法有效缓解信息丢失的问题,实现了特征增强,但仍然存在不足,如在基于注意力机制进行特征增强时,仅考虑当前层的特征增强与注意力学习过程,忽略了其他网络各层的层级关系。


技术实现思路

1、本发明的目的在于提供一种基于级联注意力的目标检测模型训练方法、系统及目标检测方法、系统,以解决上述背景技术中存在的至少一项技术问题。

2、为了实现上述目的,本发明采取了如下技术方案:

3、一方面,本发明提供一种基于级联注意力的检测模型训练方法,包括:

4、获取目标检测训练集;所述训练集包括多个图像以及标注多个所述图像中待识别目标的标签;

5、基于所述多个图像作为输入,并且基于所述图像中标注的待识别目标作为输出,进行检测模型的训练,所述检测模型包括主干网络、级联注意力金字塔网络、区域生成网络和感兴趣区域池化网络;

6、其中,所述主干网络用于提取训练集像的全局特征;所述级联注意力金字塔网络用于对网络的最高层特征进行级联注意力增强并融合,为浅层特征增加更具判别力的高阶语义信息,得到增强后的多尺度特征;所述区域生成网络用于对多尺度特征进行候选区域生成,得到多个尺度下的候选区域得分和侯选区域框,对这五个尺度下的候选框进行两次非极大值抑制处理,并计算分类损失与回归损失,完成第一阶段中候选区域的生成;所述感兴趣区域池化网络用于对候选区域框对应的图像特征进行大小固定后,完成对候选区域的第二阶段候选框调整与类别预测,得到目标检测结果。

7、可选的,将区域生成网络的损失与感兴趣区域池化网络的损失相加,作为最终的检测损失函数。

8、可选的,将训练集分批次输入网络模型进行前向传播,并通过检测损失函数计算出损失值,进行反向传播优化网络模型,直到所述的检测损失值趋于收敛时停止训练,得到最终训练完成的基于级联注意力的目标检测模型。

9、可选的,获取目标检测测试集,将测试集中的图片数据预处理操作,输入到训练好的基于级联注意力的目标检测模型,得到预测框与类别输出,按照预测框的置信度从大到小的顺序进行排列,进行非极大值抑制,得到检测结果。

10、第二方面,本发明提供一种基于级联注意力的检测模型训练系统,包括:

11、获取模块,用于获取目标检测训练集;所述训练集包括多个图像以及标注多个所述图像中待识别目标的标签;

12、训练模块,用于基于所述多个图像作为输入,并且基于所述图像中标注的待识别目标作为输出,进行检测模型的训练,所述检测模型包括主干网络、级联注意力金字塔网络、区域生成网络和感兴趣区域池化网络;

13、其中,所述主干网络用于提取训练集像的全局特征;所述级联注意力金字塔网络用于对网络的最高层特征进行级联注意力增强并融合,为浅层特征增加更具判别力的高阶语义信息,得到增强后的多尺度特征;所述区域生成网络用于对多尺度特征进行候选区域生成,得到多个尺度下的候选区域得分和侯选区域框,对这五个尺度下的候选框进行两次非极大值抑制处理,并计算分类损失与回归损失,完成第一阶段中候选区域的生成;所述感兴趣区域池化网络用于对候选区域框对应的图像特征进行大小固定后,完成对候选区域的第二阶段候选框调整与类别预测,得到目标检测结果。

14、第三方面,本发明提供一种目标检测方法,包括:

15、获取待检测的图像;

16、利用目标检测模型对图像中的目标进行检测,得到目标检测结果;其中,所述目标检测模型根据如上所述的基于级联注意力的检测模型训练方法训练得到。

17、第四方面,本发明提供一种目标检测系统,包括:

18、获取模块,用于获取待检测的图像;

19、检测模块,用于利用目标检测模型对图像中的目标进行检测,得到目标检测结果;其中,所述目标检测模型根据如上所述的基于级联注意力的检测模型训练方法训练得到。

20、第五方面,本发明提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现如上所述的目标检测方法。

21、第六方面,本发明提供一种计算机程序产品,包括计算机程序,所述计算机程序当在一个或多个处理器上运行时,用于实现如上所述的目标检测方法。

22、第七方面,本发明提供一种电子设备,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现如上所述的目标检测方法的指令。

23、本发明有益效果:利用注意力机制并通过级联的方式,挖掘了网络各层的层级关系,以获得更具判别力的图像表示,提取出更优的特征,进而实现更加精准的候选区域生成,提高检测的精度。

24、本发明附加方面的优点,将在下述的描述部分中更加明显的给出,或通过本发明的实践了解到。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1