基于交叉注意力的目标识别方法、装置和系统与流程

文档序号:36830663发布日期:2024-01-26 16:45阅读:17来源:国知局
基于交叉注意力的目标识别方法、装置和系统与流程

本发明涉及深度学习,特别是涉及一种基于交叉注意力的目标识别方法、一种基于交叉注意力的目标识别装置和一种基于交叉注意力的目标识别系统。


背景技术:

1、在自然场景中,经常需要进行特殊目标的识别,例如地铁车厢内儿童、行李箱等的识别,在保障地铁安全运行方面具有至关重要的作用。近期的方法已经将深度学习模型例如卷积神经网络(convolutional neural networks,cnn)等,引入到图像识别领域,现有的这些方法在目标检测和识别方面取得了一定的进展。然而,在多变的自然场景环境中,光照、角度、遮挡等多种因素可能对识别结果产生影响,导致现有技术识别效果不佳。

2、因此,迫切需要一种能够在复杂环境中准确地识别特殊目标的解决方案。


技术实现思路

1、针对现有技术中的缺陷,本发明实施例提供了一种基于交叉注意力的目标识别方法、一种基于交叉注意力的目标识别装置和一种基于交叉注意力的目标识别系统。

2、第一方面,本发明实施例提供一种基于交叉注意力的目标识别方法,包括:

3、获取多个模态的采集数据;

4、分别对所述多个模态的采集数据进行数据预处理,确定多个模态的对齐数据;

5、对每个模态的对齐数据进行特征提取,确定每个模态的模态特征;

6、将同一时间戳的多个模态的模态特征进行特征融合,确定所述时间戳对应的交叉注意力特征;

7、将所述交叉注意力特征输入到预先训练的多模态交叉注意力识别模型中,获取所述时间戳下的目标识别结果。

8、如上述方法,可选地,所述多模态交叉注意力识别模型通过下述方式训练得到:

9、获取对齐后的多个模态样本数据,在所述样本数据中标注待识别目标区域;

10、对每个模态的样本数据进行特征提取并进行特征融合,确定每个时间戳对应的交叉注意力特征;

11、基于注意力机制模型构建目标识别模型,并初始化所述目标识别模型的参数;

12、将所述交叉注意力特征输入到所述目标识别模型中,获取目标识别区域结果;

13、根据所述待识别目标区域和所述目标识别区域结果计算识别损失函数;

14、基于所述识别损失函数训练所述目标识别模型的参数,直至所述识别损失函数满足第一预设条件为止;

15、将训练完成的目标识别模型作为所述多模态交叉注意力识别模型。

16、如上述方法,可选地,所述目标识别区域结果包括目标识别区域边界信息和目标识别分类概率;

17、所述根据所述待识别目标区域和所述目标识别区域结果计算识别损失函数,包括:

18、根据所述待识别目标区域和所述目标区域边界信息确定边界损失函数;

19、根据所述待识别目标区域的目标类别和所述目标识别分类概率确定分类损失函数;

20、根据所述边界损失函数和所述分类损失函数确定识别损失函数。

21、如上述方法,可选地,所述对每个模态的对齐数据进行特征提取,确定每个模态的模态特征,包括:

22、获取多个模态样本数据;

23、基于前馈神经网络构建每个模态对应的特征编码器和特征解码器;

24、将每个模态对应的样本数据输入到对应的特征编码器中,确定模态特征,并将所述模态特征输入到特征解码器中,确定解码数据;

25、基于所述样本数据和所述解码数据的均方误差损失,训练所述特征编码器的参数,直至所述均方误差损失满足第二预设条件为止;

26、分别使用每个模态训练完成的自编码器网络对每个模态的对齐数据进行特征提取。

27、如上述方法,可选地,所述对每个模态的对齐数据进行特征提取,确定每个模态的模态特征,包括:

28、若模态数据为声音数据,则获取声音样本数据,将所述声音样本数据转换为样本频谱数据,所述声音样本数据标注了类别信息;

29、基于一维卷积神经网络架构构建声音特征提取模型;

30、使用所述样本频谱数据训练所述声音特征提取模型;

31、将所述声音频谱数据输入到训练完成后的声音特征提取模型中,获取声音模态特征。

32、如上述方法,可选地,所述对每个模态的对齐数据进行特征提取,确定每个模态的模态特征,包括:

33、若模态数据为红外数据,则基于自回归滑动平均模型和长短时记忆结构模型构建红外特征提取模型;

34、将所述红外数据输入到所述红外特征提取模型中,获取红外模态特征。

35、如上述方法,可选地,所述将同一时间戳的多个模态的模态特征进行特征融合,确定所述时间戳对应的交叉注意力特征,包括:

36、获取同一时间戳的多个模态的模态特征;

37、以每个模态特征作为源特征,以任意一个其他模态的模态特征作为目标特征,构建每个模态的交叉注意力特征;

38、将同一时间戳的每个模态的交叉注意力特征进行拼接,确定所述时间戳对应的交叉注意力特征。

39、如上述方法,可选地,所述以每个模态特征作为源特征,以任何一个其他模态特征作为目标特征,构建每个模态的交叉注意力特征,包括:

40、根据公式(1)确定每个模态的交叉注意力特征:

41、

42、其中,fa→b表示a模态到b模态的交叉注意力特征,a表示a模态特征,bt表示b模态特征的转置,表示abt的维度,b表示b模态的模态特征,softmax表示归一化函数。

43、如上述方法,可选地,所述分别对所述多个模态的采集数据进行数据预处理,确定多个模态的对齐数据,包括:

44、以其中一个模态的采集数据的时间戳为准,对其他模态的采集数据进行校准;

45、基于所述一个模态的采集数据对校准后的数据进行对齐处理,确定多个模态的对齐数据。

46、如上述方法,可选地,还包括:

47、基于非极大值抑制方法和/或上下文处理方法,对所述目标识别结果进行优化。

48、第二方面,本发明实施例提供一种基于交叉注意力的目标识别装置,包括:

49、获取模块,用于获取多个模态的采集数据;

50、预处理模块,用于分别对所述多个模态的采集数据进行数据预处理,确定多个模态的对齐数据;

51、特征提取模块,用于对每个模态的对齐数据进行特征提取,确定每个模态的模态特征;

52、特征融合模块,用于将同一时间戳的多个模态的模态特征进行特征融合,确定所述时间戳对应的交叉注意力特征;

53、识别模块,用于将所述交叉注意力特征输入到预先训练的多模态交叉注意力识别模型中,获取所述时间戳下的目标识别结果。

54、第三方面,本发明实施例提供一种基于交叉注意力的目标识别系统,包括:

55、多个模态的采集装置,用于采集对应模态的采集数据,并发送至目标识别装置;

56、所述目标识别装置用于实现如上述第一方面任一项所述的目标识别方法。

57、第四方面,本发明实施例提供一种电子设备,包括:

58、存储器和处理器,所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如下方法:获取多个模态的采集数据;分别对所述多个模态的采集数据进行数据预处理,确定多个模态的对齐数据;对每个模态的对齐数据进行特征提取,确定每个模态的模态特征;将同一时间戳的多个模态的模态特征进行特征融合,确定所述时间戳对应的交叉注意力特征;将所述交叉注意力特征输入到预先训练的多模态交叉注意力识别模型中,获取所述时间戳下的目标识别结果。

59、第五方面,本发明实施例提供一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如下方法:获取多个模态的采集数据;分别对所述多个模态的采集数据进行数据预处理,确定多个模态的对齐数据;对每个模态的对齐数据进行特征提取,确定每个模态的模态特征;将同一时间戳的多个模态的模态特征进行特征融合,确定所述时间戳对应的交叉注意力特征;将所述交叉注意力特征输入到预先训练的多模态交叉注意力识别模型中,获取所述时间戳下的目标识别结果。

60、本发明实施例提供的基于交叉注意力的目标识别方法,获取多个模态的采集数据;分别对所述多个模态的采集数据进行数据预处理,确定多个模态的对齐数据;对每个模态的对齐数据进行特征提取,确定每个模态的模态特征;将同一时间戳的多个模态的模态特征进行特征融合,确定所述时间戳对应的交叉注意力特征;将所述交叉注意力特征输入到预先训练的多模态交叉注意力识别模型中,获取所述时间戳下的目标识别结果。本发明实施例充分利用深度学习在特征提取和模式识别方面的卓越能力,将多种模态信息融合,并引入了交叉注意力机制,从而能够灵活地适应各种不同场景的需求。多模态信息融合方法在自然场景目标识别方面取得了显著的突破,提升了识别的准确性,为解决复杂的实际识别任务提供了全新的解决方案。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1