一种基于多模态特征交互的视频问答方法

文档序号:37724081发布日期:2024-04-23 12:02阅读:17来源:国知局
一种基于多模态特征交互的视频问答方法

本发明涉及计算机视觉和自然语言处理领域,具体涉及一种基于多模态特征交互的视频问答方法。


背景技术:

1、随着互联网及多媒体技术的快速发展,视频数据呈爆炸式增长,如何从海量视频中挖掘有价值的信息成为研究的热点。视频问答任务作为视频内容理解领域的重要分支,是解决该问题的有效手段。此外,视频问答涉及计算机视觉和自然语言处理两个学科领域,是重要的多模态深度学习任务,其研究的突破有利于多模态智能领域的发展。因此,视频问答任务具有非常重要的研究价值。

2、视频问答任务是根据给定的视频和针对该视频提出的问题,在理解视频和问题的基础上,预测问题的答案。该任务是图像问答的拓展延伸,相较于图像问答对算法推理能力的要求更高,更加具有挑战性。该任务不仅需要对问题和单个图像之间进行语义关联,还需要基于时间维度对问题和视频进行交互。解决该任务的核心是通过多模态交互,深度挖掘多模态语义信息间的关系,以实现对视频内容的深度理解。

3、现有解决视频问答任务的技术涉及注意力机制和图神经网络。基于注意力机制的视频问答利用时空注意力机制或者交叉注意力机制学习与问题相关的视觉表征。基于图神经网络的视频问答利用图结构探究视频目标特征之间或者视频帧特征之间或者视频片段特征之间的单一交互。但是这些基于注意力机制的视频问答模型大多是关注各个独立的视觉特征与文本特征间的语义关系,始终是从局部的视角捕捉特征间的联系,缺乏从全局角度挖掘特征。其次,现有的基于图神经网络的视频问答模型大多只探究了视频单一粒度的特征交互,忽略了不同粒度特征的互补性,缺乏层级学习。


技术实现思路

1、为解决上述问题,本发明提出了一种基于多模态特征交互的视频问答方法,通过从全局和局部角度提取特征,获得丰富的特征表示;利用层级交互增强问题、视频的特征表示,深入理解多粒度信息;整合问题和视频增强的全局及局部特征,最后融合基于问题的视觉表示和基于视频的文本表示给出正确的视频问答答案。

2、为实现上述目的,本发明提供一种基于多模态特征交互的视频问答方法,该方法包括以下步骤:

3、s1:对于输入的视频,提取片段级、帧级、目标级细粒度特征表示,所述目标级特征包括目标特征、目标位置和类别标签;对于输入的视频内容对应的问题,提取所述问题的细粒度特征表示,即提取构成问题的单词词嵌入向量;

4、s2:将提取的所述视频片段、帧、目标级细粒度特征表示和问题的细粒度特征表示输入到gru中,获得视频片段级、帧级、目标级及问题全局特征表示

5、s3:将问题的全局及细粒度特征表示及视频片段级、帧级、目标级的全局及细粒度特征特征表示输入交替注意力网络,获得增强的问题全局特征表示及视频片段级、帧级、目标级的全局特征表示;

6、s4:将问题的细粒度特征表示及视频片段级、帧级、目标级特征的细粒度表示输入交叉注意力网络,获得增强的不同层级的问题细粒度特征表示及视频片段级、帧级、目标级特征的细粒度特征表示;

7、s5:在所述获得增强的问题细粒度特征表示时,问题的细粒度特征表示在视频片段层次、视频帧层次和目标层次间逐级传递,获得基于视频片段级的问题细粒度特征表示、基于视频片段-帧级的问题细粒度特征表示、基于视频片段-帧-目标级的问题细粒度特征表示;

8、s6:将基于交叉注意力网络输出的视频片段级、帧级、目标级细粒度特征采用自上而下和自下而上的顺序层级交互,获得片段-帧级感知的视频目标级细粒度特征、目标级感知的视频帧级细粒度特征表示、目标-帧级感知的视频片段级细粒度特征表示;

9、s7:分别将问题、视频增强的各个级别的全局和局部特征进行相加融合,再将所述问题、视频各个级别融合的特征进行拼接融合,得到基于视频的文本表示和基于问题的视觉表示;将所述特征编码部分gru输出的视频及问题的全局特征表示与所述基于问题的视觉表示和基于视频的文本表示使用多模态双线性矩阵分解池化方法(mfb)融合,生成答案。

10、进一步地,s1采用预训练的resnext101模型、resnet101模型、fasterr-cnn模型分别提取视频的片段特征、视频的帧特征、视频的目标特征;利用预训练的glove模型提取问题的特征。

11、进一步地,s3中获得增强的问题、视频全局特征表示方法包括:

12、将s2所述的问题、视频片段级全局特征表示与s1所述的问题、视频片段级的细粒度特征表示输入交替注意力网络中获得增强的基于视频片段级的问题全局特征表示及视频片段级的全局特征表示;

13、将s2所述的问题、视频帧级全局特征表示与s1所述的问题、视频帧级的细粒度特征表示输入交替注意力网络中获得增强的基于视频帧级的问题全局特征表示及视频帧级的全局特征表示;

14、将s2所述的问题、视频目标级全局特征表示与s1所述的问题、视频目标级的细粒度特征表示输入交替注意力网络中获得增强的基于视频目标级的问题全局特征表示及视频目标级的全局特征表示。

15、进一步地,s4中获得增强的问题、视频细粒度特征表示的方法包括:

16、将s1所述的问题细粒度特征表示与s1所述的视频片段级细粒度特征表示输入交叉注意力网络,获得增强的基于视频片段级的问题细粒度特征表示及基于问题的视频片段级细粒度特征表示;

17、将s1所述的视频帧级细粒度特征表示与所述增强的基于视频片段级的问题细粒度特征表示输入交叉注意力网络,获得增强的基于视频片段-帧级的问题细粒度特征表示及基于问题的视频帧级细粒度特征表示;

18、将s1所述的视频目标级细粒度特征表示与所述增强的基于视频片段-帧级的问题细粒度特征表示输入交叉注意力网络,获得增强的基于视频片段-帧-目标级的问题细粒度特征表示及基于问题的视频目标级细粒度特征表示。

19、进一步地,s6获得视频不同层级的细粒度特征表示的方法包括:

20、采用自下而上的顺序交互:

21、s4所述的基于问题的视频帧级细粒度特征对s4所述的基于问题的视频目标级细粒度特征进行关注获得目标级感知的视频帧级细粒度特征表示;

22、s4所述的基于问题的视频片段级细粒度特征对基于所述目标级感知的视频帧级细粒度特征进行关注获得目标-帧级感知的视频片段级细粒度特征表示;

23、采用自上而下的顺序交互:

24、s4所述的基于问题的视频目标级细粒度特征对s4所述的基于问题的视频帧级细粒度特征进行关注获得帧级感知的视频目标级细粒度特征表示;

25、基于所述帧级感知的视频目标级细粒度特征对s4所述的基于问题的视频片段级细粒度特征进行关注获得片段-帧级感知的视频目标级细粒度特征表示。

26、s7中生成答案的方法包括:

27、对于开放式问答:将mfb融合的特征送入到带有softmax的全连接层进行分类,最小化交叉熵损失优化模型,当答案集呈现长尾分布时,引入类平衡交叉熵损失函数代替softmax交叉熵损失函数缓解长尾答案的影响;

28、对于多选问答,串联问题和候选答案表示,然后与视觉特征使用mfb融合,将融合后的特征送入分类器进行线性回归输出答案,使用铰链损失函数优化模型。

29、与现有技术相比,本发明的技术方案有益效果是:

30、本发明提供一种基于多模态特征交互的视频问答方法,通过交替注意力网络和交叉注意力网络捕捉问题和视频的全局及局部信息,获得丰富的特征信息;利用多粒度信息间的互补特性进行层级学习,去除大量冗余信息,进一步增强问题和视频的局部特征表示;集成问题和视频增强的全局和局部特征,并将最终的基于问题的视觉表示和基于视频的文本表示进行充分融合,基于此预测答案。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1