基于时空信息动态建模的无人机航拍视频动作识别方法

文档序号:37051653发布日期:2024-02-20 20:50阅读:20来源:国知局
基于时空信息动态建模的无人机航拍视频动作识别方法

本发明涉及视频动作识别领域,具体说的是一种基于时空信息动态建模的无人机航拍视频动作识别方法。


背景技术:

1、随着信息技术的发展,无人机相关技术得到了快速发展,无人机由于具有灵活性等特点,已经广泛应用于各种场景,包括目标跟踪、搜索救援、农业等领域。随着无人机在全球范围内的普及,航拍视频的数量显著增加,每天都有数千万的航拍视频产生,靠人为识别航拍视频的动作是非常消耗资源的,因此需要自动化解析航拍视频内容。

2、不同于常规地面相机,无人机由于其灵活性而具有复杂的视觉信息,主要存在以下几个问题。1:小目标在视频帧空间上的错位,从而引起静止目标错误的视觉移动效果;2:无人机通常飞行高度在数十米,导致目标在整个视频上占据的有效感受野远小于背景区域;3:移动的目标和飞行的无人机间存在相对运动,干扰速度相关的动作类别的识别。这些因素使得无人机航拍视频呈现出独特特性,无人机场景的动作识别更加困难。

3、随着深度学习技术的发展,卷积神经网络在普通视频动作分类中取得了成功。一些方法使用2d卷积来提取视频帧的特征图,并采用rnn或时间维度上的卷积来建模时间关系。然而,这些方法仅通过在最后一层聚合连续帧的特征图来获得时间信息,忽略了无人机姿态变化引起的帧间小目标空间位置的错位,这限制了它们的有效性。其他一些研究使用3d卷积沿空间和时间维度提取时空特征,通常建模短期时间关系,并且不足以应对无人机引起的复杂运动干扰。最近,很多基于transformer的方法使用沿时间维度的自注意力进行动作分类。得益于巨大的参数量,这些方法在动作分类方面达到了最先进的水平。然而,随着无人机的视角多样化、姿态变化和快速运动,这些方法缺少在无人机视频理解中至关重要的归纳偏置,在多个无人机数据集上表现欠佳。


技术实现思路

1、本发明为了克服现有方法的不足,提供一种基于时空信息动态建模的无人机航拍视频动作识别方法,以期能够充分利用无人机航拍视频的独特特性,并同时结合时间和空间信息以构建独特的时空信息动态模型,从而能有效提升无人机航拍视频动作识别准确率。

2、本发明为解决上述技术问题,采用如下技术方案:

3、本发明一种基于时空信息动态建模的无人机航拍视频动作识别方法的特点在于,是按如下步骤进行:

4、步骤1.获取视频图像数据集x={x1,x2,…,xi…xn};其中,xi表示第i张图像,i=1,2,…,n,n为图像的总数;令x的真实类别标签,记为m,且m∈{1,2,...,j};j为动作类别的总数;

5、步骤2.构建由基础编码网络、空间增强模块、多尺度时空特征融合模块和分类网络构成的动作识别网络;

6、步骤2.1.所述基础编码网络是基于resnet-50的前m个阶段构成,在每个阶段对应有若干个残差块,每个残差块均包含若干个卷积层、批归一化层、激活函数层、池化层,且在每个残差块的第一个卷积层之前,添加有时间维度上的通道平移层;

7、x依次经过基础编码网络中m个阶段的特征提取后,得到特征图集合f={f1,f2,…,fi,…,fn},其中,fi∈rh×w×c表示xi的特征图,h,w表示特征图的大小,c表示特征图的维度;

8、步骤2.2.所述空间增强模块利用一个残差块对f进行处理,得到更深层的空间特征is={i1,i2,…,ii,…,in},其中,ii∈rp×p×c表示xi的空间特征;p表示图像块的大小;

9、将is中的每个空间特征划分为p×p个图像块;将n个空间特征对应的第p个图像块组合为第p个图像块的局部空间特征p∈[1,p×p];

10、所述空间增强模块通过一层卷积对进行处理后,得到增强的第p个局部空间特征yp∈rn×c,并与yp的转置矩阵相乘后得到第p个自注意力矩阵ap∈rn×n;

11、所述空间增强模块利用式(1)计算第p个图像块的时间注意力向量ap:

12、

13、式(1)中,表示第i个空间特征ii对应的第p个自注意力向量;

14、所述空间增强模块利用式(2)得到第p个图像块的帧间依赖关系zp,从而得到帧间依赖关系集合z={z1,z2,…,zp,…,zp×p}:

15、

16、式(2)中,表示第i个空间特征ii对应的第p个时间注意力向量,表示第i个空间特征ii对应的第p个局部空间特征;

17、所述空间增强模块利用式(3)得到z的注意力分数gs:

18、

19、式(3)中,fk,fq,fv分别表示z的键矩阵、查询矩阵和值矩阵,(·)t表示转置;

20、所述空间增强模块利用式(4)得到x的空间增强特征gsf:

21、gsf=w2σ(w1gs)+gs       (4)

22、式(4)中,σ表示非线性激活函数,w1,w2表示线性变换的2个矩阵参数;

23、步骤2.3.所述多尺度时空特征融合模块由残差块、并行时间卷积模块,时间池化模块和动态融合模块构成;

24、步骤2.3.1.所述残差块对f进行特征提取,得到更深层的时间特征h={h1,h2,…,hi,…,hn},其中,hi∈rp×p×c表示xi的时间特征;

25、步骤2.3.2.所述并行时间卷积模块由k个具有不同大小卷积核的并行时间卷积支路构成,h分别输入k个支路中进行处理,得到k个支路输出的多尺度时间特征y={y1,y2,…,yk,…,yk},其中,yk表示第k个卷积核大小为(2k+1)×1×1的时间卷积支路对h处理后输出的时间特征;

26、步骤2.3.2.所述时间池化模块通过一层卷积对hi进行处理后,得到增强的第i个时间特征ni∈rp×p×c,i∈rn,并与ni的转置矩阵相乘后,得到第i个自注意力矩阵ai;

27、所述时间池化模块利用式(5)计算出第i个时间特征在第p个图像块的注意力分数

28、

29、式(5)中,aip表示第p个图像块上增强的第i个时间特征;

30、所述时间池化模块利用式(6)得到整体时间信息b={b1,b2,…,bi,…,bn};

31、

32、式(6)中,表示hi中第p个图像块的时间特征;bi表示hi的时间信息;

33、步骤2.3.3.所述动态融合模块将不同支路的运动特征y、整体时间信息b和空间增强特征gsf进行全局平均池化后,得到全局特征g;

34、所述动态融合模块利用式(7)计算第l个通道选择权重gl:

35、

36、式(7)中,wl表示第l个线性变换的矩阵;

37、所述动态融合模块利用式(8)得到x的整体特征gf:

38、

39、式(8)中,gk表示第k个通道选择权重;gk+1表示第k+1个通道选择权重;

40、步骤3构建分类网络由一个两层的mlp构成,并对整体特征gf进行处理后,输出x的预测类别标签并与真实类别标签m构建交叉熵损失;

41、利用梯度下降法对动作识别网络进行训练,并计算所述交叉熵损失以更新网络参数,直到交叉熵损失收敛为止,从而得到最优动作识别网络,用于对无人机航拍视频进行动作识别。

42、本发明一种电子设备,包括存储器以及处理器的特点在于,所述存储器用于存储支持处理器执行所述无人机航拍视频动作识别方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。

43、本发明一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序的特点在于,所述计算机程序被处理器运行时执行所述无人机航拍视频动作识别方法的步骤。

44、与现有技术相比,本发明的有益效果在于:

45、1、本发明综合考虑无人机的姿态变化和快速移动特点,为无人机航拍视频动作识别任务提出一种新颖的注意力空间和自适应时间关系建模框架,在参数量少的情况下,能够实现很好的端到端的识别效果,在不同数据集上具有更好的鲁棒性。实验结果表明,本发明提出的方法在uav-human和era等数据集上优于最先进的方法。

46、2、本发明提出了一个注意力图像块级空间增强模块,通过注意力机制来感知相邻帧图像块之间的空间位置关联性,并进一步增强了图像块级特征,从而建模相邻帧的空间信息,改善了小目标在视频帧之间空间上的错位问题。

47、3、本发明提出了一个多尺度时空特征融合模块,通过不同尺度范围的并行时间卷积路径来捕获各种时间关系,并动态自适应融合空间信息和多尺度时间信息,根据视频输入序列动态调整不同支路的融合权重,以确定起主导作用的分支,从而实现了细粒度的自适应融合,缓解无人机移动对速度相关的动作类别的干扰。

48、4、本发明通过所提出的空间增强模块和多尺度时空特征融合模块对时空信息动态建模,深层次挖掘输入视频的全局信息,从而能有效缓解无人机自身的运动对于航拍视频动作识别的干扰,有效提升了无人机航拍视频动作识别的准确率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1