一种基于快慢分层重分解图卷积网络的人体骨骼数据行为识别方法

文档序号:37058393发布日期:2024-02-20 21:07阅读:17来源:国知局
一种基于快慢分层重分解图卷积网络的人体骨骼数据行为识别方法

本发明属于人体行为的视频分类,特别涉及一种基于快慢分层重分解图卷积网络的人体骨骼数据行为识别方法。


背景技术:

1、由于可穿戴传感器的进一步研究,关于人体行为的数据类型不仅局限于rgb,还出现了骨骼数据。相比于rgb数据,骨骼数据对光照、视角、背景遮挡有更好地鲁棒性,能更好地避免噪声影响,从而使得基于骨骼数据的人体行为识别受到了研究者青睐。

2、近年来,将骨架数据与深度学习相结合的优势逐渐被展示出来。图卷积神经网络(gcn)是一种专门用于表示和处理图数据的神经网络,可满足非欧式数据挖掘的需求。人体骨骼数据可视为由关节点和骨骼边组成的非欧式的图数据,可采用gcn直接对骨骼数据进行学习。时空图卷积网络模型最早将人的关节作为时空图的顶点,将人体连通性和时间作为图的边进行计算。后续基于时空图卷积网络模型的工作遵循同样的时空图结构并在参数学习方面做出改进。

3、但在现有一系列基于gcn的方法中,存在以下局限性:

4、(1)目前广泛使用的图是由人体骨骼之间的物理连接构成的空间特征,这使得时空图的接受域很小,因此无法识别远处关节节点之间的关系。

5、(2)最近的一些方法不能识别哪些边对动作的形成是重要的,因为它们只是简单地汇总了边缘特征,而忽略了每个边缘的贡献。

6、(3)人体骨骼的时空图缺乏时间依赖性,时空特征提取不足,而且大量的训练参数增大了训练的困难。


技术实现思路

1、为了克服上述现有技术的不足,本发明的目的在于提供一种基于快慢分层重分解图卷积网络的人体骨骼数据行为识别方法,该方法重新定义一种分层重分解图结构,同时在融入空间注意力引导的层次聚合模块,并引入slowfast网络架构构建快慢分层重分解图卷积神经网络。此外,对于每一种分层重分解图,不仅提取关节流、骨骼流的特征信息,还提取其运动流特征,最后进行多流网络的融合。

2、为了实现上述目的,本发明采用的技术方案是:

3、一种基于快慢分层重分解图卷积网络的人体骨骼数据行为识别方法,包括以下步骤;

4、1)选择ntu rgb+d 60、ntu rgb+d 120、northwestern-ucla数据集作为输入数据,输入数据格式为三维骨骼序列数据,将每个数据集划分为训练集和测试集;

5、2)定义分层重分解图,将人体关节点划分层次,并实例化两种分层重分解图;

6、3)基于分层重分解图构建分层重分解图卷积层,其包含四个并行分支操作;

7、4)在所述分层重分解图卷积层之后添加空间注意力引导的分层聚合模块(sa-ham),分层聚合模块对每一层次的空间特征即关节点的空间关系突出关注,并使用聚合策略将每一层次的输出相加;

8、5)由步骤3)和步骤4)所搭建的架构构成空间建模模块,再搭建一个多尺度时间建模模块,空间建模模块与多尺度时间建模模块共同构成一个完整的分层重分解图卷积块;

9、6)将slowfast架构扩展到步骤5)所搭建的分层重分解图卷积块上,构建快慢分层重分解图卷积网络;

10、7)基于步骤2)中两种不同的分层重分解图,分别计算输入高阶数据信息,最后融合所有输出流的结果;

11、8)使用所述训练集对所述快慢分层重分解图卷积网络进行训练;

12、9)使用分类准确率作为评估标准,对步骤8)训练后的快慢分层重分解图卷积网络进行评估。

13、所述步骤1)中,ntu rgb+d 60中cross-subject数据集按照人物id来划分训练集和测试集;

14、cross-view数据集按相机来划分训练集和测试集,相机一采集的样本作为测试集,相机二和相机三作为训练集;

15、ntu rgb+d 120中cross-subject数据集按照人物id来划分训练集和测试集,cross-setup数据集以id设置划分训练集和测试集;

16、northwestern-ucla数据集以相机视角划分训练集和测试集,视角一和视角二作为训练集,视角三作为测试集。

17、所述步骤2)中,根据人体动作发力的特点,将人体关节点划分为nh个子集,邻接矩阵

18、

19、其中,hk表示第k层节点集,ε(hk→hk+1)指的是第k层的节点指向第k+1层节点的边集,也就是hk指向hk+1的边集;nl是边集数,nh是节点子集数,其之间的关系为:nl=nh-1,此外,||是连接操作。

20、进一步,考虑到节点之间的相互作用,将现有的邻接矩阵设置为

21、

22、εk=ε(hk+hk+1||hk→hk+1||hk+1→hk)   (3)

23、其中εk指边集s={sid,scp,scf}三个边子集的连接,sid,scp,scf分别为恒等边子集、向心边子集和离心边子集。

24、所述步骤3)中,将步骤1)所述的三维骨骼序列数据用表示,其中v为关节节点数,t为时间窗口大小,分层重分解图卷积层对输入特征图的图卷积操作如下:

25、x'=φ(x)   (4)

26、

27、其中x'=φ(x)指将输入进行线性变换,zν表示空间边卷积操作;θs表示逐点卷积运算;初始化邻接矩阵a为λ为归一化对角矩阵,ns=3;其中x和f为pd-gc的输入输出特征图,函数φ表示参数θ为参数的线性变换;同样地,||是连接操作。

28、所述分层重分解图中每条边都包含三个边子集,即s={sid,scp,scf},整个图卷积操作包括对三个边子集的卷积操作和一个空间边卷积操作,前者用以提取边子集的空间特征,后者用以提取每一层次的空间特征,最后将四个并行分支操作的结果相连接作为分层重分解图卷积层的输出。

29、所述步骤4)中,sa-ham由一个空间注意力模块和一个分层边卷积构成,空间注意力模块(sam)对每个关节给予不同程度的注意,计算公式为:

30、ms=σ(gs(avgpool(x)))   (6)

31、其中是经过所述步骤3)处理后所输出的特征图,作为sam的输入特征图,并在所有帧上取平均值,gs是一维卷积操作,其中ks指卷积核大小,σ为sigmoid激活函数,然后将注意力图以残差方式与输入特征图相乘,以进行自适应特征细化;

32、分层边卷积模块将每一层的特征图视为一个图中的节点,将这些节点特征输入边卷积块,并根据欧几里得距离学习这些节点的相似度;计算公式为:

33、

34、其中zl指的是分层边卷积块,以及σ指的是sigmoid激活函数;

35、最后将注意力图以残差方式与输入特征图相乘来保留原始特征,通过层数的维度加权得到输出特征图。

36、所述步骤5)中,每个分层重分解图卷积块中包括空间建模和时间建模两个模块;空间建模模块包括步骤3)介绍的三个边子集卷积操作以及一个空间边卷积操作,紧随其后添加了一个步骤4)中介绍的sa-ham;

37、时间建模模块包含四个分支,每个分支都包含一个1×1的卷积,以减少通道维度;前三个分支包含两个具有不同扩张的5×1时间卷积和1×1卷积后的一个maxpool;将四个分支的结果连接起来以获得输出。

38、所述步骤6)中,将slowfast网络的架构引入到分层重分解图卷积块中,并使用分层重分解图卷积块作为横向连接将fast路径的特征信息融入slow路径,共有9个堆叠块。

39、所述步骤7)中,对高阶数据信息的定义如下:

40、记第t帧中第i个关节点为

41、对于同一帧中关节点和则对应的骨骼定义为

42、

43、关节运动流数据定义为

44、

45、骨骼运动流数据定义为

46、

47、对于步骤2)实例化的每一种结构图,计算输入的高阶数据信息,再输入步骤6)所提出的快慢分层重分解图卷积网络中进行特征提取,最后融合所有数据流的结果。

48、本发明的有益效果:

49、本发明重定义了一种分层重分解图(hrd-graph),取代原本的人体物理连接图,它可以捕获到远距离节点之间的连通性,并构建了空间边卷积来识别分层重分解图无法捕获的节点关系。还添加了空间注意力引导的分层聚合模块使得模型更有侧重点的去关注相应的层次边集与空间连接。此外,还将slowfast架构引入到分层重分解图卷积块中,以减少计算成本并增强时空特征提取能力。最后融合骨骼数据的高阶信息的特征得到最终结果。

50、在ntu rgb+d数据集上,基于x-view设置的实验中,该方法的识别准确率为97.0%,基于x-sub设置的实验中,该方法的识别准确率为92.8%;在ntu rgb+d 120数据集上,基于x-sub设置的实验中,该方法的识别准确率为89.6%,基于x-set设置的实验中,该方法的识别准确率为91.0%。在northwestern ucla数据集上取得96.9%的准确率。结果表明,本发明在基于骨架的动作识别方面取得了较好的效果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1