基于骨骼关键点和卷积神经网络的动作识别方法与流程

文档序号:34238348发布日期:2023-05-24 23:48阅读:80来源:国知局
基于骨骼关键点和卷积神经网络的动作识别方法与流程

本发明涉及人类行为识别,具体涉及一种适用于复杂监控场景的基于骨骼关键点和卷积神经网络的动作识别方法。


背景技术:

1、人体动作识别一直以来都是计算机视觉的研究热点之一,在智能监控、运动分析、人机交互等诸多领域都有着广泛的应用前景。其目的是提取出视频中的运动信息,识别出视频中出现的主要动作类型。现有的一些识别方法采用了不同形式进行特征表示,如rgb帧、光流、骨骼关键点等。相比于其他数据类型,骨骼类型的数据能够更加直观地反映出人体的运动特征,并且不易受光线变化、背景复杂程度、人体外观差异等因素影响,能够很好地避免噪声干扰。因此基于骨骼关键点的动作识别方法近年来受到了越来越多的关注。

2、现有的基于骨骼数据的动作识别方法所采用的网络主要有以下几种:(1)循环神经网络(rnn);(2)图卷积网络(gcn);(3)卷积神经网络(cnn)。其中:

3、循环神经网络在对时间序列进行建模方面有较好的效果,但它忽略了骨骼关键点之间存在的空间结构信息,导致其在空间域上提取特征的能力较弱。

4、图卷积网络将骨骼关键点数据表示为拓扑图的形式,并且基于所构造的拓扑图进行图卷积操作,图结构在语义信息上更丰富,是骨骼数据有效的表示形式,但是图卷积网络更加复杂并且复杂性与识别人数呈线性关系,此外识别能力受坐标提取效果影响较大且对于时序较长的动作信息建模能力较弱。

5、卷积神经网络由于其具有平移不变性的特点,在处理骨骼关键点信息时,能够较好的获取骨骼关键点之间的局部特征,在空间上提取特征的能力较强,但是如何更好地提取时间维度的特征是需要考虑的问题。


技术实现思路

1、发明目的:提供一种适用于复杂场景的人体动作识别方法,对原始视频中的人物动作进行识别,识别精度有一定程度的提升。

2、技术方案:基于骨骼关键点和卷积神经网络的动作识别方法采用去除前期下采样操作、改进了时间卷积模块、改进了通道注意力机制的slowonly网络结构,处理经姿态估计并预处理过的三维热图。

3、一种基于骨骼关键点和卷积神经网络的动作识别方法,其特征是首先采集视频;然后提取每帧图像中每个人的二维姿态关键点坐标,进行热图堆叠,得到三维热图;最后采用改进的slowonly网络处理三维热图;

4、所述改进的slowonly网络的是去除原始slowonly网络中前期下采样操作,改进原始slowonly网络中的时间卷积模块;改进原始slowonly网络中的通道注意力机制;

5、三维热图在改进的slowonly网络中的处理过程为:

6、1)三维热图通过改进的slowonly网络的卷积层、第一~第三resnet层;

7、2)将输入的特征沿通道维度平均分成四部分后,再通过改进的时间卷积模块进行处理,步骤为:

8、2.1)用3×1×1的时间卷积核对前两部分直接卷积后输出;

9、2.2)后两部分卷积的输入分别包含了前一部分的输出特征以及本部分的输入特征,即第三部分包含了第二部分的输出特征,第四部分包含了第三部分的输出特征;

10、2.3)将这四部分输出合并后,再依次通过1×1×3的时间卷积核网络和1×1×1的时间卷积核网络后输出;

11、3)将步骤2)的输出通过改进的注意力机制模块,步骤为;

12、3.1)采用软池化进行特征压缩,将二维特征通道变成一个具有全局感受野的实数;

13、3.2)进行激励操作,为每个特征通道生成权重;

14、3.3)将归一化权重和原输入特征图逐通道相乘,生成加权后的特征图;

15、4)将步骤3)的输出结果通过一个平均池化层,得到的输出结果即为识别后的结果。

16、基于卷积神经网络的方法中,3d-cnn采用三维卷积对时空特征进行建模,是2d-cnn的自然延伸,相比于2d-cnn,能够更加有效地捕捉时间上下文信息。本发明提出的动作识别方法,在不引入额外参数的情况下,基于改进的3d-cnn网络,综合运用姿态估计、三维热图处理等图像处理技术,降低了遮挡问题对识别精度的影响,在复杂监控场景下有一定的应用价值。



技术特征:

1.一种基于骨骼关键点和卷积神经网络的动作识别方法,其特征是首先采集视频;然后提取每帧图像中每个人的二维姿态关键点坐标,进行热图堆叠,得到三维热图;最后采用改进的slowonly网络处理三维热图;

2.根据权利要求1所述的基于骨骼关键点和卷积神经网络的动作识别方法,其特征是所述三维热图是经姿态估计并预处理过的三维热图。

3.根据权利要求1所述的基于骨骼关键点和卷积神经网络的动作识别方法,其特征是三维热图的获得方法为:

4.根据权利要求3所述的基于骨骼关键点和卷积神经网络的动作识别方法,其特征是生成关节伪热图的方法为:设帧的高度和宽度分别为h和w,叠加时间维度t,得到k×t×h×w的三维热图jkij作为改进的slowonly网络的输入,(i,j)为图像中的某个位置的坐标值,σ2是自适应方差:

5.根据权利要求1所述的基于骨骼关键点和卷积神经网络的动作识别方法,其特征是对三维热图进行裁剪来降低空间上的冗余。

6.根据权利要求1所述的基于骨骼关键点和卷积神经网络的动作识别方法,其特征是使用稀疏时间采样策略采样视频:将整个视频平均划分为t段,然后从每段中随机选择一帧,形成t帧作为输入。

7.根据权利要求6所述的基于骨骼关键点和卷积神经网络的动作识别方法,其特征是对三维热图进行裁剪的方法为:找到一个范围最小的框,使其能够涵盖视频帧中的所有人,根据找到的框对每帧热图进行剪裁,并将其重新缩放至目标大小。


技术总结
一种基于骨骼关键点和卷积神经网络的动作识别方法,首先采集视频;然后提取每帧图像中每个人的二维姿态关键点坐标,进行热图堆叠,得到三维热图;最后采用改进的slowonly网络处理三维热图。改进的slowonly网络的是去除原始slowonly网络中前期下采样操作,改进原始slowonly网络中的时间卷积模块;改进原始slowonly网络中的通道注意力机制。经改进的slowonly网络处理得到的输出结果即为识别后的结果。本方法在不引入额外参数的情况下,降低了遮挡问题对识别精度的影响,在复杂监控场景下有一定的应用价值。

技术研发人员:魏运,张正,白文飞,赵丽媛,谢莎婷,张春家,豆飞,吴雁军
受保护的技术使用者:北京市地铁运营有限公司技术创新研究院分公司
技术研发日:
技术公布日:2024/1/12
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1