本发明属于计算机视觉,特别涉及一种基于骨骼坐标点的动作识别方法、系统、设备及介质。
背景技术:
1、在小样本场景中,基于骨骼点的动作识别是一种使用少量骨骼动作来训练模型识别人类动作的任务,该任务通常使用少量表示人类动作的骨架动作数据来训练模型,然后在新动作类别数据集上对该模型的泛化性进行测试,该任务有许多具有现实意义的应用场景,如医学动作视频分析、高速运动场景识别等。
2、目前,现有的小样本下骨骼动作识别方法尚存在以下问题:
3、(1)现有的模型没有考虑骨骼序列上的时序帧错位和空间上关节点的位置差异,这些空间和时序信息对于小样本间的比较非常重要,导致在相似的查询(query)和支撑(support)动作匹配时难以区分;
4、(2)人类骨骼具有强语义性的拓扑结构,每个关节点在动作中承担不同的物理意义;然而,现有的方法没有合理利用拓扑信息,得到不具区分性的语义特征,使得小样本分类准确率不高。
技术实现思路
1、本发明的目的在于提供一种基于骨骼坐标点的动作识别方法、系统、设备及介质,以解决上述存在的一个或多个技术问题。本发明提供的技术方案,具体是一种基于并行时空交互对齐的小样本骨骼动作识别方法,能够有效的比较查询样本和每类支撑样本的相似性,且能够准确进行小样本的动作分类。
2、为达到上述目的,本发明采用以下技术方案:
3、本发明第一方面提供的一种基于骨骼坐标点的动作识别方法,包括以下步骤:
4、获取待动作识别的骨骼坐标点视频序列;其中,所述骨骼坐标点视频序列包括查询序列和支撑序列;
5、基于获取的所述骨骼坐标点视频序列,利用预先训练好的动作识别模型进行动作识别,获得动作识别分类结果;
6、其中,所述动作识别模型包括:
7、特征提取模块,用于输入骨骼坐标点视频序列进行特征提取,获取关节点级别特征;
8、拓扑编码模块,用于输入关节点级别特征进行特征提取,获得身体局部特征和语义关联特征;
9、注意力交互网络模块,包括并行的基于空间交互的对齐网络分支和基于时间交互的对齐网络分支;其中,所述基于空间交互的对齐网络分支用于输入关节点级别特征、身体局部特征和语义关联特征,输出查询序列到支撑序列的空间类别距离分数;所述基于时间交互的对齐网络分支用于输入关节点级别特征、身体局部特征和语义关联特征,输出查询序列到支撑序列的时间类别距离分数;所述注意力交互网络模块用于基于空间类别距离分数和时间类别距离分数,获取加权和类别距离分数;
10、最近邻分类器,用于输入加权和类别距离分数并进行分类,输出动作识别分类结果。
11、本发明方法的进一步改进在于,所述特征提取模块中,输入骨骼坐标点视频序列进行特征提取,获取关节点级别特征的步骤包括:
12、将骨骼坐标点转化为关节点位置、骨骼长度向量、骨骼速度向量三组信息;
13、采用基于前融合的图卷积编码器对关节点位置、骨骼长度向量、骨骼速度向量三组信息进行并行编码,生成查询关节点级别特征和支撑关节点级别特征。
14、本发明方法的进一步改进在于,所述拓扑编码模块中,输入关节点级别特征进行特征提取,获得身体局部特征和语义关联特征的步骤包括:
15、根据人体骨骼结构,将人类身体结构划分为左臂、右臂、左腿、右腿和躯干共5个身体局部;根据先验知识构建局部-节点邻接矩阵v表示关节点的数量,p表示局部的数量;所述局部-节点邻接矩阵的每列由0和1表示的独热向量编码组成,用于代表节点属于人体骨骼拓扑的特定局部;
16、使用互注意力机制学习关节点级别特征f和局部节点特征之间的语义交互,令关节点包含丰富的身体局部整体运动模式,表达式为,
17、
18、式中,是缩放系数,是使用逆度矩阵归一化后的邻接矩阵,w为线性映射权重,fpart为身体局部特征,softmax()表示归一化指数函数;
19、在空间交互中为每个关节点赋予语义信息,获得语义关联特征;其中,为每个关节点对分配一组可训练参数作为偏置项,构成语义偏置邻接矩阵作为语义关联特征,用于表示v×v对节点间的语义关联。
20、本发明方法的进一步改进在于,所述注意力交互网络模块中,所述基于空间交互的对齐网络分支输入关节点级别特征、身体局部特征和语义关联特征,输出查询序列到支撑序列的空间类别距离分数的步骤包括:
21、利用双向的空间互注意力调整查询关节点级别特征和支撑关节点级别特征之间逐帧的节点响应,获得查询和支撑骨骼级别特征;将获得的查询和支撑骨骼级别特征,在时序上划分为所有子序列特征的集合;通过遍历所有时序上的子序列组合,得到组合后的查询和支撑时序特征;使用单向平均对称表面准则衡量查询和支撑时序特征间的相似度,令查询时序特征在时序上所有相似度分数的累积和作为查询序列到支撑序列的空间类别距离分数;
22、其中,
23、查询骨骼级别特征的表达式为,
24、
25、
26、式中,fq←s表示对齐后的查询骨骼级别特征;gap表示空间维度上的全局平均池化;ffn表示前馈神经网络;aq←s表示支撑对查询的权重矩阵;表示线性映射权重;为查询关节点级别特征,t表示时间长度,v表示关节点的数量,c表示通道维度数;为支撑关节点级别特征;fpart为身体局部特征;为语义关联特征;
27、支撑骨骼级别特征的表达式为,
28、
29、
30、式中,表示线性映射权重,as←q表示查询对支撑的权重矩阵,表示对齐后的支撑骨骼级别特征;
31、查询序列到支撑序列的空间类别距离分数的表达式为,
32、
33、式中,d(q,c)为查询序列到支撑序列的空间类别距离分数,c为动作类别,和分别为组合后的查询和支撑时序特征,i和j分别为查询和支撑特征在时序维度的索引,t′为时序子序列的长度。
34、本发明方法的进一步改进在于,所述注意力交互网络模块中,所述基于时间交互的对齐网络分支输入关节点级别特征、身体局部特征和语义关联特征,输出查询序列到支撑序列的时间类别距离分数的步骤包括:
35、利用关节点语义关联特征和身体局部特征对查询和支撑关节点级别特征内部逐帧调整关节点响应,获得查询和支撑骨骼级别特征;对查询与支撑骨骼级别特征先进行时间维度的交互,再进行通道维度的交互,获得交互后的骨骼级别特征;将交互后的骨骼级别特征在时序上划分为所有子序列特征的集合,获得查询和支撑的时序特征序列;对查询与支撑特征序列使用时序互注意力网络学习相关性,并计算相似度,获得查询序列到支撑序列的时间类别距离分数;
36、其中,
37、查询和支撑骨骼级别特征的表达式为,
38、g=gap(ffn(agvg));
39、
40、
41、式中,g为查询和支撑骨骼级别特征;gap表示空间维度上的全局平均池化;ffn表示前馈神经网络,由三层逐点卷积网络组成;asm为语义关联特征;c表示通道维度数,xpart为身体局部特征;f为查询关节点级别特征或支撑关节点级别特征和为可学习权重矩阵;
42、交互后的骨骼级别特征的表达式为,
43、z=ut+σ(ln(ut)wc);
44、u=gt+σ(ln(gt)wt);
45、式中,u是时间交互后的特征,σ表示gelu非线性激活函数,ln表示层归一化方式,wt和wc为两个多层感知机构成的混合编码器;
46、
47、
48、式中,和分别为可学习矩阵,表示查询的时序特征序列,表示查询对支撑时序特征的关联矩阵,表示对应动作类别c的支撑时序特征,ln是标准的层归一化方式,表示相对于特定查询加权后的支撑时序特征,表示加权后的查询时序特征;
49、查询序列到支撑序列的时间类别距离分数的表达式为,
50、式中,t(q,c)为查询序列到支撑序列的时间类别距离分数,t为查询和支撑特征在时序维度的索引,t′为时序子序列的长度。
51、本发明方法的进一步改进在于,所述注意力交互网络模块中,所述注意力交互网络模块基于空间类别距离分数和时间类别距离分数,获取加权和类别距离分数的步骤中,
52、最终获取的加权和类别距离分数为t(q,c)+λd(q,c);其中,t(q,c)为查询序列到支撑序列的时间类别距离分数,λ为加权系数,d(q,c)为查询序列到支撑序列的空间类别距离分数。
53、本发明方法的进一步改进在于,所述预先训练好的动作识别模型在训练时,使用标准的交叉熵损失,表达式为,
54、l=lcs(-d(q,·),y)+λlct(-t(q,·),y);
55、式中,λ是平衡空间交互对齐损失lcs和时间交互对齐损失lct的常用权重,y是查询序列的真实类别标签。
56、本发明第二方面提供的一种基于骨骼坐标点的动作识别系统,包括:
57、数据获取模块,用于获取待动作识别的骨骼坐标点视频序列;其中,所述骨骼坐标点视频序列包括查询序列和支撑序列;
58、结果获取模块,用于基于获取的所述骨骼坐标点视频序列,利用预先训练好的动作识别模型进行动作识别,获得动作识别分类结果;
59、其中,所述动作识别模型包括:
60、特征提取模块,用于输入骨骼坐标点视频序列进行特征提取,获取关节点级别特征;
61、拓扑编码模块,用于输入关节点级别特征进行特征提取,获得身体局部特征和语义关联特征;
62、注意力交互网络模块,包括并行的基于空间交互的对齐网络分支和基于时间交互的对齐网络分支;其中,所述基于空间交互的对齐网络分支用于输入关节点级别特征、身体局部特征和语义关联特征,输出查询序列到支撑序列的空间类别距离分数;所述基于时间交互的对齐网络分支用于输入关节点级别特征、身体局部特征和语义关联特征,输出查询序列到支撑序列的时间类别距离分数;所述注意力交互网络模块用于基于空间类别距离分数和时间类别距离分数,获取加权和类别距离分数;
63、最近邻分类器,用于输入加权和类别距离分数并进行分类,输出动作识别分类结果。
64、本发明第三方面提供的一种电子设备,包括:
65、至少一个处理器;以及,
66、与所述至少一个处理器通信连接的存储器;其中,
67、所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如本发明第一方面任一项所述的基于骨骼坐标点的动作识别方法。
68、本发明第四方面提供的一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现本发明第一方面任一项所述的基于骨骼坐标点的动作识别方法。
69、与现有技术相比,本发明具有以下有益效果:
70、本发明公开的动作识别方法中,通过两路并行的时空交互对齐分支来进行空间和时序上的对齐,从不同角度改进了查询集和支撑集样本匹配时的特征空间学习;同时,通过提出与局部身体拓扑和关节点语义关联的空间注意力,提升了空间语义特征的区分性;可提高最终的小样本分类的准确性。本发明中,首先采用时空图卷积网络提取出基础的骨骼关节点特征序列,再通过空间维度上局部划分和语义关联丰富了关节点特征,在此基础上利用并行的时空交互对齐网络,分别从空间交互和时序交互的角度对齐查询和支撑的特征;最终在以上两种关注时序和空间一致性的特征空间分别进行查询和支撑匹配,两个并行网络互补,能够提高最终的小样本分类的准确性。
71、本发明提出的方法针对现有方法难以比较小样本下骨骼动作序列在空间维度和时序维度的相似性,首次通过序列内特征时空上下文内容聚合与序列间时空状态关联改进了骨骼动作序列的相似度衡量方案;针对骨骼空间语义的特征学习,利用骨骼内在的局部划分和语义关联增强了关节点间的特定关联性。