一种三维人体姿态估计方法、系统、应用、介质及终端

文档序号:34392201发布日期:2023-06-08 10:27阅读:31来源:国知局
一种三维人体姿态估计方法、系统、应用、介质及终端

本发明涉及计算机视觉,特别涉及一种三维人体姿态估计方法、系统、应用、介质及终端。


背景技术:

1、三维人体姿态估计旨在通过单张单目图像来预测人体关节点的三维空间位置,作为计算机视觉领域中的热点,三维人体姿态估计具有广阔的研究前景,也被广泛地应用于各个领域中,如行为异常检测、行为识别等。

2、最近几年,二维人体姿态估计的性能得到了大幅度的提升,因此越来越多的工作基于二维人体姿态估计来进行三维人体姿态估计。martinez等人在《ieee internationalconference on computer vision》(iccv 2017)发表的论文“a simple yet effectivebaseline for 3d humanpose estimation”公开了一种方法利用估计关节点的二维坐标来回归其对应的三维坐标。zhao等人在《ieee/cvf conference on computer vision andpattern recognition》(cvpr 2019)发表的论文“semantic graph convolutionalnetworks for 3dhuman pose regression”公开了一种方法,将人体骨架看作是一个图拓扑结构,利用图卷积神经网络来对其关节点之间的关系进行建模。zhao等人在《ieee/cvfconference on computer vision and pattern recognition》(cvpr 2022)会议上发表的论文“graformer:graph-orientedtransformer for 3d pose estimation”公开了一种方法,针对图卷积神经网络感受野有限,通过transformer来构建全局的关节点连接关系,实现更准确的姿态估计。

3、经过对现有技术的文献检索发现,现有基于transformer进行三维人体姿态估计任务的主要困难在于难以克服二维到三维映射的不唯一性,因此该问题是一个病态问题。现有方法在对关节点进行建模时,将关节点视为同等重要的单位输入到transformer中,但这显然忽略了人体拓扑结构本身这一先验信息。因此,对于一些自由度较高的关节点,往往难以估计准确的三维关节点坐标。


技术实现思路

1、本发明针对上述现有技术中存在的问题,提出一种三维人体姿态估计方法、系统、应用、介质及终端。

2、根据本发明的一个方面,提供一种三维人体姿态估计方法,包括:

3、通过不同方式获取不同类别的关节点嵌入信息,即输入包含2d姿态信息的同时,获得绝对和相对的图拓扑距离信息;

4、通过构造面向姿态的自注意力机制,构造面向姿态的transformer网络;将每个关节点所述不同类别嵌入信息的总和作为token,输入到所述transformer网络中,进行姿态相关的全局特征提取;

5、根据所述transformer网络的输出,通过对关节点的不确定度进行估计,进行不确定度引导的采样操作和姿态改善操作,实现基于不确定度引导的改善。

6、优选地,所述通过不同方式获取不同类别的关节点嵌入信息,即输入包含2d姿态信息的同时,获得绝对和相对的图拓扑距离信息,包括:

7、对于包含j个关节点的2d姿态输入图像x,通过全连接层进行线性映射得到每个关节点的特征嵌入信息z;

8、对于j个关节点,通过自适应学习的方式得到每个关节点对应的关键点位置嵌入信息k;

9、对于j个关节点,根据到盆骨关节点的最短图拓扑距离进行分组,通过自适应学习的方式得到每个组对应的组级位置嵌入信息g;

10、将所述特征嵌入信息z、所述关键点位置嵌入信息k和所述组级位置嵌入信息g进行相加,将最终结果作为后续transformer的输入。

11、优选地,所述面向姿态的注意力机制能够执行的操作,包括:

12、根据人体图拓扑结构,计算关节点两两之间的图拓扑最短距离,其中相邻两关节点的距离为1;

13、利用多层感知机作为映射函数来将所述距离l进行映射编码以及维度提升,并将结果作为额外的偏置和标准的多头注意力机制mh-sa输出的注意力矩阵相加作为输出结果。

14、优选地,所述transformer网络共计l层,每一层包括一个所述面向姿态的注意力机制层、一个gelu非线性映射层和两个多层感知机层,并进行相应的短连接操作;所述transformer网络为面向姿态的网络,提取姿态相关的全局特征。

15、优选地,所述根所述transformer网络的输出,通过对关节点的不确定度进行估计,进行不确定度引导的采样操作和姿态改善操作,实现基于不确定度引导的改善,包括:

16、根据面向姿态的transformer网络结构的输出,通过多层感知机作为线性映射层来估计每个关节点的不确定度σ;

17、根据面向姿态的transformer网络结构的输出,通过多层感知机作为线性映射层来得到粗糙3d姿态,并将该3d姿态作为均值μ,所述关节点不确定度σ作为方差,得到高斯分布最后对该分布进行采样;

18、利用估计得到的所述关节点的不确定度σ构建不确定度引导的注意力机制,调整相应关节点的注意力权值;

19、最后再通过一个多层感知机作为线性映射层得到改善细化后的3d姿态。

20、优选地,对于第i和j个token,所述不确定度引导的注意力机制将标准的多头注意力机制mh-sa得到的注意力权值的和第j个关节点的不确定度进行相除,根据相除的计算结果,降低不确定度高的关节点的注意力权值,增加不确定度低的关节点的注意力权值。

21、根据本发明的第二个方面,提供一种三维人体姿态估计系统,包括:

22、多类别嵌入信息获取模块,该模块通过不同方式获取不同类别的关节点嵌入信息,即输入包含2d姿态信息的同时,获得绝对和相对的图拓扑距离信息;

23、面向姿态的transformer网络构建模块,该模块通过构造面向姿态的自注意力机制,构造面向姿态的transformer网络;将每个关节点所述不同类别嵌入信息的总和作为token,输入到该transformer网络中,进行姿态相关的全局特征提取;

24、不确定度引导的姿态改善构建模块,该模块根据transformer网络的输出,通过对关节点的不确定度进行估计,进行不确定度引导的采样操作和姿态改善操作,实现不确定度引导的改善。

25、根据本发明的第三个方面,提供一种三维人体姿态估计应用系统,包括:

26、transformer网络的构建模块,该模块基于上述的三维人体姿态估计方法构建transformer网络,或者,基于上述的三维人体姿态估计系统构建transformer网络;

27、transformer网络的训练模块,该模块用于对构建的transformer网络进行训练;

28、三维人体姿态估计模块,该模块用于利用训练得到的transformer网络进行三维人体姿态估计。

29、根据本发明的第四个方面,提供一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行上述的三维人体姿态估计方法,或,运行上述的三维人体姿态估计系统。

30、根据本发明的第五个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可用于执行上述的三维人体姿态估计方法,或,运行上述的三维人体姿态估计系统。

31、相较于现有技术,本发明实施例具有如下至少一种有益效果:

32、(1)本发明实施例中的三维人体姿态估计方法和系统,通过在自注意力机制中引入图拓扑结构和不确定信息,能够更好地处理深度模糊问题。

33、(2)本发明实施例中的三维人体姿态估计方法和系统,通过构建transformer网络,能够更紧凑地对输入数据进行特征提取,节约网络模型参数量。

34、(3)本发明实施例中的三维人体姿态估计方法和系统,通过不确定度采样和不确定度注意力机制的改善,能够显著提高含有自遮挡和复杂动作的姿态估计准确率,具有很强的灵活性和可扩展性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1