一种姿态估计方法、相关装置和存储介质与流程

文档序号:31998918发布日期:2022-11-02 10:12阅读:47来源:国知局
一种姿态估计方法、相关装置和存储介质与流程

1.本发明涉及计算机视觉技术领域,尤其涉及一种姿态估计方法、相关装置和存储介质。


背景技术:

2.姿态估计是计算机视觉领域的一个研究分支,其目标是从二维图像或视频估计目标对象的关键点在三维空间中的坐标位置。常见的姿态估计包括:人体姿态估计、半身姿态估计、手的姿态估计、或者动物姿态估计等。人体姿态估计在监控、运动分析、影视动画建模、虚拟现实、医疗等领域有着广阔的应用前景,其精度对下游任务的效果有着重要的影响。
3.在不同的运动场景中,人体在三维空间中可以呈现出形态各异的姿态,由于深度任意性和遮挡等因素使得由二维图像估计三维人体姿态存在着准确率低的问题。其中,深度任意性是指多个不同的三维人体姿态可能投影成一个相同的二维人体姿态,因为根据单视角捕捉的单目二维图像,很难推断出远离人体重心关键点的空间位置。遮挡是指,人体结构由各关节铰接组成,难免会发生关节自我遮挡的情况,同时人体所处环境不同,周围的物体也可能遮挡到人体的部分关节点。
4.因此,如何提升根据二维图像对目标对象进行姿态估计的精度,是现有技术亟待解决的问题。


技术实现要素:

5.本发明公开了一种姿态估计方法、相关装置和存储介质,能够提升根据二维图像对目标对象进行姿态估计的精度。
6.第一方面,本发明实施例提供了一种姿态估计方法,用于姿态估计模型对目标图像中的目标对象进行三维姿态估计,所述目标图像是对所述目标对象拍摄得到的二维图像,所述姿态估计模型包括:transformer编码器、第一图卷积模块、第二图卷积模块和回归模块,所述方法包括:所述transformer编码器对所述目标对象进行学习得到所述目标对象的关键点的全局特征;所述第一图卷积模块根据第一邻接矩阵和所述全局特征确定所述目标对象的局部静态特征;所述第一邻接矩阵根据所述目标对象的关键点之间的物理连接关系确定;所述第二图卷积模块根据第二邻接矩阵和所述局部静态特征确定局部动态特征;所述第二邻接矩阵根据近邻算法和所述目标对象的所有关键点之间稀疏的动态连接关系确定;所述回归模块根据所述局部动态特征确定所述目标对象的关键点的三维坐标。
7.采用本发明实施例提供的姿态估计方法进行姿态估计时,目标对象的关键点的三维坐标基于目标对象的关键点的全局特征、物理连接对应的局部静态特征以及稀疏动态关系对应的局部动态特征确定,相对于现有技术,采用本发明实施例提供的技术方案进行姿态估计时,准确率有了明显的提升,而且具有较好的泛化性。
8.结合第一方面,在一些可能的实施方式中,所述transformer编码器对所述目标对
象进行学习得到所述目标对象的关键点之间的全局特征,包括:所述transformer编码器通过线性变换,将所述目标对象的关键点的坐标映射到隐空间,同时用可学习的空间位置编码维持关键点的空间信息,然后经多头自注意力层msa和前馈网络ffn整合所有所述关键点的信息,得到所述目标对象的所有关键点的全局特征,计算公式包括:
9.x

(l)
=x
(l-1
)+msa(ln(x
(l-1)
)),
10.x
(l)
=x

(l)
+ffn(ln(x

(l)
)),
11.其中,ln(
·
)表示层归一化,l∈[1,...,l]表示层的索引,ln(x
(l-1)
)和ln(x

(l)
)是经层归一化后的特征向量,x

(l)
是l层隐含特征向量,x
(l)
是l层的特征向量输出,表示l层的全局特征。
[0012]
结合第一方面,在一些可能的实施方式中,所述第一邻接矩阵为a1,a1∈rj×j,所述j是所述目标图像中包括的关键点的总数量,
[0013][0014]
结合第一方面,在一些可能的实施方式中,所述第一图卷积模块根据第一邻接矩阵和所述全局特征确定所述目标对象的局部静态特征,包括:所述第一图卷积模块根据第一邻接矩阵和所述全局特征使用切比雪夫多项式作为卷积核做图卷积操作,
[0015]
其中,所述切比雪夫多项式包括:
[0016][0017][0018][0019]
使用所述切比雪夫多项式作为图卷积操作中的卷积核,经所述图卷积操作得到局部静态特征,
[0020][0021][0022]
其中,表示度为m的切比雪夫多项式,归一化拉普拉斯矩阵表示度为m的切比雪夫多项式,归一化拉普拉斯矩阵是的度矩阵,λ
max
是拉普拉斯矩阵l的最大特征值,i是单位矩阵,θm表示可学习参数。
[0023]
结合第一方面,在一些可能的实施方式中,所述第二邻接矩阵为a2,a2∈rj×j[0024][0025]
所述ωi是在特征空间中与关键点xi的距离最近的前k个关键点的集合,所述ωi=knn(xi,xj,k),j∈[1,...,j];所述knn是k近邻算法;关键点xj在特征空间中与所述关键点xi的距离为r(xi,xj),r(xi,xj)=dist(xi,xj),所述dist(xi,xj)为所述关键点xi、xj之间的欧式距离。
[0026]
结合第一方面,在一些可能的实施方式中,所述第二图卷积模块根据第二邻接矩阵和所述局部静态特征确定局部动态特征,包括:所述第二图卷积模块根据第二邻接矩阵
和所述局部静态特征使用所述切比雪夫多项式作为卷积核做图卷积操作得到局部动态特征,
[0027][0028][0029]
其中,由a2计算获得。计算获得。计算获得。是的度矩阵。
[0030]
结合第一方面,在一些可能的实施方式中,所述方法还可以包括:使用损失函数loss对所述姿态估计模型进行约束,
[0031][0032]
其中,所述y
i,j
和分别表示对样本i的第j个关键点的三维坐标的真实值和估计值,n是样本数,j是所述目标对象包括的关键点总数。
[0033]
第二方面,本发明实施例提供了一种姿态估计装置,用于对目标图像中的目标对象进行三维姿态估计,所述目标图像是对所述目标对象拍摄得到的二维图像,所述的装置包括:transformer编码器模块,用于对所述目标对象进行学习得到所述目标对象的关键点之间的全局特征;第一图卷积模块,用于根据第一邻接矩阵和所述全局特征确定所述目标对象的局部静态特征;所述第一邻接矩阵根据所述目标对象的关键点之间的物理连接关系确定;第二图卷积模块,用于根据第二邻接矩阵和所述局部静态特征确定局部动态特征;所述第二邻接矩阵根据近邻算法和所述目标对象的动作确定的所述关键点之间稀疏的动态连接关系确定;回归模块,用于根据所述局部动态特征确定所述目标对象的关键点的三维坐标。
[0034]
采用本发明实施例提供的姿态估计装置进行姿态估计时,目标对象的关键点的三维坐标基于目标对象的关键点的全局特征、物理连接对应的局部静态特征以及稀疏动态关系对应的局部动态特征确定,相对于现有技术,采用本发明实施例提供的技术方案进行姿态估计时,准确率有了明显的提升,而且具有较好的泛化性。
[0035]
结合第二方面,在一些可能的实施方式中,所述transformer编码器模块具体用于:通过线性变换,将所述目标对象的所有关键点的坐标映射到隐空间,同时用可学习的空间位置编码维持关键点的空间信息,然后经多头自注意力层msa和前馈网络ffn整合所有所述关键点的信息,得到所述目标对象的关键点的全局特征,计算公式包括:
[0036]
x

(l)
=x
(l-1)
+msa(ln(x
(l-1)
)),
[0037]
x
(l)
=x

(l)
+ffn(ln(x

(l)
)),
[0038]
其中,ln(
·
)表示层归一化,l∈[1,...,l]表示层的索引,ln(x
(l-1)
)和ln(x
(l)
)是经层归一化后的特征向量,x

(l)
是l层隐含特征向量,x
(l)
是l层的特征向量输出,x
(l)
表示l层的全局特征。
[0039]
结合第二方面,在一些可能的实施方式中,所述第一邻接矩阵为a1,a1∈rj×j,所述j是所述目标图像中包括的关键点的总数量,
[0040][0041]
结合第二方面,在一些可能的实施方式中,所述第一图卷积模块具体用于,根据第一邻接矩阵和所述全局特征使用切比雪夫多项式作为卷积核做图卷积操作,其中,所述切比雪夫多项式包括:
[0042][0043][0044][0045]
使用所述切比雪夫多项式作为图卷积操作中的卷积核,经所述图卷积操作得到局部静态特征,
[0046][0047][0048]
其中,表示度为m的切比雪夫多项式,归一化拉普拉斯矩阵表示度为m的切比雪夫多项式,归一化拉普拉斯矩阵是的度矩阵,λ
max
是拉普拉斯矩阵l的最大特征值,i是单位矩阵,θm表示可学习参数。
[0049]
结合第二方面,在一些可能的实施方式中,第二邻接矩阵为a2,a2∈rj×j,
[0050][0051]
所述ωi是在特征空间中与关键点xi的距离最近的前k个关键点的集合,所述ωi=knn(xi,xj,k),j∈[1,...,j];所述knn是k近邻算法;关键点xj在特征空间中与所述关键点xi的距离为r(xi,xj),r(xi,xj)=dist(xi,xj),所述dist(xi,xj)为所述关键点xi、xj之间的欧式距离。
[0052]
结合第二方面,在一些可能的实施方式中,所述第二图卷积模块具体用于,根据第二邻接矩阵和所述局部静态特征使用所述切比雪夫多项式作为卷积核做图卷积操作得到局部动态特征,
[0053][0054][0055]
其中,由a2计算获得。计算获得。计算获得。是的度矩阵。
[0056]
结合第二方面,在一些可能的实施方式中,还包括:验证模块,用于使用损失函数loss对所述姿态估计效果进行约束,
[0057]
[0058]
其中,所述y
i,j
和分别表示对样本i的第j个关键点的三维坐标的真实值和估计值,n是样本数,j是所述目标对象包括的关键点总数。
[0059]
第三方面,本发明实施例还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现第一方面或者第一方面任意一种可能的实现方式所述的姿态估计方法中的步骤。
[0060]
第四方面,本发明实施例还公开了一种终端设备,包括:处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序;所述通信总线实现处理器和存储器之间的连接通信;所述处理器执行所述计算机可读程序时实现第一方面或者第一方面任意一种可能的实现方式所述的姿态估计方法中的步骤。
附图说明
[0061]
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员而言,还可以根据这些附图获得其他的附图。
[0062]
图1为本发明实施例提供的一种姿态估计方法的流程示意图。
[0063]
图2为本发明一实施例使用的人体骨架模型示意图。
[0064]
图3是本发明一实施例中进行姿态估计的目标图片。
[0065]
图4a是表示左手腕和左肘对应的关键点之间具有物理连接关系的示意图。
[0066]
图4b是表示左手腕和右手腕对应的关键点之间具有稀疏动态连接关系的示意图。
[0067]
图5是本发明一实施例对图3所示目标图片进行姿态估计的流程示意图。
[0068]
图6是transformer编码器结构示意图。
[0069]
图7a是第一图卷积模块结构示意图。
[0070]
图7b是第二图卷积模块结构示意图。
[0071]
图8a是本发明一实施例中进行姿态估计的目标图片。
[0072]
图8b是采用现有技术中的一种方案进行姿态估计后得到的姿态估计示意图。
[0073]
图8c是采用现有技术中的另一种方案进行姿态估计后得到的姿态估计示意图。
[0074]
图8d是采用本发明提供的技术方案进行姿态估计后得到的姿态估计示意图。
[0075]
图8e是真实的姿态估计示意图。
[0076]
图9a是本发明一实施例中进行姿态估计的目标图片。
[0077]
图9b是采用现有技术中的一种方案进行姿态估计后得到的姿态估计示意图。
[0078]
图9c是采用现有技术中的另一种方案进行姿态估计后得到的姿态估计示意图。
[0079]
图9d是采用本发明提供的技术方案进行姿态估计后得到的姿态估计示意图。
[0080]
图9e是真实的姿态估计示意图。
[0081]
图10是本发明一实施例提供的姿态估计装置的结构示意图。
[0082]
图11是本发明一实施例提供的终端设备的结构示意图。
具体实施方式
[0083]
本发明实施例提供了一种姿态估计方法、相关装置和存储介质,为了使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图对本发明作进一步详细说明。应当理
解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
[0084]
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
[0085]
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
[0086]
本发明实施例公开的姿态估计方法适用于人体全身姿态估计、半身姿态估计、手部姿态估计以及动物姿态估计等场景。相应地,各场景对应的目标对象分别可以是二维图像中的人、人的半身结构、人的手或者动物等。本发明实施例以人体全身姿态估计(以下简称人体姿态估计)为例进行描述,对应的目标对象是图像中的人,可以是一个人也可以是多个人。为了简单起见,在下述实施例中图像中只包括一个人,图像中包括的这个人是目标对象。
[0087]
人体骨架模型是具有运动学特征的树形结构图,结构简洁,能够直观地描述人体姿态。请参见图2,图2是本发明实施例进行人体姿态估计时使用的人体骨架模型示意图,图中每个结点表示人体姿态中重要的关键点,关键点通常对应人体上有一定自由度的关节或者关键部位。
[0088]
如图2所示,其利用关键点对头部、脊柱、膝盖、手腕等关键部位或者关节进行了抽象,线段表示骨骼段,用于表示相关的关键点之间具有物理连接关系,人体骨架模型的每个关键点可以用坐标进行表示。需要说明的是,人体骨架模型也可以采用其它样式,比如在一些应用场景中,人体骨架模型中还可以增加标识鼻子、指关节等部位的结点作为关键点,都是可行的,本发明对人体骨架模型不做限定。
[0089]
如图2所示,该人体骨架中包括十七个结点,每个结点对应人体姿态中一个重要的关键点,这些关键点用标号0至16标识,分别表示:髋、右髋、右膝盖、右脚、做髋、左膝盖、左脚、脊柱、胸部、颈部、头部、左肩、左肘、左腕、右肩、右肘和右腕。
[0090]
下面结合附图,通过对实施例的描述,对发明内容作进一步说明。
[0091]
请参见图1,图1是本发明一实施例提供的一种姿态估计方法的流程示意图,如图1所示姿态估计方法包括如下步骤。
[0092]
101.transformer编码器对目标对象进行学习得到目标对象的键点之间的全局特征。
[0093]
具体地,transformer编码器通过线性变换,将目标对象的所有关键点的坐标映射到隐空间,同时用可学习的空间位置编码维持关键点的空间信息,然后经多头自注意力层(multiu-head self-attention,msa)和前馈网络(feed forward networks,ffn)整合所有
关键点的信息,得到目标对象的所有关键点的全局特征。
[0094]
以对图3所示图片中的人进行姿态估计为例,目标对象是图3中的人,图3中的人呈现出双手举起打招呼的姿势。
[0095]
需要说明的是,如图5所示,在transformer编码器进行处理之前,还包括根据图3所示图片确定目标对象的二维姿态得到各关键点的二维坐标,然后将各关键点的二维坐标输入关键点嵌入模块与位置编码器的输出相加后输入到transformer编码器,需要说明的是,数据输入transformer编码器之前的处理可以采用现有技术中的常用方法,比如可以采用现有技术中的高分辨率网络(high-resolution net,hrnet)对图3中的人进行二维人体姿态进行估计,具体实施过程参见现有技术中的相关描述,这里不再赘述。关键点经关键点嵌入模块处理后与位置编码器的输出相加,可维持关键点的空间位置信息,然后输入至transformer编码器。
[0096]
如图6所示,transformer编码器600包括:第一层归一化模块、第二层归一化模块、多头自注意力模块msa和前馈网络ffn。msa用于建模多个关键点之间的关系,ffn对信息进行转换。本实施例采用经典transformer相同的激活函数和结构,采用残差结构和层归一化(layer normalization,ln)操作。其计算过程包括:
[0097]
x

(l)
=x
(l-1
)+msa(ln(x
(l-1)
))
[0098]
x
(l)
=x

(l)
+ffn(ln(x

(l)
))
[0099]
其中,ln(
·
)表示层归一化,l∈[1,...,l]表示层的索引,x
(l)
是l层的输出,l为整数,可以根据经验确定。
[0100]
102.第一图卷积模块根据第一邻接矩阵和全局特征确定目标对象的局部静态特征。
[0101]
第一邻接矩阵为a1,a1∈rj×j,j是所述目标图像中包括的关键点的总数量,对图3所示骨骼结构,j=17。
[0102][0103]
以图4a为例,结点4-1和节点4-2之间有骨骼连接,则两个结点是具有物理连接的关键点。以图2为例,编号为12的关键点和编号为13的关键点之间由骨骼连接,则其在a1中对应的值a1(12,13)=1。举例来说,编号为13的关键点和编号为16的关键点之间没有直接通过骨骼连接,则其在a1中对应的值a1(13,16)=0。
[0104]
第一图卷积模块根据第一邻接矩阵和全局特征使用切比雪夫多项式作为卷积核做图卷积操作,其中,切比雪夫多项式包括:
[0105][0106][0107][0108]
使用上述切比雪夫多项式作为图卷积操作中的卷积核,经所述图卷积操作得到局部静态特征,
[0109]
[0110][0111]
其中,表示度为m的切比雪夫多项式,归一化拉普拉斯矩阵表示度为m的切比雪夫多项式,归一化拉普拉斯矩阵是的度矩阵,λ
max
是拉普拉斯矩阵l的最大特征值,i是单位矩阵,θm表示可学习参数。
[0112]
103.第二图卷积模块根据第二邻接矩阵和局部静态特征确定局部动态特征。
[0113]
第二邻接矩阵为a2,a2∈rj×j[0114][0115]
其中,ωi是在特征空间中与关键点xi的距离最近的前k个关键点的集合,ωi=knn(xi,xj,k),j∈[1,...,j];knn是k近邻算法;关键点xj在特征空间中与关键点xi的距离为r(xi,xj),r(xi,xj)=dist(xi,xj),dist(xi,xj)为关键点xi、xj之间的欧式距离。举例来说,若xi为(xi、yi、zi),xj为(xj、yj、zj)则xi和xj之间的欧式距离为
[0116]
第二图卷积模块根据第二邻接矩阵和局部静态特征使用切比雪夫多项式作为卷积核做图卷积操作。其中,切比雪夫多项式包括:
[0117][0118][0119][0120]
使用切比雪夫多项式作为卷积核做图卷积操作得到局部动态特征,
[0121][0122][0123]
其中,由a2计算获得。计算获得。计算获得。是的度矩阵。
[0124]
第二图卷积模块根据不同的姿态,可以学习关键点之间稀疏的动态k近邻关系。如图4b所示,结点4-1和节点4-3之间虽然没有直接的物理连接关系,但是在图4b所呈现的姿态中,两者具有稀疏的动态连接关系。
[0125]
为了提高精度,在一些可能的实施方式中,可以将第二图卷积模块的输出再输入到transformer编码器,经transformer编码器、第一图卷积模块和第二图卷积模块前述相同的处理后输入到回归模块。具体重复处理的次数可以根据经验确定,这里不做限定。
[0126]
104.回归模块根据局部动态特征确定目标对象的所有关键点的三维坐标。
[0127]
在一些可能的实施方式中,姿态估计方法还可以包括:使用损失函数loss对所述姿态估计模型进行约束,
[0128][0129]
其中,y
i,j
和分别表示对样本i的第j个关键点的三维坐标的真实值和估计值,n
是样本数,j是所述目标对象包括的关键点总数。举例来说,若y
i,j
的坐标为(x1、y1、z1),的坐标为(x1′
、y1′
、z1′
),则需要说明的是,loss的值越小可以认为三维人体姿态估越准确。
[0130]
采用不同的技术方案对图8a中的人进行姿态估计,得到的估计结果如图8b、图8c和图8d所示,其中图8b是采用现有技术中graformer方法进行姿态估计的估计结果,图8c是采用现有技术中只使用transformer编码器进行姿态估计的估计结果,图8d是采用本发明实施例提供的技术方案进行姿态估计的估计结果,图8e是图8a所示图像对应的姿态的真实结果。通过观察可知,在对图8a进行姿态估计时,存在自遮挡问题,对比采用不同方法进行姿态估计的结果,尤其根据图中各线段之间的角度和相对位置与真实值之间的差异可知,采用本发明实施例提供的技术方案进行姿态估计的估计结果与真实值更接近。
[0131]
类似地,采用不同的技术方案对图9a中的人进行姿态估计,得到的估计结果如图9b、图9c和图9d所示,其中图9b是采用现有技术中graformer方法进行姿态估计的估计结果,图9c是采用现有技术中只使用transformer编码器进行姿态估计的估计结果,图9d是采用本发明实施例提供的技术方案进行姿态估计的估计结果,图9e是图9a所示图像对应的姿态的真实结果。通过观察可知,在对图9a进行姿态估计时存在自遮挡和深度模糊的问题,对比采用不同方法进行姿态估计的结果,尤其根据图中各线段之间的角度和相对位置与真实值之间的差异可知,采用本发明实施例提供的技术方案进行姿态估计的估计结果与真实值更接近。
[0132]
采用本发明实施例提供的姿态估计方法进行姿态估计时,目标对象的关键点的三维坐标基于目标对象的关键点的全局特征、物理连接对应的局部静态特征以及稀疏动态关系对应的局部动态特征确定,相对于现有技术,采用本发明实施例提供的技术方案进行姿态估计时,准确率有了明显的提升,而且具有较好的泛化性。
[0133]
请参见图10,图10是本发明实施例提供的一种姿态估计装置1000的结构示意图,该姿态估计装置1000用于对目标图像中的目标对象进行三维姿态估计,目标图像是对目标对象拍摄得到的二维图像,姿态估计装置1000包括:transformer编码器模块1001,用于对目标对象进行学习得到目标对象的关键点之间的全局特征;第一图卷积模块1002,用于根据第一邻接矩阵和全局特征确定目标对象的局部静态特征;第一邻接矩阵根据目标对象的关键点之间的物理连接关系确定;第二图卷积模块1003,用于根据第二邻接矩阵和局部静态特征确定局部动态特征,第二邻接矩阵根据近邻算法和目标对象的动作确定的关键点之间稀疏的动态连接关系确定;回归模块1004,用于根据局部动态特征确定目标对象的各关键点的三维坐标。
[0134]
采用本发明实施例提供的姿态估计方法进行姿态估计时,目标对象的关键点的三维坐标基于目标对象的关键点的全局特征、物理连接对应的局部静态特征以及稀疏动态关系对应的局部动态特征确定,相对于现有技术,采用本发明实施例提供的技术方案进行姿态估计时,准确率有了明显的提升,而且具有较好的泛化性。
[0135]
请参见图6,在一些可能的实施方式中,transformer编码器模块600包括:第一层归一化模块、第二层归一化模块、多头注意力模块和前馈网络模块,transformer编码器模块600具体用于:通过线性变换,将目标对象的所有关键点的坐标映射到隐空间,同时用可学习的空间位置编码维持关键点的空间信息,然后经多头自注意力层msa和前馈网络ffn整
合所有关键点的信息,得到目标对象的所有关键点的全局特征,计算公式包括:
[0136]
x

(l)
=x
(l-1)
+msa(ln(x
(l-1)
)),
[0137]
x
(l)
=x

(l)
+ffn(ln(x
(l)
)),
[0138]
其中,ln(
·
)表示层归一化,l∈[1,...,l]表示层的索引,ln(x
(l-1)
)和ln(x

(l)
)是经层归一化后的特征向量,x

(l)
是l层隐含特征向量,x
(l)
是l层的特征向量输出,x
(l)
表示l层的全局特征。
[0139]
在一些可能的实施方式中,第一邻接矩阵为a1,a1∈rj×j,j是目标图像中包括的关键点的总数量,
[0140][0141]
请参见图7a,在一些可能的实施方式中,第一图卷积模块700可以包括多个分别与0阶、1阶或者2阶切比雪夫多项式作卷积的图卷积层,具体用于,根据第一邻接矩阵和全局特征使用切比雪夫多项式作为卷积核做图卷积操作,其中,切比雪夫多项式包括:
[0142][0143][0144][0145]
使用切比雪夫多项式作为图卷积操作中的卷积核,经图卷积操作得到局部静态特征,
[0146][0147][0148]
其中,表示度为m的切比雪夫多项式,归一化拉普拉斯矩阵表示度为m的切比雪夫多项式,归一化拉普拉斯矩阵是的度矩阵,λ
max
是拉普拉斯矩阵l的最大特征值,i是单位矩阵,θm表示可学习参数。
[0149]
在一些可能的实施方式中,第二邻接矩阵为a2,a2∈rj×j,
[0150][0151]
ωi是在特征空间中与关键点xi的距离最近的前k个关键点的集合,ωi=knn(xi,xj,k),j∈[1,...,j];knn是k近邻算法;关键点xj在特征空间中与关键点xi的距离为r(xi,xj),r(xi,xj)=dist(xi,xj),dist(xi,xj)为关键点xi、xj之间的欧式距离。
[0152]
请参见图7b,在一些可能的实施方式中,第二图卷积模块701可以包括k近邻算法模块和图卷积层模块,第二图卷积模块701具体用于,根据第二邻接矩阵和局部静态特征使用切比雪夫多项式作为卷积核做图卷积操作得到局部动态特征,
[0153]
[0154][0155]
其中,由a2计算获得。计算获得。计算获得。是的度矩阵。
[0156]
在一些可能的实施方式中,姿态估计装置1000还可以包括:验证模块,用于使用损失函数loss对所述姿态估计效果进行约束,
[0157][0158]
其中,y
i,j
和分别表示对样本i的第j个关键点的三维坐标的真实值和估计值,n是样本数,j是目标对象包括的关键点总数。
[0159]
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,该一个或者多个程序可被一个或者多个处理器执行,以实现上述方法实施例中记载的任何姿态估计方法的部分或全部步骤。前述的存储介质包括:u盘、rom、ram、移动硬盘、磁盘或者光盘等各种可以存储程序代码的介质。
[0160]
请参见图11,图11是本发明一实施例提供的一种终端设备1100,终端设备1100包括:处理器1101、存储器1102及通信总线1103;存储器1102上存储有可被处理器1101执行的计算机可读程序;通信总线1103实现处理器和存储器之间的连接通信;处理器1101执行计算机可读程序时实现上述方法实施例中记载的任何姿态估计方法的部分或全部步骤。
[0161]
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0162]
在本发明所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
[0163]
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0164]
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1