一种小尺度感知增强的人体姿态估计方法

文档序号:33556441发布日期:2023-03-22 12:05阅读:118来源:国知局
一种小尺度感知增强的人体姿态估计方法

1.本发明属于计算机视觉及人体姿态估计技术领域,具体涉及一种小尺度感知增强的人体姿态估计方法。


背景技术:

2.二维人体姿态估计(hpe)是计算机视觉领域非常重要的一个分支,受到了许多研究者的关注,其具体的做法就是从图片中定位出人体的关节点(膝盖、手肘等);hpe在实际生活中有着大量的应用,例如动作识别、动画制作、增强现实等领域。
3.在hpe领域主要有两大分支:一种是基于坐标回归的方法,另一种是基于热图回归的方法。
4.基于坐标回归的方法;现有人体关键点的数据集均以坐标的形式对关节点进行标注,因此研究者们也最先容易联想到让网络生成同样形式的信号来进行监督学习,因此基于坐标回归的方法在早期十分受欢迎,文献[toshev,a.,szegedy,c.:deeppose:human pose estimation via deep neural networks.in:proceedings of the ieee conference on computer vision and pattern recognition.pp.1653

1660(2014)]首次将人体姿态估计问题转化为关键点坐标回归问题,在这之后很多工作基于此进行,但随着研究的深入也逐渐暴露出了很多问题,一是人体关键点坐标数值范围大,分布零散,不利于网络直接进行学习;其次是人体关键点之间以及人体和背景之间有着非常丰富的约束信息,而坐标回归方法中网络输出的只有x,y坐标,而丢失掉了这些信息,这些缺点都极大的限制了坐标回归的性能,使的该方法在很长一段时间内都无法超越热图回归的方法。直到文献[li,j.,bian,s.,zeng,a.,wang,c.,pang,b.,liu,w.,lu,c.:human pose regression with residual log-likelihood estimation.in:proceedings of the ieee/cvf international conference on computer vision.pp.11025

11034(iccv2021)]的成功提出,使的坐标回归的方法首次超越了基于热图的方法成为sota模型,rle工作的核心在于,通过归一化流估计出模型输出关节的分布概率密度,一旦估计出令人满意的先验分布函数,就能动态优化损失函数loss,从而促进模型的回归训练。
[0005]
基于热图的回归方法;热图回归是人体姿态估计领域研究的热点,由于其出色的性能表现,得到了很多研究者的青睐,甚至于文献[li,y.,zhang,s.,wang,z.,yang,s.,yang,w.,xia,s.t.,zhou,e.:tokenpose:learning keypoint tokens for human pose estimation.arxiv preprint arxiv:2104.03516(2021)]这种基于transformer的工作,最终都离不开热图。热图回归原理大致是将标签编码为符合二维高斯分布的热图,热图的尺寸一般设置为输入图片尺寸的1/4,在训练过程中不断的调整高斯核中的概率值,最终通过argmax函数来解码,提取出最大概率点的索引来进行计算。二维热图表示法有两个突出的优点:首先,因为是用二维热图来表示关键点,因此可以保留关键点的空间位置信息;其次,在很多图片中,很难用一个像素点去标记关节点,因为其附近的点也很像关节点,如果贸然的将周围的点设置为负标签,显然是不合理的。而高斯核可以很好的模拟出关节点的位置,
文献[tompson,j.,jain,a.,lecun,y.,bregler,c.:joint training of a convolutional network and a graphical model for human pose estimation.preprint arxiv:1406.2984(2014)]作为最早使用热图的回归方法,提出了利用人体关键点之间的结构关系,结合马尔科夫随机场的思想来优化预测结果。文献[newell,a.,yang,k.,deng,j.:stacked hourglass networks for human pose estimation.in:european conference on computer vision.pp.483

499.springer(2016)]提出了锥形沙漏网络,作为一种非常有效的方式一致沿用至今。文献[cheng,b.,xiao,b.,wang,j.,shi,h.,huang,t.s.,zhang,l.:higherhrnet:scaleaware representation learning for bottom-up human pose estimation.in:proceedings of the ieee/cvf conference on computer vision and pattern recognition.pp.5386

5395(2020)]在hrnet的基础上进行了改进提出了higherhrnet,使用高分辨率特征金字塔来进行特征融合,其目的是为了提高中小人物的表现来提高整体的精度,但作者发现最终贡献最多的确是中型人物,对于小尺度目标的表现提升并不明显。文献[luo,z.,wang,z.,huang,y.,tan,t.,zhou,e.:rethinking the heatmap regression for bottom-up human pose estimation.arxiv preprint arxiv:2012.15175(2020)]提出了尺度权重自适应热图表示法,来解决高斯核的尺度问题,结果与higherhrnet出奇一致,测试发现最终的贡献大多来自与中等大小目标的人物。
[0006]
热图回归限制了小尺度目标;通过bowen cheng以及zhengxiong luo等人的工作可以看出,尽管作者意识到了主流模型尺度感知不平衡的问题,并提出了相应的解决方法,但是并没有意识到热图回归的方法并不适用小尺度的目标,甚至对于小尺度目标的预测来说是致命的。
[0007]
首先,热图回归时需要将标签转为符合二维高斯分布的热图,具体转化方式如下:
[0008][0009]
其中:(x,y)为真实的关键点坐标,(i,j)为热图上的坐标,σ为标准差,p表示第p个关键点所对应的热图,heatmap
p
(i,j)表示热图上(i,j)点所对应的概率值。
[0010]
假设人体标注了17个关键点,则会对应生成17张热图,每张热图上只表示一个关键点,假设真实关键点的坐标为(x,y),则热图上会生成以该点为圆心的高斯核,距离圆心越近概率值越大,在网络的训练过程中会一步步的更新概率值,在输出阶段会通过argmax等方法,在二维热图中找到最合适的点来求损失。通过上述可以看出,距离目标点越近,热图上该点所对应的概率值也就越大,这在目标尺度较大,点与点比较分散的时候优势非常明显,但是当目标尺度较小时,关键点比较密集,由于同一张图片不同尺度的目标享受同一个标准差σ,因此高斯分布就不能很好的区分出每个关键点。假设同样是鼻子和右眼,在σ相同的情况下,则在网络预测小尺度目标的过程中,很容易会造成语义混淆。
[0011]
如图1所示,可以更直观的看出,在人物目标较小时,采用相同标准差的高斯核在微小人物的表现上并不好;对于远处的微小人物来说,左眼、右眼、鼻子嘴巴等部位的高斯核已经高度重合;人物目标较大时,鼻子处的高斯核正好合适,但是远处目标尺度较小时鼻子处的高斯核已经覆盖了整个脸部,这显然是不合理的。
[0012]
其次,热图的尺寸一般较小,约为原图尺寸的1/4,假设鼻子处的真实坐标为(427,427),则生成的热图上坐标为(427,427)//4=(106,106),那么即使预测出来的值恰好为
(106,106),那么也会有3个像素的量化误差427-106*4=3,在训练过程中随着目标越来越小,反之这个量化误差带来的影响会越来越大。文献[newell,a.,yang,k.,deng,j.:stacked hourglass networks for human pose estimation.in:european conference on computer vision.pp.483

499.springer(2016)]以及文献[zigang geng1,3*,ke sun1*,bin xiao3,bottom-up human pose estimation via disentangled keypoint regression]尝试添加额外的后处理来减小量化误差,但是这种误差是由于热图本身的特点决定的,因此只能减少不能消除。鉴于此,我们有理由相信若要从微小尺度目标的角度入手,基于热图的方法也许并不是一个好的选择,这是由于热图自身的局限性决定的。
[0013]
基于一维向量的回归方法;在面部关键点检测领域,文献[yin,s.,wang,s.,chen,x.,chen,e.:attentive one-dimensional heatmap regression for facial landmark detection and tracking(2020)]引入共注意机制,用两组一维热图来表示x,y坐标的边缘分布。文献[xiong,y.,zhou,z.,dou,y.,su,z.:gaussian vector:an efficient solution for facial landmark detection.in:proceedings of the asian conference on computer vision(2020)]引入了band pooling模块将热图转化为每对真实坐标的一维向量。回到人体姿态估计领域,文献[li,y.,zhang,s.,wang,z.,yang,s.,yang,w.,xia,s.t.,zhou,e.:tokenpose:learning keypoint tokens for human pose estimation.arxiv preprint arxiv:2104.03516(2021)]提出了两种token(一维向量)表示方法,首先将特征图按patch拆分后拉成的一维特征向量,其次将每一个真实坐标也用一维向量表示,将两种一维向量拼接在一起共同送入到网络中训练。文献[yanjie li1,sen yang2,peidong liu:simcc:a simple coordinate classification perspective for human pose estimation.in:eccv2022]将姿态估计任务重新定义为水平坐标和垂直坐标的分类任务,所提出的simcc是将每个像素均匀的划分为多个bin,从而实现了亚像素级别的定位精度和低量化误差。


技术实现要素:

[0014]
鉴于上述,在一维向量回归方法中,simcc亚像素级别的定位对于微小人物的预测会是比较友好的,因此本发明提出了一种小尺度感知增强的人体姿态估计方法,结合taa模块,采用自顶向下的方法来构建ssa-net,来解决主流网络尺度感知不平衡的问题,以实现更好的效果。
[0015]
一种小尺度感知增强的人体姿态估计方法,包括如下步骤:
[0016]
(1)获取大量含有人物的图片,并对图片中人物的关节点位置进行标注;
[0017]
(2)构建基于ssa-net(small scale-aware enhanced network for human pose estimation)的模型框架,其包括:
[0018]
backbone模块,用于对输入的图片进行特征提取;
[0019]
taa模块,用于对提取得到的特征图进行特征增强;
[0020]
simcc模块,根据增强后的特征图对关节点位置进行预测;
[0021]
(3)利用步骤(1)中获取的图片及其标注信息对上述模型框架进行训练;
[0022]
(4)将包含人物的待估计图片输入至训练好的模型中,即可预测出该图片中人物各关节点的位置坐标。
[0023]
进一步地,所述backbone模块以hrnet_w48为骨干网络,保留高分辨率分支,并将其他分辨率分支的输出进行了特征融合,性能显著高于resnet、hourglass等骨干网络。
[0024]
进一步地,所述taa模块的输入特征图为原图片尺寸的1/4,该模块首先利用转置卷积将输入特征图的大小转变为原图片尺寸的1/2,然后将特征图通过1
×
1的卷积操作,保证特征图尺寸不变的前提下,将其通道数扩大为原来的2倍;进而再将特征图送入坐标注意力机制模块进行编码,最后将坐标注意力机制模块的输入与输出通过残差机制进行特征融合后作为taa模块最终的输出结果。
[0025]
进一步地,所述坐标注意力机制模块首先将输入特征图从宽度和高度两个方向分别进行全局平均池化,得到宽度和高度两个方向的特征图,然后将这两个方向的特征图拼接在一起后依次通过1
×
1的卷积操作、批量归一化处理以及sigmoid激活函数得到特征图f,进而将特征图f按照原来的高度和宽度分别进行1
×
1的卷积操作得到通道数与输入一样的特征图fh和f,fh和f分别通过sigmoid激活函数后得到对应高度和宽度上的注意力权重gh和gw,最后利用gh和gw对输入特征图进行乘法加权计算,得到在高度和宽度方向上带有注意力权重的特征图作为坐标注意力机制模块的输出结果。
[0026]
进一步地,所述simcc模块的输入为taa模块输出h
×w×
c的特征图,其中h表示特征图的高度,w表示特征图的宽度,c表示通道数,且h和w分别为原图片高度和宽度的1/2;simcc模块首先将各通道的输入特征图拉直成一维向量的形式,向量长度为hw,然后通过线性层将特征图的通道数c降为n,n为关节点数量,进而将n个通道的一维向量分别通过水平轴坐标分类器和垂直轴坐标分类器,水平轴坐标分类器将n通道的一维向量长度降为kw并提取各通道向量中的最大值,进而映射得到这些最大值对应的预测点横坐标垂直轴坐标分类器将n通道的一维向量长度降为kh并提取各通道向量中的最大值,进而映射得到这些最大值对应的预测点纵坐标最后输出各关节点的预测坐标i为自然数且1≤i≤n,k为大于1的缩放因子。
[0027]
进一步地,所述步骤(3)的具体实现方式如下:
[0028]
3.1初始化模型参数,包括每一层的偏置向量和权值矩阵、学习率以及优化器;
[0029]
3.2将含有人物的图片输入至模型,模型正向传播输出得到对应的预测结果即关节点位置坐标,计算该预测结果与标注信息之间的损失函数;
[0030]
3.3根据损失函数利用优化器通过梯度下降法对模型参数不断迭代更新,直至损失函数收敛,训练完成。
[0031]
进一步地,所述损失函数采用预测结果与标注信息之间kl散度。
[0032]
本发明设计的ssa-net模型汲取了以往模型的不足,针对于小尺度目标的表现做了专门的优化,选用了更为精确的top-down结构,抛弃了热图表示法,改用基于一维向量表示法的simcc来更加精准的定位小尺度目标的关键点,同时在simcc-baseline的基础上提出了taa模块,通过消融实验也验证了taa模块的有效性,最终在整体ap上取得了不错的结果。
[0033]
小尺度目标的姿态估计是一个不容忽视的问题,站在实际应用的角度,很多场景下画面所展现出来的人物并不会像mpii数据集中的人物那么理想,例如广角视频监控以及远程拍摄等场景中,人物自身以及人物和背景之间的关系是非常复杂的,因此ssa-net有着
很大的实际应用价值。站在科学研究的角度,小尺度目标的表现很大程度限制着模型整体精度的提高,以往的网络大多忽视了这一点;因此本发明ssa-net模型的提出,既有实际应用价值,也有科学研究价值。
附图说明
[0034]
图1为高斯核的尺度对于微小人物关键部位的影响示意图。
[0035]
图2为本发明ssa-net模型框架示意图。
[0036]
图3为本发明模型中taa模块的结构示意图。
[0037]
图4为本发明模型中坐标注意力机制模块的结构示意图。
[0038]
图5为本发明模型中simcc模块的结构示意图。
具体实施方式
[0039]
为了更为具体地描述本发明,下面结合附图及具体实施方式对本发明的技术方案进行详细说明。
[0040]
本发明小尺度感知增强的人体姿态估计方法,包括如下步骤:
[0041]
(1)以二维含有人物的图片作为输入,以标注的关节点坐标作为监督信号进行监督学习。
[0042]
(2)构建ssa-net模型框架,其由backbone、taa模块以及simcc模块组成,以二维图片为输入,经过backbone进行特征提取,输出的特征图在经过taa模块进行特征增强,随后再通过simcc模块来进行关键点预测。
[0043]
在一维向量回归方法中,simcc亚像素级别的定位对于微小人物的预测会是比较友好的,因此本发明决定以simcc为baseline,结合taa模块,采用自顶向下的方法来构建ssa-net,具体的网络结构如图2所示。
[0044]
本发明模型中的backbone选用hrnet_w48,hrnet保留个高分辨率分支,并将其他分辨率分支的输出进行了特征融合,性能显著高于resnet、hourglass等骨干网络。
[0045]
本发明模型中的taa模块可以显著的提高网络对于小尺度目标的感知能力,其中t表示转置卷积,第一个a为坐标注意力机制,第二个a为残差机制,taa模块结构如图3所示,具体的:
[0046]
首先,backbone输出的特征图约为原图尺寸的1/4,我们用转置卷积将特征图的大小变为原图尺寸的1/2,计算公式如下:
[0047]hout
=(h
in-1)
×
stride[0]-2
×
padding[0]+kernel_size[0]
[0048]wout
=(w
in-1)
×
stride[1]-2
×
padding[1]+kernel_size[1]
[0049]
其中:h代表特征图的长,w代表特征图的宽,stride为卷积核的步距,kernel_size为卷积核的大小,padding作为重要参数用来计算出特征图的填充。
[0050]
然后,将1/2大小的特征图在送入1
×
1的卷积,保证特征图尺寸不变的前提下,将通道数扩大为原来的二倍。
[0051]
紧接着,再将特征图送入到坐标注意力机制模块,如图4所示;具体来说,坐标注意力机制为了将特征图分为高度和宽度两个方向分别进行精确位置信息编码,首先将输入特征图分为宽度和高度两个方向分别进行全局平均池化,分别获得在宽度和高度两个方向的
特征图,如下式所示:
[0052][0053][0054]
其中:w为特征图的宽,h为特征图的高。
[0055]
进而,将获得全局感受野的宽度和高度两个方向的特征图拼接在一起,之后将它们送入共享的卷积核为1
×
1的卷积模块,将其维度降低为原来的c/r,然后将经过批量归一化处理的特征图f1送入sigmoid激活函数得到形如1
×
(w+h)
×
c/r的特征图f,如下式所示:
[0056]
f=δ(f1([zh,zw]))
[0057]
将特征图f按照原来的高度和宽度进行卷积核为1
×
1的卷积操作,分别得到通道数与原来一样的特征图fh和f,经过sigmoid激活函数后分别得到特征图在高度和宽度上的注意力权重gh和gw,公式如下所示:
[0058]gh
=σ(fh(fh))
[0059]gw
=σ(fw(fw))
[0060]
经过上述计算后将会得到输入特征图在高度方向的注意力权重gh和在宽度方向的注意力权重gw;最后在原始特征图上通过乘法加权计算,将得到最终在宽度和高度方向上带有注意力权重的特征图,公式如下所示:
[0061][0062]
综上所述,坐标注意力机制可以看成将通道注意力分解为两个沿着不同方向聚合特征的1d特征编码过程,这样的好处是可以沿着一个空间方向捕获远程依赖,沿着另一个空间方向保留精确的位置信息。然后,将生成的特征图分别编码,形成一对方向感知和位置敏感的特征图,对于人体姿态估计时关键点较为密集时有着很大的帮助。
[0063]
最后为了使各个模块更好的发挥作用,我们加入残差机制将转置卷积的输出与坐标注意力机制的输出进行特征融合。
[0064]
本发明模型中的simcc模块是一种新的坐标表示方法,具体包括:
[0065]
坐标编码;在本发明方法中关键点的x和y坐标通过两条独立的一维向量来进行表征,通过一个缩放因子k(》=1),得到的一维向量长度也将大于等于图片边长。对于第p个关键点,其编码后的坐标将表示为:
[0066]
p

=(x

,y

)=(round(x
p
×
k),round(y
p
×
k))
[0067]
缩放因子k将每个像素均匀的划分为k个bin,其作用是将定位精度增强到比单个像素更小的级别。
[0068]
坐标解码;假设模型输出两条一维向量,很自然地,预测点的坐标计算方法为:
[0069][0070]
[0071]
即一维向量上最大值点所在位置除以缩放因子还原到图片尺度。
[0072]
simcc整体网络结构如图5所示,首先将taa模块的输出特征图,拉直为d维的一维向量,在分别通过水平轴和垂直轴的坐标分类器生成第i个关键点的预测坐标
[0073]
ssa-net汲取了以往模型的不足,针对于小尺度目标的表现做了专门的优化,选用了更为精确的top-down结构,抛弃了热图表示法,改用基于一维向量表示法的simcc来更加精准的定位小尺度目标的关键点,同时在simcc-baseline的基础上提出了taa模块,通过消融实验也验证了taa模块的有效性,最终在整体ap上取得了不错的结果。
[0074]
小尺度目标的姿态估计是一个不容忽视的问题,站在实际应用的角度,很多场景下画面所展现出来的人物并不会像mpii数据集中的人物那么理想,例如广角视频监控以及远程拍摄等场景中,人物自身以及人物和背景之间的关系是非常复杂的,因此ssa-net有着很大的实际应用价值。站在科学研究的角度,小尺度目标的表现很大程度限制着模型整体精度的提高,以往的网络大多忽视了这一点;因此ssa-net的提出,既有实际应用价值,也有科学研究价值。
[0075]
(3)利用步骤(1)中的图片和监督信号对模型框架进行训练。
[0076]
(4)将包含人物的图片送入到训练好的模型框架中,即可预测出相应的关节点坐标。
[0077]
上述对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明,熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改,并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此,本发明不限于上述实施例,本领域技术人员根据本发明的揭示,对于本发明做出的改进和修改都应该在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1