一种基于形状相似度的人体姿态估计方法及系统

文档序号:31759848发布日期:2022-10-12 02:39阅读:125来源:国知局
一种基于形状相似度的人体姿态估计方法及系统

1.本发明涉及计算机视觉技术领域,尤其涉及一种基于形状相似度的人体姿态估计方法及系统。


背景技术:

2.目前,随着深度学习技术的发展以及深度学习技术在姿态估计中的应用,现阶段对于单人姿态估计和稀疏场景下的多人姿态估计,已经达到了比较好的水平,而针对拥挤场景时的多人姿态估计,所面临的研究才刚刚开始。
3.现有基于深度学习的多人姿态估计算法主要是两阶段算法,两阶段算法分为关键点检测和关键点分组两个阶段。虽然现有两阶段的多人姿态估计算法在稀疏场景下取得了较好的效果,但当处于拥挤场景下时,精度会有显著下降。其原因在于拥挤场景下人与人之间经常出现严重重叠,会对检测产生显著干扰。
4.对于基于两阶段算法的两阶段方法则可以分为两类:自顶向下的方法和自底向上的方法。
5.对于自顶向下的方法来说,在人体检测阶段,由于人与人之间的距离太近,在使用现有非极大值抑制算法区分冗余框和目标框时,会导致邻近的目标框被错误抑制;同时在后续的关键点检测阶段,由于场景较为拥挤目标框内不可避免的混入其余人体,因此会对关键点检测产生高干扰。
6.对于自底向上的方法来说,在关键点检测阶段,由于图像中所包含人的数量未知,且拥挤场景导致关键点之间会互相干扰,因此如何能够从关键点热点图解码出较为精确的候选关键点集是一个尚未解决的难题;而在关键点分组阶段,由于拥挤场景中常常出现的遮挡情况,会导致部分关键点难以检测,从而对最后的分组带来困难。
7.自顶向下流程是当前最流行也是精度最高的多人姿态估计任务的解决方案。作为一种两阶段的方法,首先检测单个人所在的区域生成检测框,然后通过该检测框区域生成的热点图回归关键点坐标。
8.但是,在自上而下的方法中,在拥挤场景下单个人的检测框不可避免包含了其他人体,因此会出现无法避免的干扰问题。
9.以往的研究大多将深度神经网络作为一种强大的预测器,专注于改善网络结构以提高预测精度,但并没有从本质上真正解决这一问题。


技术实现要素:

10.为了克服上述现有技术的不足,本发明提供了一种基于形状相似度的人体姿态估计方法及系统,通过基于形状相似度的非极大值的人体检测算法,进一步提高在拥挤场景下对人体姿态识别的精确度。
11.为解决上述问题,本发明的第一目的在于提供一种基于形状相似度的人体姿态估计方法,所述人体姿态估计方法包括:
12.s
100
:对图像中的每个人体检测对象进行目标检测,并对单人的边界框进行粗定位;
13.s
200
:计算每个人体检测对象的置信度得分,并提出基于交并比iou的加权函数,以改变每个人体检测对象的检测框与最大得分检测框的交并比iou大于人为设定阈值的置信度得分;
14.s
300
:对每个人体检测对象的检测框进行归一化处理,并通过形状相似度权重函数调整重叠检测框的得分,以得到所有人体检测对象中的单人最大得分检测框;
15.s
400
:对所述单人最大得分检测框中的单人图片进行裁剪,并通过cnn网络采样提取裁剪后单人图片的特征图;
16.s
500
:通过transpose网络结构对输入的特征图进行关键点提取得到单人关键点热图,同时输出单个通道的人体标签热点预测图,以用于判断检测的关键点是否属于主要个体,
17.所述标签热点预测图用于给出关键点属于当前框中目标人体检测对象的置信度,以预测标签热点预测图的损失函数遵循关联嵌入提出的分组损失;
18.s
600
:从单人关键点热图中生成第一粗糙候选关键点,采用最大池化方法作为非极大抑制滤波器减少候选关键点的数量,通过固定的关键点检测阈值得到第二粗糙候选关键点,并用所述人体标签热点预测图来细化所述第二粗糙候选关键点,以得到最终的人体姿态估计结果。
19.可选的,在步骤s
100
中,所述对单人边界框的粗定位具体包括:
20.s
101
:对图片中的人体进行目标检测后,引进柔和非极大值抑制的后处理算法,选择所述人体检测对象的最大得分检测框;
21.s
102
:并将所述图像中剩余人体检测对象的检测框作为候选框组;
22.s
103
:依次计算所述候选框组中的检测框与所述最大得分检测框的交并比iou。
23.可选的,在步骤s
200
中,所述提出基于交并比的加权函数soft-nms的计算表达式式为:
24.f(iou(m,bi))=(1-iou(m,bi)),或者
25.f(iou(m,bi))=exp(-iou(m,bi)2/σ)
26.式中,m代表最大得分的检测框,bi代表人体检测对象,σ代表超参数,iou(m,bi)代表计算bi与m的交并比,exp代表取以e为底的指数运算,f(iou(m,bi))是一个基于交并比的加权函数,用于改变与m交并比大于n
t
的检测框的置信度得分;
27.并对评分函数进行了重构,所述评分函数si的表达式为:
[0028][0029]
式中,si是人体检测对象bi的置信度得分,n
t
是根据实验人为设定的阈值。
[0030]
可选的,在步骤s
300
中,所述对每个人体检测对象的检测框进行归一化处理,并通过形状相似度权重函数调整重叠检测框的得分,以得到所有人体检测对象中的单人最大得分检测框的具体步骤包括:
[0031]
对要比较的检测框的高度h和宽度w进行归一化使其面积为1,以得到标准化框,归
一化后检测框的高度h

和宽度w

分别为:
[0032][0033][0034]
其中:w是检测框的宽度,h是检测框的高度,w

是归一化后的检测框宽度,h

是归一化后检测框的高度;
[0035]
根据标准化框的重叠区域,来计算形状相似度,所述形状相似度s的计算表达式为:
[0036]
s=min(w1′
,w2′
)*min(h1′
,h2′
)
[0037]
基于形状相似度s的非极大值抑制,得到优化后的评分函数si′
为:
[0038][0039]
g(s(m,bi))=1-s(m,bi)
[0040]
式中g函数使人体对象检测框和最大得分框归一化后基于交并比的置信度分数发生更新;
[0041]
可选的,在步骤s
500
中,所述通过transpose网络结构对输入的特征图进行关键点提取得到单人关键点热图,同时输出单个通道的人体标签热点预测图,以用于判断检测的关键点是否属于主要个体具体包括:
[0042]
在得到输入图片的特征图后,使用transpose网络结构提取每个检测框中的单人关键点;
[0043]
经过transpose网络输出单人关键点的热图。
[0044]
可选的,在步骤s
500
中,所述标签热点预测图用于给出关键点属于当前框中目标人体检测对象的置信度,以预测标签热点预测图的损失函数遵循关联嵌入提出的分组损失,其中:
[0045]
目标人体的标注真值标签为:
[0046][0047]
其中:k代表目标人体的关键点数,t为标签热点预测图,t(x)是标记热点图在像素位置x处的值,xk为目标人体的第k个关键点的标注真值像素位置;
[0048]
分组损失lg被定义为:
[0049][0050]
令t={(xk)},k=1,l,k,t作为目标人体的关键点坐标集的标注真值,xk为目标人体的第k个关键点的标注真值像素位置。
[0051]
可选的,在步骤s
600
中,所述人体标签热点预测图来细化所述第二粗糙候选关键点,以得到最终的人体姿态估计结果具体包括:
[0052]s601
:为了得到候选关键点坐标,在不丢失热点图峰值信息的情况下,减少候选关键点的数量,具体为:
[0053]hnms
=maxpool(h
down
(x,y))
[0054]
其中:(x,y)为候选的关键点坐标,h
down
为下采样热点图,h
nms
为过滤器处理后的热点图;
[0055]s602
:通过固定的关键点检测阈值t,得到第一粗糙候选关键点k(x,y):
[0056]
k(x,y)={(x,y):h
nms
(x,y)≥t}
[0057]s603
:使用标签热点图来细化所述第一粗糙候选关键点k(x,y),以第j类候选关键点中标签响应的最大值kj作为最终热点图的解码结果:
[0058][0059]
t(x,y)=tagmap(c(x,y))
[0060]
其中:t(x,y)代表最终的目标关键点,j代表候选关节点的类别数,为处理后的第j类候选关键点热点图中位置c(x,y)的前k个最大置信度响应点,实验中k的个数设置为3;
[0061]s604
:在得到每个检测框中细化的关键点热图后,通过连接每个关键点组成骨骼,输出最终的姿态估计结果。
[0062]
本发明的第二目的在于提供一种基于形状相似度的人体姿态估计系统,包括:
[0063]
检测模块,用于获取图像中的人体检测对象的检测框;
[0064]
计算模块,用于根据人体检测对象的检测框计算每个检测对象的置信度得分;
[0065]
处理模块,用于对检测框中得到的单人图片进行裁剪,并采样提取得到裁剪后的特征图;
[0066]
优化模块,用于对单人关键点热图中的第一粗糙候选关键点、第二粗糙候选关键点进行优化,以得到最终的人体姿态估计结果。
[0067]
本发明的第三目的在于提供一种电子设备,包括:处理器、显示器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序指令,所述处理器执行所述计算机程序指令时用于实现如上述所述的基于形状相似度的人体姿态估计方法。
[0068]
本发明的第四目的在于提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上述所述的基于形状相似度的人体姿态估计方法。
[0069]
本发明与现有技术相比具有显著的优点和有益效果,具体体现在以下方面:
[0070]
本发明提出的一种基于形状相似度的非极大值抑制方法,去除重叠框中单个目标的冗余检测框;同时利用transformer提取全局特征的特性更好地提取了标签热点图,同时在关键点检测阶段通过综合标签信息以抑制噪声关键点的干扰,可在拥挤场景下完成对人体实例的最先进的准确率检测,在crowdpose数据集上平均精度为69.5%,优于其他的所有自顶而下的方法;在coco测试集上验证,也取得了1.4%的精度提升,基于形状相似度的非极大值抑制保留了更多人体的检测框,减少了错误抑制的情况,召回率上具有明显优势,证明了该方法在拥挤场景下有很好的效果。
附图说明
[0071]
图1为本发明实施例中一种基于形状相似度的非极大值抑制的人体检测算法的流程图;
[0072]
图2为本发明实施例中基于形状相似度的人体姿态估计系统的结构示意图;
[0073]
图3为本发明实施例中电子设备的结构示意图。
具体实施方式
[0074]
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
[0075]
请参阅图1所示,在本发明的实施例当中提供了一种基于形状相似度的人体姿态估计方法,所述人体姿态估计方法包括如下步骤:
[0076]s100
:对图像中的每个人体检测对象进行目标检测,并对单人的边界框进行粗定位;
[0077]s200
:计算每个人体检测对象的置信度得分,并提出基于交并比iou的加权函数,以改变每个人体检测对象的检测框与最大得分检测框的交并比iou大于人为设定阈值的置信度得分;
[0078]s300
:对每个人体检测对象的检测框进行归一化处理,并通过形状相似度权重函数调整重叠检测框的得分,以得到所有人体检测对象中的单人最大得分检测框;
[0079]s400
:对所述单人最大得分检测框中的单人图片进行裁剪,并通过cnn网络采样提取裁剪后单人图片的特征图;
[0080]s500
:通过transpose网络结构对输入的特征图进行关键点提取得到单人关键点热图,同时输出单个通道的人体标签热点预测图,以用于判断检测的关键点是否属于主要个体,
[0081]
所述标签热点预测图用于给出关键点属于当前框中目标人体检测对象的置信度,以预测标签热点预测图的损失函数遵循关联嵌入提出的分组损失;
[0082]s600
:从单人关键点热图中生成第一粗糙候选关键点,采用最大池化方法作为非极大抑制滤波器减少候选关键点的数量,通过固定的关键点检测阈值得到第二粗糙候选关键点,并用所述人体标签热点预测图来细化所述第二粗糙候选关键点,以得到最终的人体姿态估计结果。
[0083]
下面结合图1对本实施例提供的人体检测算法进行详细说明。
[0084]
请参见图1所示,利用基于yolov3的目标检测算法,初步获得图片中单人的检测框,该检测框是输入到后续特征提取网络的粗定位。
[0085]
需要进一步说明的是,yolo系列都是采用darknet网络结构作为主干特征提取的网络框架,yolov3采用的则是darknet-53,darknet-53网络框架是一个分类的框架,在imagenet上进行预训练。在做目标检测的时候,我们使用的特征提取的框架通常都是在imagenet上进行预训练,然后再做迁移学习,用于目标检测。由于我们是做目标检测的任务,所以本实施例中去掉最后三层:avgpool、connected、softmax。
[0086]
另外,yolov3是yolo目标检测算法中的一个重要版本,它的主要思想是将目标检测问题处理成回归问题,并将图像分为s
×
s的网格,如果一个目标的中心落入某个格子中,
那么该格子就负责检测该目标。
[0087]
具体的,在本发明的实施例当中,可以利用摄像装置拍摄现实生活中人群拥挤的场景的视频图像,比如说车站、商场等人员密集的场合,并将拍摄的视频图像输入到目标检测算法yolov5中,目标检测算法便对视频逐帧进行人体边界框检测,便可以得到初步的人体检测框位置。
[0088]
具体地,在步骤s
100
中,对图片中的人体进行目标检测后,引进柔和非极大值抑制的后处理算法,首先选择最大得分的检测框,然后将该图像中剩余的检测框作为候选框组,然后依次计算候选框组中候选框与开始的最大得分检测框的交并比iou。
[0089]
具体的,在传统的目标检测方法中,非极大值抑制是一种广泛应用的后处理算法,用于去除单个目标的冗余检测框。然而,在执行当前的nms算法时存在一个问题,即周围所有重叠大于阈值的检测框都被抑制,包括实际表示附近其他真实实例的检测框。解决这一问题的核心是如何区分非被检测对象框中哪些是冗余的,哪些是代表其他检测对象的。
[0090]
非极大值抑制首先选择最大得分检测框m,然后将该图像中剩余的检测框作为候选框组b,然后依次计算候选框组b中候选框bi与最大得分检测框m的交并比(iou)。
[0091]
具体地,在步骤s
200
中,计算每个人体检测对象的分类得分,并提出基于交并比的加权函数,用于改变与最大得分框交并比iou大于人为设定阈值的分数。
[0092]
在本实施例当中,传统的贪婪非极大抑制将检测框得分低于阈值n
t
的分数设为0,当使用阈值较低时,如0.3会增加遗漏率,特别是在拥挤场景中,原因在于可能存在许多对拥挤对象,其重叠度高于抑制阈值n
t
。因此在对这些对象执行贪婪非极大值抑制时,会对周围所有重叠度大于n
t
的检测框进行抑制,包括那些邻近非冗余的检测框,实际上这些检测框代表了其他待检测对象。
[0093]
然而,当阈值设置过高(例如0.7)时,则可能会增加误报率。虽然高阈值可以尽量保留那些重叠的待检测对象,但同时对于冗余框的抑制也会放松,因此贪婪非极大值抑制可能会起不到原有的抑制功能,因此,使用较高的阈值也不是一个好的选择。
[0094]
为了改进这个问题,本实施例当中提出了基于交并比的加权函数soft-nms,所述提出基于交并比的加权函数soft-nms的计算表达式式为:
[0095]
f(iou(m,bi))=(1-iou(m,bi)),或者
[0096]
f(iou(m,bi))=exp(-iou(m,bi)2/σ)
[0097]
式中,m代表最大得分的检测框,bi代表人体检测对象,σ代表超参数,iou(m,bi)代表计算bi与m的交并比,exp代表取以e为底的指数运算,f(iou(m,bi))是一个基于交并比的加权函数,用于改变与m交并比大于n
t
的检测框的置信度得分;
[0098]
另外,对评分函数进行了重构,所述评分函数si的具体表达式为:
[0099][0100]
式中,f(iou(m,bi))是一个基于交并比的加权函数,用于改变与m交并比大于nt的检测框的分数;si是人体检测对象bi的置信度得分,n
t
是根据实验人为设定的阈值。
[0101]
根据此公式,在贪婪非极大值抑制中,f(iou(m,bi))即直接删除。
[0102]
在柔和非极大值抑制中,f(iou(m,bi))=(1-iou(m,bi)),或者f(iou(m,bi))=exp
(-iou(m,bi)2/σ),
[0103]
当iou越大时,分数的衰减就越大。柔和非极大值抑制的优点是,它保留了高于阈值的候选框参与到后面流程可能性。但是,柔和非极大值抑制仍然惩罚具有高重叠程度的盒子,使其更容易被抑制,因此还是无法避免错误抑制的问题。
[0104]
具体地,在步骤s
300
中,归一化检测框的高度和宽度使其面积为1,增加形状相似度权重函数调整重叠框得分,以得到最终的单人检测框。
[0105]
具体的,在本发明的实施例当中,通过增加形状相似度的权重函数,来调整重叠框得分。虽然重叠个体的iou得分相对较大,但其形状将存在显著差异,可以通过这种显著差异来区分重叠的对象。为了计算形状相似度,先对要比较的检测框的高度和宽度进行归一化使其面积为1:
[0106][0107][0108]
其中w是检测框的宽度,h是检测框的高度,w

是归一化后的检测框宽度,h

是归一化后检测框的高度。
[0109]
形状相似度可以看作是标准化框的重叠区域:
[0110]
s=min(w1′
,w2′
)*min(h1′
,h2′
)
[0111]
基于形状相似度的非极大值抑制可以被描述为:
[0112][0113]
g(s(m,bi))=1-s(m,bi)
[0114]
随着形状相似度的增加,对置信度得分的抑制会更加明显,反之亦然。虽然重叠对象的交并比较大,但本文仍然可以通过形状相似度得分来区分不同的对象,因此基于形状相似度的非极大值抑制可以更好地区分重叠的检测对象。
[0115]
具体地,在步骤s
400
中,将上述检测框中得到的单人图片进行裁剪后,通过基本的cnn网络采样提取特征。
[0116]
具体的,将原始图片输入到transformer注意层之前,cnn骨干网络通过卷积层和池化层将原始输入降采样到四分之一大小,同时为了尽量减少信息损失将特征图数量增加到96个。
[0117]
具体地,在步骤s
500
中,通过transpose网络结构对上述特征图进行关键点提取,得到单人的关键点热图。
[0118]
由此,在得到输入图片的特征图后,使用transpose网络结构提取每个检测框中的单人关键点。transformer作为特征提取器可以更好的捕获像素点之间的联系,从而区分主要人体和次要人体的关键点,提高了最后人体姿态组装的精度,经过transpose网络输出17个关节点的热图。
[0119]
具体地,在步骤s
600
中,对于输入的裁剪后的图像,检测框会包含非主要个体的关
键点,通过transpose结构提取关键点的同时,输出单个通道的人体标签热点图的预测,用输入的标签热图判断检测的关键点是否属于主要个体。
[0120]
虽然基于形状相似度的非极大值抑制可以解决重叠个体的检测问题,但在重叠的情况下,检测框会不可避免地包含非主要个体的关键点,这会对关键点的检测阶段产生影响。
[0121]
为了解决这个问题,在本阶段网络会输出一个标签热图,标签热点图可以给出关键点属于当前框中目标人体的置信度。用于预测标签热点图的损失函数遵循关联嵌入提出的分组损失。分组损失计算预测标签与标签标注真值之间的平方距离来训练网络。代表同一个人的标签应该是相同的,而代表不同的人的标签应该是不同的。
[0122]
在本方法中,因为输入的是裁剪后的图像,它只包含一个目标人体,所以自顶向下方法中只需要单个标签来实现区分。
[0123]
首先,定义t为预测的标签热点图,t(x)是标记热点图在像素位置x处的值。然后,令t={(xk)},k=1,...,k,作为目标的关键点坐标集标注真值,其中x(k)为目标人体的第k个关键点的标注真值像素位置。
[0124]
目标的标注真值标签为:
[0125][0126]
其中:k代表目标人体的关键点数,t为标签热点预测图,t(x)是标记热点图在像素位置x处的值,xk为目标人体的第k个关键点的标注真值像素位置;
[0127]
分组损失lg被定义为:
[0128][0129]
具体地,在步骤s
600
中,首先从热点图中生成粗糙的候选关键点,采用最大池化方法作为非极大抑制滤波器减少候选关键点的数量,然后通过固定的关键点检测阈值得到粗糙候选关键点,最后用标签热图来细化粗糙候选关键点以得到最终的姿态估计结果。
[0130]
具体的,在热点图解码过程中,通常以热点图的最大响应坐标作为关键点的最终坐标。但在拥挤场景中,包含主要个体的检测框可能包含多个次要个体相同的身体部位。当次要个体的身体部位关键点置信度响应最大时,会出现将次要个体关键点分配到主要个体上的错误。
[0131]
为了解决这个问题,本方法采用自底向上的姿态估计方法来过滤错误的预测。首先从热点图中生成粗糙的候选关键点。为了得到候选关键点坐标,采用最大池化方法作为非极大值抑制滤波器,在不丢失热点图峰值信息的情况下减少候选关键点的数量,具体为:
[0132]hnms
=maxpool(h
down
(x,y))
[0133]
其中:(x,y)为候选的关键点坐标,h
down
为下采样热点图,h
nms
为过滤器处理后的热点图;
[0134]
通过固定的关键点检测阈值t得到粗糙候选关键点k(x,y):
[0135]
k(x,y)={(x,y):h
nms
(x,y)≥t}
[0136]
使用标签热点图来细化粗糙候选关键点,由于不属于主要个体的关键点标签的置信度响应低于其他像素,以第j类候选关键点中标签响应的最大值kj作为本文最终的热点
图解码结果:
[0137][0138]
t(x,y)=tagmap(c(x,y))
[0139]
其中:t(x,y)代表最终的目标关键点,j代表候选关节点的类别数,tjm(x,y)为处理后的第j类候选关键点热点图中位置c(x,y)的前k个最大置信度响应点,实验中k的个数通常设置为3。
[0140]
通过以上步骤,在得到每个检测框中细化的关键点热图后,通过连接每个关键点组成骨骼从而输出最终的姿态估计结果。
[0141]
本方法通过pytorch深度学习框架构建网络模型,并在crowdpose训练数据集上进行了12个epoch的训练。本文裁剪和调整训练图像的随机变换到192*256的固定空间范围,最终输出是一张48*64的热点图。
[0142]
本方法使用sgd优化器对网络进行培训,为了更好地训练网络,本文设置学习速率为1e-4(每3个代乘以0.5),动量为0.9,批处理大小为32,权值衰减为5e-4。本方法首先用l2损耗来训练网络,然后通过focalloss来继续训练,直到损耗不再下降,最终网络以混合精度来减少内存消耗和加速实验。
[0143]
本方法将crowdpose测试集和coco关键点数据集作为验证方法的数据集和map作为评价指标。
[0144]
首先在crowdpose测试集上验证我们方法的效果。由于本方法属于自顶向下的方法,因此比较对象也基本限定为自顶向下的方法。从表1中可以看出本方法平均精度优于其他所有方法,验证了本方法在拥挤场景下具有良好的效果。但根据实验结果可以看到在困难目标的检测上稍弱于sppe,原因在于sppe网络通过提高检测标准加强了对于困难目标的检测,同时由于检测标准过于严苛影响了简单和中等难度目标的检测效果,而本方法的结果则更加均衡,所以最终的平均精度优于sppe。
[0145]
表1 crowdpose测试集测试结果
[0146][0147]
同时对所提出的方法在coco测试集上验证,与其他方法的结果进行了比较,实验结果如表2所示。
[0148]
在coco测试数据集上,本方法获得了1.4%的精度提升。同时可以看到本方法在召回率上有着明显提升,主要原因在于与其他方法相比,基于形状相似度的非极大值抑制保留了更多人体的检测框,减少了错误抑制的情况,因此召回率上具有明显优势。
[0149]
表2 coco测试数据集实验结果
[0150][0151][0152]
为了分析基于形状相似度的非极大值抑制算法的效果,选用数据量相比较小的coco验证数据集进行消融实验。首先选定transpose作为基准方法,在不改变其他条件且对模型不进行额外训练的前提下仅配备了本方法的模块,与基准方法进行比较。通过引入形状相似度非极大值抑制精度提高了0.3%。实验结果如表3所示:
[0153]
表3 coco验证数据集实验结果
[0154][0155]
本实例还进行了消融实验来验证标签热点图的效果,表4展示了coco关键点验证数据集上实验结果,通过添加标签热点图精度提高了0.3%。
[0156]
表4 coco验证数据集实验结果
[0157][0158]
结果表明,添加了标签热点图后在coco数据集上的测试精度相对于基准方法有提升,但由于coco数据集中拥挤场景所占比例较小,因此提升不大。另一方面证明本方法对拥挤场景下效果的提升并没有牺牲常规场景下的检测效果,具有鲁棒性。
[0159]
请参阅图2所示,图2为本技术实施例提供的一种基于形状相似度的人体姿态估计系统,包括:
[0160]
检测模块,用于获取图像中的人体检测对象的检测框;
[0161]
计算模块,用于根据人体检测对象的检测框计算每个检测对象的置信度得分;
[0162]
处理模块,用于对检测框中得到的单人图片进行裁剪,并采样提取得到裁剪后的特征图;
[0163]
优化模块,用于对单人关键点热图中的第一粗糙候选关键点、第二粗糙候选关键点进行优化,以得到最终的人体姿态估计结果。
[0164]
请参阅图3所示,本发明实施例还提供了一种电子设备,包括:处理器、显示器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序指令,所述处理器执行所述计算机程序指令时用于实现上述所述的基于形状相似度的人体姿态估计方法。
[0165]
本技术实施例提供的电子设备,可用于执行上述任一方法实施例提供的基于形状相似度的人体姿态估计方法,其实现原理和技术效果类似,在此不再赘述。
[0166]
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机执行指令,当计算机执行指令在在计算机上运行时,使得计算机执行上述所述的基于形状相似度的人体姿态估计方法。
[0167]
需要说明的是,上述的计算机可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。
[0168]
可选的,将可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路中。当然,处理器和可读存储介质也可以作为分立组件存在于设备中。
[0169]
虽然本发明公开披露如上,但本发明公开的保护范围并非仅限于此。本领域技术人员在不脱离本公开的精神和范围的前提下,可进行各种变更与修改,这些变更与修改均将落入本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1