基于多视角的三维姿态估计数据集的构建方法及装置

文档序号:33622107发布日期:2023-03-25 12:37阅读:75来源:国知局
基于多视角的三维姿态估计数据集的构建方法及装置

1.本发明涉及计算机视觉技术领域,尤其涉及一种基于多视角的三维姿态估计数据集的构建方法及装置。


背景技术:

2.人体姿态估计(human pose estimation,hpe)和动作识别是计算机视觉领域的重要研究方向,现在很多方法都取得了很好的效果。训练人体姿态估计网络和模型需要依赖于高质量的数据集。
3.现有的姿态估计数据集多为二维姿态估计数据集,可以满足多数常规需求。
4.但是,在一些例如体育、舞蹈等专业动作的复杂场景中,采用二维姿态估计数据集训练出的人体姿态估计网络和模型,进行人体姿态估计,可能会出现识别错误或者漏掉关键点的问题,人体姿态估计的精确度低。


技术实现要素:

5.本发明提供一种基于多视角的三维姿态估计数据集的构建方法及装置,用以解决现有技术中人体姿态估计的精确度低的问题。
6.本发明提供一种基于多视角的三维姿态估计数据集的构建方法,包括:
7.采用n个相机采集待检测区域的图片,得到n个待检测图片序列;其中,n为大于1的整数,所述n个相机中存在至少两个相机采集图片的视角不同;
8.基于预先设置的人体跟踪方法,从所述n个待检测图片序列中检测出的至少一个人体图像中,选取至少一个目标人体图像;
9.基于所述n个待检测图片序列,获取所述目标人体图像的二维姿态估计结果;
10.获取所述n个相机的参数信息;
11.基于所述二维姿态估计结果和所述n个相机的参数信息,构建所述目标人体图像的三维姿态估计数据集。
12.根据本发明提供的一种基于多视角的三维姿态估计数据集的构建方法,所述基于所述n个待检测图片序列,获取所述目标人体图像的二维姿态估计结果,包括:
13.从所述n个待检测图片序列的图片中,获取所述目标人体图像的至少一个关键点对应的二维坐标的集合,作为所述目标人体图像的二维姿态估计结果;
14.所述获取所述n个相机的参数信息,包括:
15.获取所述n个相机的内参数矩阵、旋转矩阵和平移向量,作为所述n个相机的参数信息;
16.所述基于所述二维姿态估计结果和所述n个相机的参数信息,构建所述目标人体图像的三维姿态估计数据集,包括:
17.基于所述目标人体图像的至少一个关键点对应的二维坐标的集合、所述内参数矩阵、所述旋转矩阵和所述平移向量,获取所述目标人体图像的至少一个关键点对应的三维
坐标的集合,作为所述目标人体图像的三维姿态估计数据集。
18.根据本发明提供的一种基于多视角的三维姿态估计数据集的构建方法,所述基于所述目标人体图像的至少一个关键点对应的二维坐标的集合、所述内参数矩阵、所述旋转矩阵和所述平移向量,获取所述目标人体图像的至少一个关键点对应的三维坐标的集合,作为所述目标人体图像的三维姿态估计数据集,包括:
19.基于所述内参数矩阵ki、所述旋转矩阵ri和所述平移向量ti,采用公式(1)计算第i个相机的投影矩阵pi:
20.pi=ki[riti]=[p
i(1)
p
i(2)
p
i(3)
]
t
(1)
[0021]
基于pi和所述目标人体图像的至少一个关键点q对应的二维坐标的集合(x1,y1),(x2,y2),...,(xn,yn),采用公式(2)计算所述目标人体图像的至少一个关键点对应的三维坐标的集合x=[q
x
,qy,qz,1]
t

[0022]
ax=0(2)
[0023]
其中,矩阵a采用公式(3)计算得到:
[0024][0025]
将所述三维坐标的集合x=[q
x
,qy,qz,1]
t
,作为所述目标人体图像的三维姿态估计数据集。
[0026]
根据本发明提供的一种基于多视角的三维姿态估计数据集的构建方法,所述基于所述n个待检测图片序列,获取所述目标人体图像的二维姿态估计结果,包括:
[0027]
从所述n个待检测图片序列中,获取检测出所述目标人体图像的目标图片序列;
[0028]
在所述目标图片序列的各图片中,提取用于表征所述目标人体图像的至少一个关键点的候选位置信息;
[0029]
基于预先设置的滤波方法,从所述候选位置信息中滤除识别错误的关键点对应的候选位置信息,得到第一位置信息,作为所述目标人体图像的二维姿态估计结果。
[0030]
根据本发明提供的一种基于多视角的三维姿态估计数据集的构建方法,所述基于预先设置的滤波方法,从所述候选位置信息中滤除识别错误的关键点对应的候选位置信息,得到第一位置信息,作为所述目标人体图像的二维姿态估计结果,包括:
[0031]
基于所述滤波方法,从所述候选位置信息中滤除识别错误的关键点对应的候选位置信息,得到第一位置信息;
[0032]
基于预先设置的姿态连续性计算方法,在所述第一位置信息中增加缺失的关键点对应的位置信息,得到第二位置信息,作为所述目标人体图像的二维姿态估计结果。
[0033]
根据本发明提供的一种基于多视角的三维姿态估计数据集的构建方法,在所述基于所述二维姿态估计结果和所述n个相机的参数信息,构建所述目标人体图像的三维姿态估计数据集之后,所述方法还包括:
[0034]
采用所述三维姿态估计数据集训练人体姿态估计模型,以基于训练后的人体姿态估计模型进行人体姿态估计。
[0035]
本发明还提供一种基于多视角的三维姿态估计数据集的构建装置,包括:
[0036]
采集模块,用于采用n个相机采集待检测区域的图片,得到n个待检测图片序列;其中,n为大于1的整数,所述n个相机中存在至少两个相机采集图片的视角不同;
[0037]
检测模块,用于基于预先设置的人体跟踪方法,从所述n个待检测图片序列中检测出的至少一个人体图像中,选取至少一个目标人体图像;
[0038]
第一获取模块,用于基于所述n个待检测图片序列,获取所述目标人体图像的二维姿态估计结果;
[0039]
第二获取模块,用于获取所述n个相机的参数信息;
[0040]
构建模块,用于基于所述二维姿态估计结果和所述n个相机的参数信息,构建所述目标人体图像的三维姿态估计数据集。
[0041]
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于多视角的三维姿态估计数据集的构建方法。
[0042]
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于多视角的三维姿态估计数据集的构建方法。
[0043]
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述基于多视角的三维姿态估计数据集的构建方法。
[0044]
本发明提供的基于多视角的三维姿态估计数据集的构建方法及装置,通过n个相机采集的多视角的待检测图片序列,以获取多视角的目标人体图像的二维姿态估计结果,进而基于多视角的二维姿态估计结果和相机的参数信息,获取目标人体图像的三维姿态估计数据集,解决了现有二维姿态估计数据集不适用于复杂场景的问题,提高了人体姿态估计的精确度。另外,相较于现有技术中,动作捕捉系统需要目标人体实时在待检测区域进行动作,并由动作捕捉相机实时采集目标人体的三维姿态估计数据,本发明实施例可以通过对相机采集的待检测图片序列进行处理,无需目标人体实时在待检测区域进行动作,也无需动作捕捉相机实时进行采集,有效提高了构建三维姿态估计数据集的灵活性和复用性。
附图说明
[0045]
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0046]
图1是本发明提供的基于多视角的三维姿态估计数据集的构建方法的流程示意图之一;
[0047]
图2是本发明提供的基于多视角的三维姿态估计数据集的构建方法中相机标定的示意图;
[0048]
图3是本发明提供的基于多视角的三维姿态估计数据集的构建方法的流程示意图
之二;
[0049]
图4是本发明提供的基于多视角的三维姿态估计数据集的构建方法的流程示意图之三;
[0050]
图5是本发明提供的基于多视角的三维姿态估计数据集的构建装置的结构示意图;
[0051]
图6是本发明提供的电子设备的结构示意图。
具体实施方式
[0052]
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0053]
下面结合附图描述本发明的基于多视角的三维姿态估计数据集的构建方法及装置。
[0054]
图1是本发明提供的基于多视角的三维姿态估计数据集的构建方法的流程示意图之一,如图1所示,方法包括步骤101至步骤105;其中:
[0055]
步骤101、采用n个相机采集待检测区域的图片,得到n个待检测图片序列;其中,n为大于1的整数,所述n个相机中存在至少两个相机采集图片的视角不同;
[0056]
步骤102、基于预先设置的人体跟踪方法,从所述n个待检测图片序列中检测出的至少一个人体图像中,选取至少一个目标人体图像;
[0057]
步骤103、基于所述n个待检测图片序列,获取所述目标人体图像的二维姿态估计结果;
[0058]
步骤104、获取所述n个相机的参数信息;
[0059]
步骤105、基于所述二维姿态估计结果和所述n个相机的参数信息,构建所述目标人体图像的三维姿态估计数据集。
[0060]
具体地,现有技术中,在一些例如体育、舞蹈等专业动作的复杂场景中,采用二维姿态估计数据集训练出的人体姿态估计网络和模型,进行人体姿态估计,可能会出现识别错误或者漏掉关键点的问题,人体姿态估计的精确度低。
[0061]
本发明实施例中,可以在待检测区域周围设置n个相机,相机例如为rgb工业相机,n个相机中存在至少两个相机的采集图片的视角不同,以由n个相机多视角地采集待检测区域的图片,得到n个待检测图片序列。
[0062]
需要说明的是,待检测图片序列可以包括至少两张图片,待检测图片序列中的图片可以按照采集的时间顺序进行排序。
[0063]
基于预先设置的人体跟踪方法,检测并跟踪n个待检测图片序列中的人体图像,并可以对每个人体图像设置一个对应的标识(id),再从检测出的人体图像中选择至少一个关注人员,作为目标人体图像。
[0064]
在确定目标人体图像后,可以基于n个待检测图片序列,获取目标人体图像的二维姿态估计结果,并获取n个相机的参数信息,再基于目标人体图像的二维姿态估计结果和n个相机的参数信息,获取目标人体图像的三维姿态估计数据集。
[0065]
可选地,目前已有大量二维姿态估计方法可直接用于定位图像和视频中人体关键点的二维坐标(即二维姿态估计结果),而本发明实施例需要基于二维姿态估计结果构建三维姿态估计数据集,故需要关注二维姿态估计方法的性能。同时,本发明实施例还关注需要定位的特定人员的动作。
[0066]
因此,自上而下的方法有助于实现这一目标。在本发明实施例中,可以选择利用区域多人姿态估计(regional multi-person pose estimation,rmpe)的alphapose方法获取二维姿态估计结果。
[0067]
具体地,alphapose方法由对称空间变换网络(symmetric spatial transformer network,sstn)、参数姿态非极大值抑制(parametric pose non-maximum-suppression,nms)和姿态引导建议生成器(pose-guided proposals generator,pgpg)组成。
[0068]
其中,sstn可以提高单人姿势估计器(single person pose estimation,sppe)的性能。参数姿态nms有助于消除冗余姿态。pgpg可以根据现有的姿势生成大量数据样本来扩充样本。通过这三个模块,可以得到更准确的目标检测和二维姿态估计结果。
[0069]
可选地,可以在采用n个相机采集待检测区域的图片,得到n个待检测图片序列的时候,利用动作捕捉系统获取人的三维姿态估计结果,作为真实值,并比较三维姿态估计数据集与真实值之间的差异,以证明本发明实施例提供的方法的可行性和可复用性。在差异值小于预设阈值的情况下,可以认为本发明实施例得到的三维姿态估计数据集是真实的。
[0070]
可选地,在分析运动数据时需要关注姿势序列。由于运动数据具有连续性的属性,在待检测图片序列中,相邻帧图片之间的姿态具有相关性。在这个过程中,本发明实施例可以对整个人体图像以及人体图像的各关键点的位置变化进行关注。
[0071]
在此基础上,本发明实施例可以利用目标跟踪模块提高人体检测和姿态估计的准确性,以及后期运动识别的性能。
[0072]
可选地,可以选择的跟踪方法是deep-person-reid[]。这种方法的关键模块是一个名为osnet(omni-scale network)的深度跨镜追踪(person re-identification,reid)卷积神经网络(convolutional neural networks,cnn)。通过全方位的特征学习和融合,它可以通过reid的方式进行人体图像跟踪。
[0073]
需要说明的是,现有技术中,基于单目图像或视频的三维姿态估计方法也是计算机视觉研究的一项重要方向,已有的代表性的方法大多数基于计算相邻帧的三维坐标或回归关键点的深度。然而,对于一些复杂的场景,这些方法存在一定局限性:
[0074]
1)遮挡,人体尺度的多样性会导致得到的三维姿态估计结果的误差较大;
[0075]
2)在某些视图下,不同的三维姿态可能具有相同的二位姿态投影结果,因此无法保证三维姿态估计结果的唯一性。
[0076]
本发明实施例提供的基于多视角的三维姿态估计数据集的构建方法,获取每个视角下的二维姿态估计结果后,可以通过将二维姿态估计结果与每个相机的参数相结合来完成三维人体骨骼重建,即构建三维姿态估计数据集,可以在一定程度上避免上述问题。
[0077]
本发明实施例提供的基于多视角的三维姿态估计数据集的构建方法中,通过n个相机采集的多视角的待检测图片序列,以获取多视角的目标人体图像的二维姿态估计结果,进而基于多视角的二维姿态估计结果和相机的参数信息,获取目标人体图像的三维姿态估计数据集,解决了现有二维姿态估计数据集不适用于复杂场景的问题,提高了人体姿
态估计的精确度。另外,相较于现有技术中,动作捕捉系统需要目标人体实时在待检测区域进行动作,并由动作捕捉相机实时采集目标人体的三维姿态估计数据,本发明实施例可以通过对相机采集的待检测图片序列进行处理,无需目标人体实时在待检测区域进行动作,也无需动作捕捉相机实时进行采集,有效提高了构建三维姿态估计数据集的灵活性和复用性。
[0078]
可选地,在所述基于所述二维姿态估计结果和所述n个相机的参数信息,构建所述目标人体图像的三维姿态估计数据集之后,可以采用所述三维姿态估计数据集训练人体姿态估计模型,以基于训练后的人体姿态估计模型进行人体姿态估计。
[0079]
具体地,可以采用本发明实施例构建的三维姿态估计数据集,训练人体姿态估计网络或模型,以在不同的环境中,根据不同的需求——例如在仿真系统中驱动虚拟人的运动、为人体姿态估计的训练和测试提供更多数据从而提高方法的鲁棒性等,研究人员可以自行需要获取姿态和运动信息。此外,在智能表演领域,这些信息还可以用来帮助训练和评估演员的专业动作。
[0080]
可选地,所述基于所述n个待检测图片序列,获取所述目标人体图像的二维姿态估计结果的实现方式可以包括:
[0081]
从所述n个待检测图片序列的图片中,获取所述目标人体图像的至少一个关键点对应的二维坐标的集合,作为所述目标人体图像的二维姿态估计结果;
[0082]
所述获取所述n个相机的参数信息的实现方式可以包括:
[0083]
获取所述n个相机的内参数矩阵、旋转矩阵和平移向量,作为所述n个相机的参数信息;
[0084]
所述基于所述二维姿态估计结果和所述n个相机的参数信息,构建所述目标人体图像的三维姿态估计数据集的实现方式可以包括:
[0085]
基于所述目标人体图像的至少一个关键点对应的二维坐标的集合、所述内参数矩阵、所述旋转矩阵和所述平移向量,获取所述目标人体图像的至少一个关键点对应的三维坐标的集合,作为所述目标人体图像的三维姿态估计数据集。
[0086]
可选地,所述基于所述目标人体图像的至少一个关键点对应的二维坐标的集合、所述内参数矩阵、所述旋转矩阵和所述平移向量,获取所述目标人体图像的至少一个关键点对应的三维坐标的集合,作为所述目标人体图像的三维姿态估计数据集的实现方式可以包括:
[0087]
基于所述内参数矩阵ki、所述旋转矩阵ri和所述平移向量ti,采用公式(1)计算第i个相机的投影矩阵pi:
[0088]
pi=ki[riti]=[p
i(1)
p
i(2)
p
i(3)
]
t
(1)
[0089]
基于pi和所述目标人体图像的至少一个关键点q对应的二维坐标的集合(x1,y1),(x2,y2),...,(xn,yn),采用公式(2)计算所述目标人体图像的至少一个关键点对应的三维坐标的集合x=[q
x
,qy,qz,1]
t

[0090]
ax=0(2)
[0091]
其中,矩阵a采用公式(3)计算得到:
[0092][0093]
将所述三维坐标的集合x=[q
x
,qy,qz,1]
t
,作为所述目标人体图像的三维姿态估计数据集。
[0094]
可选地,在相机采集待检测区域的图片之前,可以先对所有相机进行标定,并获取相机的内、外参数,相机内参数可以是与相机自身特性相关的参数,比如相机的焦距、像素大小等;相机外参数可以是在世界坐标系中的参数,比如相机的位置、旋转方向等。
[0095]
可选地,由于基于二维姿态结果重建三维关键点时需要使用每个rgb相机的参数,因此首先需要对场景中的相机进行标定。实验中,空间大小为12m
×
12m
×
3m,设备布局如图2所示,图2是本发明提供的基于多视角的三维姿态估计数据集的构建方法中相机标定的示意图。
[0096]
可以利用经典的张正友标定法完成对相机的标定。通过采集包含棋盘的图像并计算每个相机的参数。其中,图像分辨率可以为1936
×
1216。
[0097]
可选地,可以对每个相机,计算内参数矩阵和畸变系数d=[k1,k2,k3,p1,p2]。之后对所有的相机进行联合标定,得到它们的旋转矩阵r3
×
3,以及平移向量t=[t
x
,ty,tz]。获得上述数据后,可以使用它们完成图像校正,并通过每个视角下的二维姿态估计结果进行三维关键点的重建,即构建三维姿态估计数据集。
[0098]
可选地,由于误差的存在,本发明实施例可以使用最小二乘法来寻找方程ax=0的最优解,即计算a
t
a的特征向量。在得到解向量之后,可以通过进行标准化,再将坐标(x

[1],x

[2],x

[3])作为关键点q的三维坐标值,并基于所有关键点的三维坐标值得到三维姿态估计数据集。
[0099]
可选地,所述基于所述n个待检测图片序列,获取所述目标人体图像的二维姿态估计结果的实现方式可以包括:
[0100]
从所述n个待检测图片序列中,获取检测出所述目标人体图像的目标图片序列;
[0101]
在所述目标图片序列的各图片中,提取用于表征所述目标人体图像的至少一个关键点的候选位置信息;
[0102]
基于预先设置的滤波方法,从所述候选位置信息中滤除识别错误的关键点对应的候选位置信息,得到第一位置信息,作为所述目标人体图像的二维姿态估计结果。
[0103]
具体地,由于存在误检或漏检的情况,姿态序列中的二维关键点可以出现抖动和偏差。为了使三维姿态估计数据集更加准确,并符合运动学约束,本发明实施例可以通过平滑滤波对二维和/或三维数据进行优化,即可以对二维姿态估计结果和/或三维姿态估计数
据集进行优化,并对结果进行比较。
[0104]
在实际场景中,一些简单的动作有一定的变化规律,而大多数专业的动作是非线性、非周期性的。根据这些属性,本发明实施例可以选择savitzky-golay滤波器进行滤波,具体可以通过线性最小二乘法将相邻数据点的连续子集与低次多项式拟合。可选地,可以选择该滤波器的窗口长度和多项式次数,来满足不同的平滑滤波的需求,同时保持数据的趋势。
[0105]
在本发明实施例中,通过预先设置的滤波方法,滤除识别错误的关键点对应的候选位置信息,滤波方法提高了曲线的平滑度,使得经过运算后的位姿序列更加流畅,符合人体运动学,以减小识别错误的关键点对构建三维姿态估计数据集的精确度的影响,进而可以提高人体姿态估计的精确度。
[0106]
可选地,所述基于预先设置的滤波方法,从所述候选位置信息中滤除识别错误的关键点对应的候选位置信息,得到第一位置信息,作为所述目标人体图像的二维姿态估计结果的实现方式可以包括:
[0107]
基于所述滤波方法,从所述候选位置信息中滤除识别错误的关键点对应的候选位置信息,得到第一位置信息;
[0108]
基于预先设置的姿态连续性计算方法,在所述第一位置信息中增加缺失的关键点对应的位置信息,得到第二位置信息,作为所述目标人体图像的二维姿态估计结果。
[0109]
具体地,本发明实施例利用滤波的方式进行数据优化,可以在一定程度上纠正误识别的关键点,还可以根据姿态连续性计算缺失的关键点或姿态信息。
[0110]
在本发明实施例中,在滤除掉识别错误的关键点对应的候选位置信息后,可以基于姿态连续性计算方法,补充缺失的关键点对应的位置信息,以减小识别错误或漏掉的关键点对构建三维姿态估计数据集的精确度的影响,进而可以提高人体姿态估计的精确度。
[0111]
下面举例说明本发明实施例提供的基于多视角的三维姿态估计数据集的构建方法。
[0112]
图3是本发明提供的基于多视角的三维姿态估计数据集的构建方法的流程示意图之二,如图3所示,基于多视角的三维姿态估计数据集的构建方法包括步骤301至步骤305;其中,
[0113]
步骤301、对所有相机进行标定并获取它们的内外参数;
[0114]
步骤302、从动作捕捉系统中获取人的真实值,同时获取每个相机的摄像头下的待检测图片序列;
[0115]
步骤303、基于人体跟踪方法,从待检测图片序列中获取二维姿态估计结果;
[0116]
步骤304、结合二维姿态估计结果和相机参数,完成三维姿态估计数据集的构建;
[0117]
步骤305、通过过滤的方式优化关键点数据,并比较结果与真实值之间的差异。
[0118]
图4是本发明提供的基于多视角的三维姿态估计数据集的构建方法的流程示意图之三,如图4所示,先输入相机采集的图像序列或视频,结合目标检测与目标跟踪,检测并跟踪目标人体图像,进一步地,可以基于目标人体图像检测二维人体骨骼,作为二维姿态估计结果,并获取各视角下的相机参数,再基于关键点检测方法实现人员匹配(多人场景),最终实现三维骨骼重建,即构建了三维姿态估计数据集。
[0119]
本发明实施例提供的方法,利用来自多个rgb工业相机的图像,获得二维姿势估计
结果并重建三维人体骨骼,具有较强的灵活性以及复用性,与大多数现有的数据集的构建方法相比,该方法很大程度上简化了整体的流程,同时保持了三维姿势估计数据集的准确性。另外,在不同的环境中,可以根据不同的需求——例如在仿真系统中驱动虚拟人的运动、为人体姿态估计的训练和测试提供更多数据从而提高方法的鲁棒性。
[0120]
此外,本发明实施例还通过过滤、选择视图等数据优化方法提高了结果的准确性。
[0121]
下面对本发明提供的基于多视角的三维姿态估计数据集的构建装置进行描述,下文描述的基于多视角的三维姿态估计数据集的构建装置与上文描述的基于多视角的三维姿态估计数据集的构建方法可相互对应参照。
[0122]
图5是本发明提供的基于多视角的三维姿态估计数据集的构建装置的结构示意图,如图5所示,基于多视角的三维姿态估计数据集的构建装置500包括:
[0123]
采集模块501,用于采用n个相机采集待检测区域的图片,得到n个待检测图片序列;其中,n为大于1的整数,所述n个相机中存在至少两个相机采集图片的视角不同;
[0124]
检测模块502,用于基于预先设置的人体跟踪方法,从所述n个待检测图片序列中检测出的至少一个人体图像中,选取至少一个目标人体图像;
[0125]
第一获取模块503,用于基于所述n个待检测图片序列,获取所述目标人体图像的二维姿态估计结果;
[0126]
第二获取模块504,用于获取所述n个相机的参数信息;
[0127]
构建模块505,用于基于所述二维姿态估计结果和所述n个相机的参数信息,构建所述目标人体图像的三维姿态估计数据集。
[0128]
本发明实施例提供的基于多视角的三维姿态估计数据集的构建装置,先由采集模块通过n个相机采集的多视角的待检测图片序列,再由检测模块基于预先设置的人体跟踪方法,从所述n个待检测图片序列中检测出的至少一个人体图像中,选取至少一个目标人体图像,以由第一获取模块获取多视角的目标人体图像的二维姿态估计结果,由第二获取模块获取n个相机的参数信息,进而由构建模块基于多视角的二维姿态估计结果和相机的参数信息,获取目标人体图像的三维姿态估计数据集,解决了现有二维姿态估计数据集不适用于复杂场景的问题,提高了人体姿态估计的精确度。
[0129]
另外,相较于现有技术中,动作捕捉系统需要目标人体实时在待检测区域进行动作,并由动作捕捉相机实时采集目标人体的三维姿态估计数据,本发明实施例可以通过对相机采集的待检测图片序列进行处理,无需目标人体实时在待检测区域进行动作,也无需动作捕捉相机实时进行采集,有效提高了构建三维姿态估计数据集的灵活性和复用性。
[0130]
可选地,第一获取模块503具体用于:从所述n个待检测图片序列的图片中,获取所述目标人体图像的至少一个关键点对应的二维坐标的集合,作为所述目标人体图像的二维姿态估计结果;
[0131]
第二获取模块504具体用于:获取所述n个相机的内参数矩阵、旋转矩阵和平移向量,作为所述n个相机的参数信息;
[0132]
构建模块505具体用于:基于所述目标人体图像的至少一个关键点对应的二维坐标的集合、所述内参数矩阵、所述旋转矩阵和所述平移向量,获取所述目标人体图像的至少一个关键点对应的三维坐标的集合,作为所述目标人体图像的三维姿态估计数据集。
[0133]
可选地,构建模块505还具体用于:
[0134]
基于所述内参数矩阵ki、所述旋转矩阵ri和所述平移向量ti,采用公式(1)计算第i个相机的投影矩阵pi:
[0135]
pi=ki[riti]=[p
i(1)
p
i(2)
p
i(3)
]
t
(1)
[0136]
基于pi和所述目标人体图像的至少一个关键点q对应的二维坐标的集合(x1,y1),(x2,y2),...,(xn,yn),采用公式(2)计算所述目标人体图像的至少一个关键点对应的三维坐标的集合x=[q
x
,qy,qz,1]
t

[0137]
ax=0(2)
[0138]
其中,矩阵a采用公式(3)计算得到:
[0139][0140]
将所述三维坐标的集合x=[q
x
,qy,qz,1]
t
,作为所述目标人体图像的三维姿态估计数据集。
[0141]
可选地,第一获取模块503还具体用于:
[0142]
从所述n个待检测图片序列中,获取检测出所述目标人体图像的目标图片序列;
[0143]
在所述目标图片序列的各图片中,提取用于表征所述目标人体图像的至少一个关键点的候选位置信息;
[0144]
基于预先设置的滤波方法,从所述候选位置信息中滤除识别错误的关键点对应的候选位置信息,得到第一位置信息,作为所述目标人体图像的二维姿态估计结果。
[0145]
可选地,第一获取模块503还具体用于:
[0146]
基于所述滤波方法,从所述候选位置信息中滤除识别错误的关键点对应的候选位置信息,得到第一位置信息;
[0147]
基于预先设置的姿态连续性计算方法,在所述第一位置信息中增加缺失的关键点对应的位置信息,得到第二位置信息,作为所述目标人体图像的二维姿态估计结果。
[0148]
可选地,基于多视角的三维姿态估计数据集的构建装置500还可以包括:
[0149]
训练模块,用于采用所述三维姿态估计数据集训练人体姿态估计模型,以基于训练后的人体姿态估计模型进行人体姿态估计。
[0150]
图6是本发明提供的电子设备的结构示意图,如图6所示,该电子设备600可以包括:处理器(processor)610、通信接口(communicationsinterface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行基于多视角的三维姿态估计数据集的构建方法,该方法包括:
[0151]
采用n个相机采集待检测区域的图片,得到n个待检测图片序列;其中,n为大于1的整数,所述n个相机中存在至少两个相机采集图片的视角不同;
[0152]
基于预先设置的人体跟踪方法,从所述n个待检测图片序列中检测出的至少一个
人体图像中,选取至少一个目标人体图像;
[0153]
基于所述n个待检测图片序列,获取所述目标人体图像的二维姿态估计结果;
[0154]
获取所述n个相机的参数信息;
[0155]
基于所述二维姿态估计结果和所述n个相机的参数信息,构建所述目标人体图像的三维姿态估计数据集。
[0156]
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0157]
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的基于多视角的三维姿态估计数据集的构建方法,该方法包括:
[0158]
采用n个相机采集待检测区域的图片,得到n个待检测图片序列;其中,n为大于1的整数,所述n个相机中存在至少两个相机采集图片的视角不同;
[0159]
基于预先设置的人体跟踪方法,从所述n个待检测图片序列中检测出的至少一个人体图像中,选取至少一个目标人体图像;
[0160]
基于所述n个待检测图片序列,获取所述目标人体图像的二维姿态估计结果;
[0161]
获取所述n个相机的参数信息;
[0162]
基于所述二维姿态估计结果和所述n个相机的参数信息,构建所述目标人体图像的三维姿态估计数据集。
[0163]
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的基于多视角的三维姿态估计数据集的构建方法,该方法包括:
[0164]
采用n个相机采集待检测区域的图片,得到n个待检测图片序列;其中,n为大于1的整数,所述n个相机中存在至少两个相机采集图片的视角不同;
[0165]
基于预先设置的人体跟踪方法,从所述n个待检测图片序列中检测出的至少一个人体图像中,选取至少一个目标人体图像;
[0166]
基于所述n个待检测图片序列,获取所述目标人体图像的二维姿态估计结果;
[0167]
获取所述n个相机的参数信息;
[0168]
基于所述二维姿态估计结果和所述n个相机的参数信息,构建所述目标人体图像的三维姿态估计数据集。
[0169]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其
中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0170]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0171]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1