本申请涉及计算机视觉,特别涉及一种基于rgbd(red、green、blue-depth map)多模态信息的三维人体位姿估计方法及装置。
背景技术:
1、随着深度学习技术和并行运算硬件的共同发展,大型数据集和通用的深度卷积网络算法在计算机视觉领域中的应用逐渐广泛。而在计算机视觉领域中,三维任务通常都有着运算量大、方法复杂、解空间难稳定的特点。
2、相关技术中,基于深度学习的三维人体位姿估计路线包含:通过深度估计方法实现缺失信息参数化、通过多相机采集多视角数据聚合多视角信息或使用深度信息来进行人体位姿估计。
3、然而,相关技术中,参数化缺失信息的模型训练需大量契合数据集,且生成结果可靠性不足,而采集多视角数据过程的场地限制严格,计算量消耗大,应用受限,使用深度信息估计则降低了结果的准确性,无法实现高效精准的位姿估计,亟待解决。
技术实现思路
1、本申请提供一种基于rgbd多模态信息的三维人体位姿估计方法及装置,以解决相关技术中,参数化缺失信息的模型训练需大量契合数据集,且生成结果可靠性不足,而采集多视角数据过程的场地限制严格,计算量消耗大,应用受限,使用深度信息估计则降低了结果的准确性,无法实现高效精准的位姿估计等问题。
2、本申请第一方面实施例提供一种基于rgbd多模态信息的三维人体位姿估计方法,包括以下步骤:对rgbd多模态信息进行处理,得到二维人体关节点坐标和三维人体点云;基于不同体素深度卷积网络需求,融合所述二维人体关节点坐标和所述三维人体点云,得到融合体素网格;将所述融合体素网格输入对应的体素深度卷积网络,解算所述体素深度卷积网络,得到特征体素网格的输出,并基于所述特征体素网格的输出估计三维关键点,得到三维人体位姿估计结果。
3、另外,在本申请的一个实施例中,在基于所述特征体素网格的输出估计所述三维关键点,得到所述三维人体位姿估计结果之前,还包括:使用n x[p,p,p]维度的生成特征体素网格与特征体素网格的输出进行l2-loss训练。
4、其中,在本申请的一个实施例中,所述对rgbd的多模态信息进行处理,得到二维人体关节点坐标和三维人体点云,包括:基于深度卷积网络的二维人体姿态估计方式,在rgb(red、green、blue)图中提取二维特征热图或者二维关键点在图像坐标系下的xy坐标;使用二维人体姿态估计中的四点的区域投射到深度图上,裁剪出人像所在区域,以将所述深度图转化为三维点云,得到所述二维人体关节点坐标和所述三维人体点云。
5、另外,在本申请的一个实施例中,所述体素深度卷积网络包括全局高精度网络和局部快速网络。
6、其中,在本申请的一个实施例中,所述基于所述特征体素网格的输出估计三维关键点,包括:分别对每个特征体素网格查找最大值;将所述最大值在所述特征体素网格下的三维坐标通过仿射变换转化为世界坐标系,得到任一关节点的真实世界坐标,直至得到了所有的所需关节点的真实世界坐标。
7、本申请第二方面实施例提供一种基于rgbd多模态信息的三维人体位姿估计装置,包括:获取模块,用于对rgbd多模态信息进行处理,得到二维人体关节点坐标和三维人体点云;融合模块,用于基于不同体素深度卷积网络需求,融合所述二维人体关节点坐标和所述三维人体点云,得到融合体素网格;估计模块,用于将所述融合体素网格输入对应的体素深度卷积网络,解算所述体素深度卷积网络,得到特征体素网格的输出,并基于所述特征体素网格的输出估计三维关键点,得到三维人体位姿估计结果。
8、另外,在本申请的一个实施例中,所述装置还包括:训练模块,用于在基于所述特征体素网格的输出估计所述三维关键点,得到所述三维人体位姿估计结果之前,使用n x[p,p,p]维度的生成特征体素网格与特征体素网格的输出进行l2-loss训练。
9、其中,在本申请的一个实施例中,所述获取模块包括:提取单元,用于基于深度卷积网络的二维人体姿态估计方式,在rgb图中提取二维特征热图或者二维关键点在图像坐标系下的xy坐标;获取单元,用于使用二维人体姿态估计中的四点的区域投射到深度图上,裁剪出人像所在区域,以将所述深度图转化为三维点云,得到所述二维人体关节点坐标和所述三维人体点云。
10、另外,在本申请的一个实施例中,所述体素深度卷积网络包括全局高精度网络和局部快速网络。
11、其中,在本申请的一个实施例中,所述估计模块包括:查找单元,用于分别对每个特征体素网格查找最大值;转化单元,用于将所述最大值在所述特征体素网格下的三维坐标通过仿射变换转化为世界坐标系,得到任一关节点的真实世界坐标,直至得到了所有的所需关节点的真实世界坐标。
12、本申请第三方面实施例提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如上述实施例所述的基于rgbd多模态信息的三维人体位姿估计方法。
13、本申请第四方面实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,该程序被处理器执行时实现如上的基于rgbd多模态信息的三维人体位姿估计方法。
14、本申请实施例可以对rgbd多模态信息进行处理,得到二维人体关节点坐标和三维人体点云,基于不同体素深度卷积网络需求,融合二维人体关节点坐标和三维人体点云,得到融合体素网格,并输入对应体素深度卷积网络,解算体素深度卷积网络,得到特征体素网格的输出,进而基于特征体素网格的输出估计三维关键点,得到三维人体位姿估计结果,扩充了现有硬件设施的功能利用率,扩大了三维人体位姿估计的应用范围,提高了估计效率,使所得结果更加可靠准确。由此,解决了相关技术中,参数化缺失信息的模型训练需大量契合数据集,且生成结果可靠性不足,而采集多视角数据过程的场地限制严格,计算量消耗大,应用受限,使用深度信息估计则降低了结果的准确性,无法实现高效精准的位姿估计等问题。
15、本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
1.一种基于rgbd多模态信息的三维人体位姿估计方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,在基于所述特征体素网格的输出估计所述三维关键点,得到所述三维人体位姿估计结果之前,还包括:
3.根据权利要求1所述的方法,其特征在于,所述对rgbd的多模态信息进行处理,得到二维人体关节点坐标和三维人体点云,包括:
4.根据权利要求1所述的方法,其特征在于,所述体素深度卷积网络包括全局高精度网络和局部快速网络。
5.根据权利要求1所述的方法,其特征在于,所述基于所述特征体素网格的输出估计三维关键点,包括:
6.一种基于rgbd多模态信息的三维人体位姿估计装置,其特征在于,包括以下步骤:
7.根据权利要求6所述的装置,其特征在于,还包括:
8.根据权利要求6所述的装置,其特征在于,所述体素深度卷积网络包括全局高精度网络和局部快速网络。
9.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如权利要求1-5任一项所述的基于rgbd多模态信息的三维人体位姿估计方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以用于实现如权利要求1-5任一项所述的基于rgbd多模态信息的三维人体位姿估计方法。