基于RGBD多模态信息的三维人体位姿估计方法及装置

文档序号：34393166发布日期：2023-06-08 11:00阅读：153来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本申请涉及计算机视觉，特别涉及一种基于rgbd(red、green、blue-depth map)多模态信息的三维人体位姿估计方法及装置。

背景技术：

1、随着深度学习技术和并行运算硬件的共同发展，大型数据集和通用的深度卷积网络算法在计算机视觉领域中的应用逐渐广泛。而在计算机视觉领域中，三维任务通常都有着运算量大、方法复杂、解空间难稳定的特点。

2、相关技术中，基于深度学习的三维人体位姿估计路线包含：通过深度估计方法实现缺失信息参数化、通过多相机采集多视角数据聚合多视角信息或使用深度信息来进行人体位姿估计。

3、然而，相关技术中，参数化缺失信息的模型训练需大量契合数据集，且生成结果可靠性不足，而采集多视角数据过程的场地限制严格，计算量消耗大，应用受限，使用深度信息估计则降低了结果的准确性，无法实现高效精准的位姿估计，亟待解决。

技术实现思路

1、本申请提供一种基于rgbd多模态信息的三维人体位姿估计方法及装置，以解决相关技术中，参数化缺失信息的模型训练需大量契合数据集，且生成结果可靠性不足，而采集多视角数据过程的场地限制严格，计算量消耗大，应用受限，使用深度信息估计则降低了结果的准确性，无法实现高效精准的位姿估计等问题。

2、本申请第一方面实施例提供一种基于rgbd多模态信息的三维人体位姿估计方法，包括以下步骤：对rgbd多模态信息进行处理，得到二维人体关节点坐标和三维人体点云；基于不同体素深度卷积网络需求，融合所述二维人体关节点坐标和所述三维人体点云，得到融合体素网格；将所述融合体素网格输入对应的体素深度卷积网络，解算所述体素深度卷积网络，得到特征体素网格的输出，并基于所述特征体素网格的输出估计三维关键点，得到三维人体位姿估计结果。

3、另外，在本申请的一个实施例中，在基于所述特征体素网格的输出估计所述三维关键点，得到所述三维人体位姿估计结果之前，还包括：使用n x[p,p,p]维度的生成特征体素网格与特征体素网格的输出进行l2-loss训练。

4、其中，在本申请的一个实施例中，所述对rgbd的多模态信息进行处理，得到二维人体关节点坐标和三维人体点云，包括：基于深度卷积网络的二维人体姿态估计方式，在rgb(red、green、blue)图中提取二维特征热图或者二维关键点在图像坐标系下的xy坐标；使用二维人体姿态估计中的四点的区域投射到深度图上，裁剪出人像所在区域，以将所述深度图转化为三维点云，得到所述二维人体关节点坐标和所述三维人体点云。

5、另外，在本申请的一个实施例中，所述体素深度卷积网络包括全局高精度网络和局部快速网络。

6、其中，在本申请的一个实施例中，所述基于所述特征体素网格的输出估计三维关键点，包括：分别对每个特征体素网格查找最大值；将所述最大值在所述特征体素网格下的三维坐标通过仿射变换转化为世界坐标系，得到任一关节点的真实世界坐标，直至得到了所有的所需关节点的真实世界坐标。

7、本申请第二方面实施例提供一种基于rgbd多模态信息的三维人体位姿估计装置，包括：获取模块，用于对rgbd多模态信息进行处理，得到二维人体关节点坐标和三维人体点云；融合模块，用于基于不同体素深度卷积网络需求，融合所述二维人体关节点坐标和所述三维人体点云，得到融合体素网格；估计模块，用于将所述融合体素网格输入对应的体素深度卷积网络，解算所述体素深度卷积网络，得到特征体素网格的输出，并基于所述特征体素网格的输出估计三维关键点，得到三维人体位姿估计结果。

8、另外，在本申请的一个实施例中，所述装置还包括：训练模块，用于在基于所述特征体素网格的输出估计所述三维关键点，得到所述三维人体位姿估计结果之前，使用n x[p,p,p]维度的生成特征体素网格与特征体素网格的输出进行l2-loss训练。

9、其中，在本申请的一个实施例中，所述获取模块包括：提取单元，用于基于深度卷积网络的二维人体姿态估计方式，在rgb图中提取二维特征热图或者二维关键点在图像坐标系下的xy坐标；获取单元，用于使用二维人体姿态估计中的四点的区域投射到深度图上，裁剪出人像所在区域，以将所述深度图转化为三维点云，得到所述二维人体关节点坐标和所述三维人体点云。

10、另外，在本申请的一个实施例中，所述体素深度卷积网络包括全局高精度网络和局部快速网络。

11、其中，在本申请的一个实施例中，所述估计模块包括：查找单元，用于分别对每个特征体素网格查找最大值；转化单元，用于将所述最大值在所述特征体素网格下的三维坐标通过仿射变换转化为世界坐标系，得到任一关节点的真实世界坐标，直至得到了所有的所需关节点的真实世界坐标。

12、本申请第三方面实施例提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如上述实施例所述的基于rgbd多模态信息的三维人体位姿估计方法。

13、本申请第四方面实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储计算机程序，该程序被处理器执行时实现如上的基于rgbd多模态信息的三维人体位姿估计方法。

14、本申请实施例可以对rgbd多模态信息进行处理，得到二维人体关节点坐标和三维人体点云，基于不同体素深度卷积网络需求，融合二维人体关节点坐标和三维人体点云，得到融合体素网格，并输入对应体素深度卷积网络，解算体素深度卷积网络，得到特征体素网格的输出，进而基于特征体素网格的输出估计三维关键点，得到三维人体位姿估计结果，扩充了现有硬件设施的功能利用率，扩大了三维人体位姿估计的应用范围，提高了估计效率，使所得结果更加可靠准确。由此，解决了相关技术中，参数化缺失信息的模型训练需大量契合数据集，且生成结果可靠性不足，而采集多视角数据过程的场地限制严格，计算量消耗大，应用受限，使用深度信息估计则降低了结果的准确性，无法实现高效精准的位姿估计等问题。

15、本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

技术特征：

1.一种基于rgbd多模态信息的三维人体位姿估计方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，在基于所述特征体素网格的输出估计所述三维关键点，得到所述三维人体位姿估计结果之前，还包括：

3.根据权利要求1所述的方法，其特征在于，所述对rgbd的多模态信息进行处理，得到二维人体关节点坐标和三维人体点云，包括：

4.根据权利要求1所述的方法，其特征在于，所述体素深度卷积网络包括全局高精度网络和局部快速网络。

5.根据权利要求1所述的方法，其特征在于，所述基于所述特征体素网格的输出估计三维关键点，包括：

6.一种基于rgbd多模态信息的三维人体位姿估计装置，其特征在于，包括以下步骤：

7.根据权利要求6所述的装置，其特征在于，还包括：

8.根据权利要求6所述的装置，其特征在于，所述体素深度卷积网络包括全局高精度网络和局部快速网络。

9.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如权利要求1-5任一项所述的基于rgbd多模态信息的三维人体位姿估计方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行，以用于实现如权利要求1-5任一项所述的基于rgbd多模态信息的三维人体位姿估计方法。

技术总结
本申请涉及计算机视觉技术领域，特别涉及一种基于RGBD多模态信息的三维人体位姿估计方法及装置，其中，方法包括：对RGBD多模态信息进行处理，得到二维人体关节点坐标和三维人体点云，基于不同体素深度卷积网络需求得到融合体素网格，将融合体素网格输入对应体素深度卷积网络，解算体素深度卷积网络，得到特征体素网格的输出，并基于特征体素网格的输出估计三维关键点，得到三维人体位姿估计结果。本申请实施例可以基于RGB信息与深度信息的嵌合，通过使用两种三维深度卷积网络完成三维人体位姿估计，扩充了现有硬件设施的功能利用率，扩大了三维人体位姿估计的应用范围，提高了估计效率，使所得结果更加可靠准确。

技术研发人员：季向阳,余杭,连晓聪
受保护的技术使用者：清华大学
技术研发日：
技术公布日：2024/1/13

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：季向阳余杭连晓聪
技术所有人：清华大学
我是此专利的发明人

上一篇：一种安全告警分析方法与流程
上一篇：基于CSA模块及深度学习模型的高清CT图像重建方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。