一种关键点标注方法、装置、设备以及存储介质与流程

文档序号：35915544发布日期：2023-10-30 07:07阅读：41来源：国知局

本技术涉及人工智能技术，尤其涉及一种关键点标注方法、装置、设备以及存储介质。

背景技术：

1、随着技术的发展，增强现实(augmented reality，ar)和虚拟现实(virtualreality，vr)等技术的应用逐渐普及，人们可以通过手指的动作与虚拟场景中的3d形象进行互动，这些功能的实现都基于对手指动作的灵敏捕捉，以准确地获取手指各个关节姿态信息。

2、为了捕获手指各个关节姿态信息，通常采用深度学习网络来训练算法模型，深度学习网络需要大量已标注关键点的手部数据集作为网络训练样本。相关技术中，手势2d关键点数据通常采用人工标注的方法，但人工标注成本很高，且对于部分关键点不可见或被遮挡的情况，人工标注会带来较大误差，3d关键点人工很难标注，可通过标注双目图像完成3d关键点标注，但会带来更多的人工成本，同时对于不可见关键点或遮挡区域会带来更大的误差，而自动标注的方案需要特定的场景或需要佩戴特定传感器，会污染图像，造成训练数据不可用。

3、因此急需要一种可以降低人工成本同时提高关键点标注的标注准确度的标注方案。

技术实现思路

1、本技术实施例提供了一种关键点标注方法、装置、设备以及存储介质，用于在降低人工成本的同时，提高关键点标注的标注准确度。

2、有鉴于此，本技术一方面提供一种关键点标注方法，包括：获取待处理图像集合，该待处理图像集合中的各个图像为目标对象在同一姿势但不同视角下拍摄得到的图像；从该待处理图像集合中确定第一图像集合，并获取该第一图像集合的第一二维关键点集合，其中该第一二维关键点集合包括该第一图像集合中的每个图像对应的一组关键点；根据该第一图像集合对应的该第一二维关键点集合创建体素空间，并获取该第一二维关键点集合中的各个二维关键点的体素信息；根据相机内参和相机外参将该体素信息映射生成不同视角下的多组像素坐标集合，该相机内参和该相机外参为采集该第一图像集合中各个图像的相机的相机参数；根据该多组像素坐标集合中同一关键点的特征值得到特征值集合；将该特征值集合输入三维卷积模型得到该目标对象的三维关键点坐标。

3、本技术另一方面提供一种关键点标注装置，包括：获取模块，用于获取待处理图像集合，该待处理图像集合中的各个图像为目标对象在同一姿势但不同视角下拍摄得到的图像；

4、处理模块，用于从该待处理图像集合中确定第一图像集合，并获取该第一图像集合的第一二维关键点集合，其中该第一二维关键点集合包括该第一图像集合中的每个图像对应的一组关键点；根据该第一图像集合对应的该第一二维关键点集合创建体素空间，并获取该第一二维关键点集合中的各个二维关键点的体素信息；根据相机内参和相机外参将该体素信息映射生成不同视角下的多组像素坐标集合，该相机内参和该相机外参为采集该第一图像集合中各个图像的相机的相机参数；根据该多组像素坐标集合中同一关键点的特征值得到特征值集合；将该特征值集合输入三维卷积模型得到该目标对象的三维关键点坐标。

5、在一种可能的设计中，在本技术实施例的另一方面的另一种实现方式中，该处理模块，具体用于获取该待处理图像集合中各个图像对应的视角统计次数，该视角统计次数用于指示在关键点标注模型的训练过程中视角对应的图像被选中的次数，该关键点标注模型包括二维模型以及三维卷积模型；

6、根据该视角统计次数和选择规则对该待处理图像集合中选择n个待处理图像生成该第一图像集合，其中，该n为整数；

7、将该第一图像集合输入该二维模型得到该第一二维关键点集合。

8、在一种可能的设计中，在本技术实施例的另一方面的另一种实现方式中，该处理模块，具体用于将该待处理图像集合输入二维模型得到第二二维关键点集合，该二维模型包含于关键点标注模型，该关键点标注模型还包括三维卷积模型，该第二二维关键点集合包括该待处理图像集合中每个图像对应的一组二维关键点；

9、获取该待处理图像集合中各个图像对应的视角统计次数，该视角统计次数用于指示在该关键点标注模型的训练过程中视角对应的图像被选中的次数；

10、根据该视角统计次数和选择规则从该第二二维关键点集合中选择n组二维关键点对应的图像生成该第一图像集合，其中，该n为整数。

11、在一种可能的设计中，在本技术实施例的另一方面的另一种实现方式中，该处理模块，具体用于将该第一图像集合输入hrnet18进行多尺寸的下采样得到多尺寸的中间特征图集合，该hrnet18作为该二维模型；

12、将该中间特征图通过该hrnet18进行特征图融合得到目标特征图，并根据该目标特征图得到该第一二维关键点集合。

13、在一种可能的设计中，在本技术实施例的另一方面的另一种实现方式中，该处理模块，具体用于根据该第一二维关键点集合计算该体素空间的大小和该体素空间的中心；

14、根据该体素空间的大小和该体素空间的中心创建该体素空间。

15、在一种可能的设计中，在本技术实施例的另一方面的另一种实现方式中，该处理模块，具体用于获取该第一二维关键点集合中每一组二维关键点中的中心二维关键点，以及每一组二维关键点在像素坐标系下目标方框的第一坐标和第二坐标，其中，该目标方框为包围该目标对象的边界框，该第一坐标与该第二坐标为该目标方框的对角线坐标，该中心二维关键点为像素坐标系下的二维关键点；

16、将该第一坐标根据该相机内参转换至相机坐标系的第三坐标，将该第二坐标根据该相机内参转换至相机坐标系的第四坐标；

17、根据该第三坐标和该第四坐标计算该目标方框在相机坐标系下的对角线长度集合；

18、根据该中心二维关键点计算得到世界坐标系下的第一目标点坐标值，该第一目标点坐标值作为该体素空间的中心；

19、将该第一目标点坐标值根据该相机外参转换至相机坐标系下的第二目标点坐标值集合，并根据该第二目标点坐标集合得到深度值集合，该深度值集合中的深度值用于指示该目标对象与相机之间的距离；

20、根据该深度值集合和该对角线长度集合计算得到该体素空间的大小。

21、在一种可能的设计中，在本技术实施例的另一方面的另一种实现方式中，该处理模块，具体用于将该深度值集合中的深度值与该对角线长度信中的对角线长度按照相同视角的原则建立一一对应关系；

22、将同一视角下的深度值与对角线长度求乘积得到长度值集合；

23、从该长度值集合中选取最大长度值作为该体素空间的大小。

24、在一种可能的设计中，在本技术实施例的另一方面的另一种实现方式中，该处理模块，具体用于根据该中心二维关键点利用直接线性变换算法计算得到该第一目标点坐标值。

25、在一种可能的设计中，在本技术实施例的另一方面的另一种实现方式中，该处理模块，具体用于将该特征值输入该三维卷积模型进行下采样以及上采样之后输出中间特征值；

26、将该中间特征值与体素坐标相乘得到该目标对象的三维关键点坐标，其中，该体素坐标为该体素空间的坐标值。

27、在一种可能的设计中，在本技术实施例的另一方面的另一种实现方式中，该处理模块，具体用于获取该多组像素坐标集合中每个相同关键点的多个特征值；

28、将该多个特征值比过归一化处理或者求和处理得到每个相同关键点的特征值；

29、根据该每个相同关键点的特征值生成该特征值集合。

30、在一种可能的设计中，在本技术实施例的另一方面的另一种实现方式中，该获取模块，还用于获取训练样本和初始关键点标注模型，该训练样本包括训练图像和该训练图像对应的标注结果，该初始关键点标注模型包括初始二维模型和初始三维卷积模型，该训练图像为训练对象在不同视角下的图像；

31、该处理模块，还用于将该训练样本输入初始二维模型得到第一预测二维关键点集合；

32、将该第一预测二维关键点集合与该标注结果计算第一损失值和曼哈顿距离；

33、根据该曼哈顿距离从该训练图像中选择第二图像集合，并获取该第二图像集合的第二预测二维关键点集合；

34、根据该第二预测二维关键点集合创建训练体素空间，并获取该第二预测二维关键点集合中的各个预测二维关键点的训练体素信息；

35、根据该相机内参和该相机外参将该训练体素信息映射生成不同视角下的多组训练像素坐标集合；

36、根据该多组训练像素坐标集合中同一关键点的特征值得到训练特征值集合；

37、将该训练特征值集合输入初始三维卷积模型得到预测三维关键点坐标；

38、根据该预测三维关键点坐标与该标注结果计算第二损失值；

39、根据该第一损失值和该第二损失值训练该初始二维模型和该初始三维卷积模型得到该关键点标注模型。

40、在一种可能的设计中，在本技术实施例的另一方面的另一种实现方式中，该处理模块，具体用于根据该曼哈顿距离和从小到大的排序规则对该训练图像进行排序，选择前n个训练图像生成该第二图像集合；

41、或者，

42、该处理模块，具体用于根据该曼哈顿距离和从大到小的排序规则对该训练图像进行排序，选择后n个训练图像生成该第二图像集合。

43、在一种可能的设计中，在本技术实施例的另一方面的另一种实现方式中，

44、本技术另一方面提供一种计算机设备，包括：存储器、处理器以及总线系统；

45、其中，存储器用于存储程序；

46、处理器用于执行存储器中的程序，处理器用于根据程序代码中的指令执行上述各方面的方法；

47、总线系统用于连接存储器以及处理器，以使存储器以及处理器进行通信。

48、本技术的另一方面提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面的方法。

49、本技术的另一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方面所提供的方法。

50、从以上技术方案可以看出，本技术实施例具有以下优点：采用多视角的图像获取二维关键点信息，并根据该二维关键点信息创建三维体素空间并获取关键点的体素信息；然后利用该多视角图像的二维关键点信息对体素信息进行插值特征处理得到特征值，并根据该特征值得到该目标对象的三维关键点坐标。在本方案中，利用该多视角图像的二维关键点信息对体素信息进行插值特征处理，可以丰富三维体素空间下各个关键点的特征表达，从而提高关键点标注的标注准确度。同时整个过程为自动化标注，从而降低了人工成本。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵景李修
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。