手势关键点定位或姿态估计的方法、电子装置和存储介质与流程

文档序号:29251010发布日期:2022-03-16 02:43阅读:137来源:国知局
手势关键点定位或姿态估计的方法、电子装置和存储介质与流程

1.本技术涉及虚拟现实、增强现实技术领域,特别是涉及一种手势关键点定位或姿态估计的方法、电子装置和存储介质。


背景技术:

2.随着虚拟现实(virtual reality,简称vr))、增强现实(augmented reality),简称ar)技术的发展,以及ar/vr眼镜的应用场景的不断扩充,手势交互功能显得愈发重要。
3.由于很多场景的光照、纹理、用户的习惯都是不可控的,并且深度学习对于未见过的场景和数据的预测也是不可控的,因此,在相关技术中,手势交互功能的泛化性能较差,这里的是泛化性能指的是,在尽可能多的场景,尽可能多的用户都能正常使用该手势交互功能而没有出现明显的效果下降。
4.针对相关技术中,手势交互功能的泛化性能较差的问题,尚未提出有效的解决方案。


技术实现要素:

5.本技术实施例提供了一种手势关键点定位或姿态估计的方法、电子装置和存储介质,以至少解决相关技术中手势交互功能的泛化性能较差的问题。
6.第一方面,本技术实施例提供了一种手势关键点定位或姿态估计的方法,所述方法包括:
7.输入包含手势的图像至手势关键点定位或姿态估计模型,得到模型输出的所述图像上的手部各关键点的位置或姿态结果;
8.其中,所述手势关键点定位或姿态估计模型的构建过程包括:
9.获取基础数据集,根据所述基础数据集,训练得到基础模型,其中,所述基础数据集包括:包含手部的图像,以及手部各关键点的位置或姿态标签;
10.获取不同场景下的手势的图像数据,在图像上确定手部各关键点的位置或姿态标签,以及确定手部的像素块所在区域,得到前景数据集;并确定背景数据集,其中,所述背景数据集包括背景图像;
11.叠加所述前景数据集与所述背景数据集中的数据,并和谐化所述数据,得到目标数据集;基于所述基础数据集和所述目标数据集fine-tune所述基础模型,得到所述手势关键点定位或姿态估计模型。
12.第二方面,本技术实施例还提供了一种手势关键点定位或姿态估计的方法,所述方法包括:
13.输入包含手势的图像至手势关键点定位或姿态估计模型,得到模型输出的所述图像上的手部各关键点的位置或姿态结果;
14.其中,所述手势关键点定位或姿态估计模型的构建过程包括:
15.获取基础数据集,根据所述基础数据集,训练得到基础模型,其中,所述基础数据
集包括:包含手部的图像,以及手部各关键点的位置或姿态标签;
16.获取不同场景下的手势的图像数据,在图像上确定手部各关键点的位置或姿态标签,以及确定手部的像素块所在区域,得到前景数据集;并确定背景数据集,其中,所述背景数据集包括背景图像;
17.叠加所述前景数据集与所述背景数据集中的数据,并和谐化所述数据,得到目标数据集;基于所述基础数据集、所述目标数据集和难例数据集,fine-tune所述基础模型,得到所述手势关键点定位或姿态估计模型,其中,在模型训练过程中,根据误差大于预设阈值的训练数据,确定所述难例数据集。
18.在其中一些实施例中,所述难例数据集的维护过程包括:
19.获取误差大于预设阈值的训练数据中的手部,对于获取到的每个手部,从所述背景数据集中随机抽取对应背景图像,叠加所述手部与所述背景图像生成难例图像,以构成所述难例数据集;
20.从所述难例数据集中取出数据时,将取出的数据从所述难例数据集中删除。
21.在其中一些实施例中,基于所述基础数据集、所述目标数据集和难例数据集,fine-tune所述基础模型的过程包括:
22.按照第一预设比例,汇总所述基础数据集、所述目标数据集和所述难例数据集,得到训练数据集;
23.基于所述训练数据集fine-tune所述基础模型。
24.在其中一些实施例中,所述前景数据集的确定过程包括:
25.输入所述图像数据至所述基础模型,所述基础模型输出图像中手部各关键点的位置或姿态结果;可视化所述结果;
26.根据所述结果,确定精度符合预设要求的图像,并在所述图像上确定手部的像素块所在区域,得到所述前景数据集。
27.在其中一些实施例中,获取不同场景下的手势的图像数据的过程包括:固定好摄像头的位置与深度摄像头的位置,并进行内外参标定,得到相机组;通过所述相机组采集不同场景下的手势的图像数据,所述图像数据包括时间戳对齐的深度图和图像;
28.所述在所述图像上确定手部的像素块的过程包括:对齐所述深度图和所述图像,将所述手部各关键点的位置或姿态结果投影到像素,得到对齐后所述深度图上的各关键点的2d信息,根据所述2d信息和区域生长法,提取所述图像上的手部的像素块,
29.根据所述图像上的手部的像素块,确定所述图像上的手部的mask区域;将所述mask区域内缩a个像素、外扩b个像素,构造出待处理区域,对所述待处理区域执行精细化抠图操作,得到所述前景数据集。
30.在其中一些实施例中,所述叠加所述前景数据集与所述背景数据集中的数据的过程包括:
31.对所述前景数据集中的所述区域内的手部的像素块执行变换增强操作,以更新所述前景数据集;
32.在所述前景数据集中随机抽取前景图像,对于抽取出的每张前景图像,从所述背景数据集中随机抽取对应背景图像,
33.叠加所述前景图像与所述背景图像。
34.在其中一些实施例中,所述确定背景数据集的过程包括:
35.获取所述基础数据集;获取开源背景数据集,并去除所述开源背景数据集中包含手部的背景图像,以更新所述开源背景数据集;获取拍摄到的场景背景数据集;
36.统一图像尺寸,并汇总所述基础数据集、所述开源背景数据集和所述场景背景数据集中的数据,得到所述背景数据集,
37.其中,在从所述背景数据集中随机抽取对应背景图像的情况下,按照所述基础数据集、所述开源背景数据集和所述场景背景数据集的第二预设比例,从所述背景数据集中随机抽取对应背景图像。
38.第三方面,本技术实施例提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述手势关键点定位或姿态估计的方法。
39.第四方面,本技术实施例提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述手势关键点定位或姿态估计的方法。
40.相比于相关技术,本技术实施例提供的手势关键点定位或姿态估计的方法,通过输入包含手势的图像至手势关键点定位或姿态估计模型,得到模型输出的图像上的手部各关键点的位置或姿态结果;其中,该手势关键点定位或姿态估计模型的构建过程包括:获取基础数据集,根据基础数据集,训练得到基础模型;获取不同场景下的手势的图像数据,在图像上确定手部各关键点的位置或姿态标签,以及确定手部的像素块所在区域,得到前景数据集;并确定背景数据集;叠加前景数据集与背景数据集中的数据,并和谐化数据,得到目标数据集;基于基础数据集和目标数据集fine-tune基础模型,得到手势关键点定位或姿态估计模型,大幅度提升了数据对模型的训练效果,解决了相关技术中手势交互功能的泛化性能较差的问题,提升了手势交互功能的泛化性能。
附图说明
41.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
42.图1是根据本技术实施例的手势关键点定位或姿态估计的方法的应用环境示意图;
43.图2是根据本技术第一实施例的手势关键点定位或姿态估计模型的构建方法的流程图;
44.图3是根据本技术第二实施例的手势关键点定位或姿态估计模型的构建方法的流程图;
45.图4是根据本技术第三实施例的确定前景数据集的流程图;
46.图5是根据本技术第三实施例的2d关键点可视化后的示意图;
47.图6是根据本技术第三实施例的3d关键点可视化后的示意图;
48.图7是根据本技术第三实施例的姿态可视化后的示意图;
49.图8是根据本技术第四实施例的确定前景数据集的流程图;
50.图9是根据本技术第四实施例的图像的手部mask的示意图;
51.图10是根据本技术第四实施例的在图像上构造出待处理区域的示意图;
52.图11是根据本技术第五实施例的确定背景数据集的流程图;
53.图12是根据本技术第六实施例的叠加前景数据集与背景数据集中的数据的流程图;
54.图13是根据本技术第六实施例的手部mask的示意图;
55.图14是根据本技术第六实施例的像素块增强的示意图;
56.图15是根据本技术第六实施例的2d关键点可视化后的示意图;
57.图16是根据本技术实施例的电子设备的内部结构示意图。
具体实施方式
58.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。基于本技术提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
59.显而易见地,下面描述中的附图仅仅是本技术的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本技术应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本技术公开的内容相关的本领域的普通技术人员而言,在本技术揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本技术公开的内容不充分。
60.在本技术中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本技术所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
61.除非另作定义,本技术所涉及的技术术语或者科学术语应当为本技术所属技术领域内具有一般技能的人士所理解的通常意义。本技术所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本技术所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本技术所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本技术所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“a和/或b”可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本技术所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
62.本技术提供的手势关键点定位或姿态估计的方法,可以应用于如图1所示的应用环境中,图1是根据本技术实施例的手势关键点定位或姿态估计的方法的应用环境示意图,如图1所示,在进行手势关键点定位或姿态估计时,服务器101输入包含手势的图像至手势
关键点定位或姿态估计模型,得到模型输出的该图像上的手部各关键点的位置或姿态结果;其中,服务器101可以用独立的服务器或者是多个服务器组成的服务器集群来实现。需要说明的是,本技术中涉及的手部包括手和手臂。
63.本实施例提供了一种手势关键点定位或姿态估计的方法,该方法包括:输入包含手势的图像至手势关键点定位或姿态估计模型,得到模型输出的该图像上的手部各关键点的位置或姿态结果,其中,图2是根据本技术第一实施例的手势关键点定位或姿态估计模型的构建方法的流程图,如图2所示,该流程包括如下步骤:
64.步骤s201,获取基础数据集,根据基础数据集,训练得到基础模型,其中,基础数据集包括:包含手部的图像,以及手部各关键点的位置或姿态标签,可选的,可以通过拍照来采集不同场景下的包含手势的图像,并给图像标注手势关键点位置或位姿信息,来得到该基础数据集,该基础数据集的数据量可以在50万条左右;本发明对该基础模型的具体训练方法以及该基础模型的标签输出形式不作限定,例如,该标签输出形式可以是2d或者3d关键点,也可以是各关节的姿态(包括旋转和平移)等等;
65.步骤s202,获取不同场景下的手势的图像数据,在图像上确定手部各关键点的位置或姿态标签,以及确定手部的像素块所在区域,得到前景数据集;并确定背景数据集,其中,背景数据集包括背景图像;
66.例如,获取不同场景下的手势的图像数据的过程可以是:固定好目标场景所需的摄像头(例如,彩色摄像头、灰度摄像头、红外摄像头等等)的位置和深度摄像头的位置,并进行内外参标定,利用固定好的相机组,采集表现较好的场景下的各种手势,对于基础数据集中精度不够高的数据可以重新采集替代,采集到的数据包含时间戳对齐的深度图和目标图像;再例如,如果图像数据是彩色图像,可以直接用绿幕采集数据,以获得不同场景下的手势的图像数据;
67.步骤s203,叠加前景数据集与背景数据集中的数据,并和谐化数据,得到目标数据集;基于基础数据集和目标数据集fine-tune基础模型,得到手势关键点定位或姿态估计模型;其中,对和谐化的方法不做限制,可以采用bargainnet、dovenet等等,这里不展开阐述。
68.通过步骤s201至s203,相对于现有技术中手势交互功能的泛化性能较差的问题,本实施例中使用的手势关键点定位或姿态估计模型在构建过程中,其目标数据集是在训练阶段通过随机地选取前景数据集与该背景数据集中的数据,并将其整合而动态生成的,单次训练后即从内存删除,从而可以减小模型构建过程对系统存储空间的占用,并且本实施例将合成的图像进行和谐化,可以减小手部和背景之间的差异,大幅度提升图像的真实度,避免神经网络去学习实际上并不存在的特征,消除了并不存在的特征对神经网络的训练效果的影响,从而可以引导神经网络去学习通用性较强的特征,使得本实施例中的手势关键点定位或姿态估计模型面对不同场景下被不同用户使用时的表现更加稳定,可以对不同场景中的手势都做到精确识别,解决了相关技术中手势交互功能的泛化性能较差的问题。
69.本实施例还提供了一种手势关键点定位或姿态估计模型的构建方法,图3是根据本技术第二实施例的手势关键点定位或姿态估计模型的构建方法的流程图,如图3所示,该流程包括如下步骤:
70.步骤s301,获取基础数据集,根据基础数据集,训练得到基础模型,其中,基础数据集包括:包含手部的图像,以及手部各关键点的位置或姿态标签;
71.步骤s302,获取不同场景下的手势的图像数据,在图像上确定手部各关键点的位置或姿态标签,以及确定手部的像素块所在区域,得到前景数据集;并确定背景数据集,其中,背景数据集包括背景图像;
72.步骤s303,叠加前景数据集与背景数据集中的数据,并和谐化数据,得到目标数据集;基于基础数据集、目标数据集和难例数据集,fine-tune基础模型,得到手势关键点定位或姿态估计模型,其中,在模型训练过程中,根据误差大于预设阈值的训练数据,确定该难例数据集。
73.通过步骤s301至s303,相对于现有技术中手势交互功能的泛化性能较差的问题,本实施例不仅可以达到如第一实施例所述的有益效果,并且本实施例通过选取模型训练过程中误差较大的数据作为多次训练的数据,变相增加了难例数据的训练权重,因而还能加强神经网络对难例的学习,从而可以引导神经网络去学习复杂度较高的特征,进一步提升了神经网络的训练效果,使得本实施例中的手势关键点定位或姿态估计模型面对不同场景下被不同用户使用时的表现更加稳定,可以对不同场景中的手势都做到精确识别,解决了相关技术中手势交互功能的泛化性能较差的问题。
74.在其中一些实施例中,图4是根据本技术第三实施例的确定前景数据集的流程图,如图4所示,该流程包括如下步骤:
75.步骤s401,输入图像数据至基础模型,基础模型输出图像中手部各关键点的位置或姿态结果;可视化该位置或姿态;例如,利用基础模型,对采集到的图像数据进行标注:将每帧图像输入该基础模型,得到与图像相对应的手部的各关键点的位置或姿态信息;将得到的信息进行可视化以便筛选;
76.步骤s402,根据该可视化后的位置或姿态,确定精度符合预设要求的图像,并在图像上确定手部的像素块所在区域,得到前景数据集;
77.其中,确定精度符合预设要求的图像的过程可以是:图5是根据本技术第三实施例的2d关键点可视化后的示意图,图6是根据本技术第三实施例的3d关键点可视化后的示意图,图7是根据本技术第三实施例的姿态可视化后的示意图,根据如图5至图7所示的可视化后的图像,人工筛选出精度满足训练要求的数据;对于精度不够高的数据,可以直接抛弃,也可以挑选部分进行人工标注;通过这种方式得到了一组组精度尚可的图像、关键点或姿态,以及与图像处于同样时刻的深度图;
78.其中,在图像上确定手部的像素块所在区域的过程可以是:将深度图和图像进行像素对齐,将关键点或姿态投影到像素,得到对齐后的深度图上的2d关键点信息,根据该2d关键点信息,利用区域生长法提取出手和手臂的像素块,继而确定出手部的mask信息;如果场景是第一视角下的手势识别,也可以直接按深度分割出在一定距离内的所有像素,并按照内外参投影到对应图像,得到该图像的mask信息;需要说明的是,如果图像数据是彩色图像,可以不使用深度摄像头获取粗糙的mask信息,而是利用一些相对成熟的绿幕抠图算法提取mask信息。
79.考虑到在使用深度摄像头的情况下,受限于深度摄像头的精度,手部的边缘会存在一定的误差,得到的mask精度还需要进一步提高,因此,在其中一些实施例中,图8是根据本技术第四实施例的确定前景数据集的流程图,如图8所示,在图像上确定手部的像素块之后,该流程包括如下步骤:
80.步骤s801,根据该图像上的手部的该像素块,确定图像上的手部的mask区域;
81.步骤s802,将mask区域内缩a个像素、外扩b个像素,构造出待处理区域,对待处理区域执行精细化抠图操作,得到前景数据集;从而通过精细抠图,确保了获取到的手部的mask精确度;
82.例如,图9是根据本技术第四实施例的图像的手部mask的示意图,如图9所示,在图像上确定手部的像素块所在区域,得到前景数据集后,前景数据集中的是较为粗糙的mask,图10是根据本技术第四实施例的在图像上构造出待处理区域的示意图,如图10所示,将得到的mask内缩a个像素,内部像素(即白色区域)被认为是置信度很高的手部,外扩b个像素,轮廓外部(即黑色区域)被认为是稳定的背景;中间的区域(即灰色区域)被认为可能是手也可能是背景,为待处理区域,是需要精细matting的部分;
83.具体的,执行精细化抠图操作时,可以使用grabcut抠图(matting)算法,该算法仅示意性说明,非限制性说明,在其他实施例中,也可以使用knn matting等其它用于matting的算法;初始化该matting算法,完成精细的抠图任务,至此,获得了前景数据集,该前景数据集包括一组组数据,每组数据包括:图像、图像的手部mask以及该图像上手部各关键点的位置或姿态。
84.在其中一些实施例中,图11是根据本技术第五实施例的确定背景数据集的流程图,如图11所示,该流程包括如下步骤:
85.步骤s1101,获取基础数据集;获取开源背景数据集,并去除开源背景数据集中包含较大的手部的背景图像,以更新该开源背景数据集;获取拍摄到的场景背景数据集;
86.其中,基础数据集与训练基础模型所使用的基础数据集相一致,该基础数据集中不仅包含了一些背景信息,也包含了一些拥有标签的手部的信息,在一部分背景数据集中保留手部数据,是为后续数据合成时得到双手交叉和双手交叠的图像做准备,从而进一步提升手势交互功能的泛化性能;开源背景数据集是现有的一些包含各种场景或背景的数据集,例如,该开源背景数据集可以是lusn/coco/google-landmarks等等,需要剔除开源背景数据集中的包含较大人手的图像才能作为背景来使用;具体的,可以在获取到的开源图像上运行一遍现有的手势算法,如果该图像存在手部,则剔除该图像,如果该图像不存在手部,则保留该图像;或者,也可以由人工来筛选,确定要保留的图像;场景背景数据集是用实际使用的相机在实际可能的场景下采集到的背景图像,注意场景中不需要有手;需要说明的是,本实施例为较优实施例,在其他实施例中,也可以获取基础数据集、开源背景数据集、场景背景数据集中的一个或者两个数据集;
87.步骤s1102,统一图像尺寸,并汇总基础数据集、开源背景数据集和场景背景数据集中的数据,得到背景数据集;
88.例如,根据链路里的网格,将基础数据集、开源背景数据集、场景背景数据集中的图像处理成与网格相一致的统一尺寸,具体的,该尺寸可以是640*480的分辨率,统一图像尺寸后,汇总基础数据集、开源背景数据集和场景背景数据集中的数据,得到背景数据集,需要说明的是,在从背景数据集中随机抽取背景图像的情况下,可以按照基础数据集、开源背景数据集和场景背景数据集的第二预设比例,从该背景数据集中随机抽取背景图像;其中,该第二预设比例的选取不做限制,可根据实际场景来决定较为合适的比例,例如,在本实施例中,基础数据集、开源背景数据集和场景背景数据集的第一预设比例可以为0.2:
0.5:0.3。
89.在其中一些实施例中,图12是根据本技术第六实施例的叠加前景数据集与背景数据集中的数据的流程图,如图12所示,该流程包括如下步骤:
90.步骤s1201,对前景数据集中的区域内的手部的像素块执行变换增强操作,以更新前景数据集;
91.可选的,图13是根据本技术第六实施例的手部mask的示意图,图14是根据本技术第六实施例的像素块增强的示意图;如图13和图14所示,可以将图像在mask内部的像素块取出,根据实际任务需求进行一些数据增强,例如,该数据增强可以是平移、旋转、缩放、拉伸、亮度调整、对比度调整等等,需要注意的是,图15是根据本技术第六实施例的2d关键点可视化后的示意图,如图15所示,手部各关键点的位置或姿态也要随着手部的增强方法一起变换;
92.步骤s1202,在前景数据集中随机抽取前景图像,对于抽取出的每张前景图像,从背景数据集中随机抽取对应背景图像;
93.步骤s1203,叠加前景图像与背景图像,例如,可以用覆盖的方式将手部的前景图像覆盖到背景图像上;
94.需要注意的是,如果在确定背景图像时考虑了双手交叉或者重叠的情况,把基础数据集中的数据也加入到了背景数据集中,那么,由于基础数据集内包括了手部对应标签,因此,在此情形下,目标数据集中的手部各关键点的位置或姿态标签需要包括:作为背景的基础数据集里的手部标签,以及叠加前景图像后新叠加进来的手部标签,二者取并集作为该目标数据集中的手部标签;通过合成双手交叉和双手交叠的图像数据,使得使用该模型的手势关键点定位或姿态估计的方法能够适用双手情况下的的手势,从而进一步提升了手势交互功能的泛化性能。
95.在其中一些实施例中,在得到训练数据以后,在输入训练数据集至基础模型之前,还会对训练数据集中的图像数据执行变换增强操作,以更新训练数据集,具体的,可以根据实际任务,选择一些图像增强的方法,例如,该方法可以是随机裁剪、仿射变换、旋转、翻转、对比度变换、亮度变换、拉伸等方法,并对应地修改最终的标签;
96.由于数据合成都是在训练阶段完成的,合成时通过增强操作,理论上能得到的数据是无限的,因此,相比于相关技术中离线生成数据的方式,本实施例不但泛化性能可以得到进一步的提升,同时对于存储空间的依赖更小,例如,存储1万张背景图像,1万张前景图像,在不考虑增强的情况下就能得到1亿张图像,而对这1亿张图像进行随机裁剪、仿射变换、旋转、翻转、对比度变换、亮度变换、拉伸等增强操作,能得到海量图像数据,由此可见,本实施例对系统的存储压力更小;此外,由于海量图像数据互不相同,因而在训练阶段无需用同样的数据一遍遍训练,这也进一步保证了手势交互功能的泛化性能。
97.在其中一些实施例中,基于基础数据集、目标数据集和难例数据集,fine-tune基础模型的过程包括:按照第一预设比例,汇总基础数据集、目标数据集,以及难例数据集,得到训练数据集,基于训练数据集fine-tune基础模型,其中,这三种数据的比例可以根据实际情况进行调节,一种合理的比例是4:1:1,换言之,如果一个batch有192张图像,那么基础数据集里抽取128张,目标数据集中抽取32张,难例数据集中抽取32张,如果难例数据集中没数据,可以用目标数据集中的数据代替;
98.其中,难例数据集的构建方法如下:在模型训练过程中,计算训练数据的误差,一旦出现误差大于预设阈值(该阈值可以按照实际需求,进行调整)的情况,则获取该训练数据中的手部数据,对于获取到的每个手部数据,从背景数据集中随机抽取对应背景数据,叠加手部数据与背景数据,并进行和谐化,得到难例数据,将难例数据放入难例数据集的数据序列的尾端;每次取数据时则从序列头部开始取,并在取出数据后删除难例数据集中的该数据;通过这种方法变相增加了难例数据的训练权重,可以加强难例序列的训练,同时每次都会变换新的背景,保证了模型的泛化性能。
99.另外,结合上述实施例中的手势关键点定位或姿态估计的方法,本技术实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种手势关键点定位或姿态估计的方法。
100.在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种手势关键点定位或姿态估计的方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
101.在一个实施例中,图16是根据本技术实施例的电子设备的内部结构示意图,如图16所示,提供了一种电子设备,该电子设备可以是服务器,其内部结构图可以如图16所示。该电子设备包括通过内部总线连接的处理器、网络接口、内存储器和非易失性存储器,其中,该非易失性存储器存储有操作系统、计算机程序和数据库。处理器用于提供计算和控制能力,网络接口用于与外部的终端通过网络连接通信,内存储器用于为操作系统和计算机程序的运行提供环境,计算机程序被处理器执行时以实现一种手势关键点定位或姿态估计的方法,数据库用于存储数据。
102.本领域技术人员可以理解,图16中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
103.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
104.本领域的技术人员应该明白,以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
105.以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1