一种基于虚拟现实的手势识别方法和系统

文档序号：28864769发布日期：2022-02-12 03:05阅读：115来源：国知局

1.本发明涉及人工智能和虚拟现实设备技术领域，具体涉及一种基于虚拟现实的手势识别方法和系统。

背景技术：

2.随着科技的发展，虚拟现实、人机交互、图像识别等等相关技术也在不断的提高，各行业对于精准的手势识别的需求越来越多。主要用于智能家居控制、车载操作控制、pc及移动端操控、工业设计等各个方面，其商业价值也逐日增长。
3.现有技术进行手势识别的方法也多种多样，主要可大致分为三种技术：基于光技术的图像识别技术、基于惯性传感器的动作捕捉技术以及基于机械结构的手部形态仿真技术，三种方法各不相同，各有优劣。且为了提高手势识别的准确率，在上述方法的基础上，现有技术通常通过提高所获取手部信息的准确率以提高后续手势识别的准确率，如cn106648103a一种vr头戴设备的手势跟踪方法和vr头戴设备，通过融合手部三维特征信息，提高了识别的准确性。
4.现有技术的问题在于，不同设备使用者的手势行为习惯不同，而现有技术未考虑设备使用者自身的手势行为习惯，仅依靠训练集的样本难以将手势识别网络泛化至具体的设备使用者，导致手势识别准确率难以提高。且在手势识别过程中，vr设备不能提前渲染手势识别结果获得的指令信息所应用的场景，导致用户的使用体验变差。

技术实现要素：

5.为了解决上述技术问题，本发明的目的在于提供一种基于虚拟现实的手势识别方法和系统，所采用的技术方案具体如下：
6.第一方面，本发明一个实施例提供了一种基于虚拟现实的手势识别方法：
7.利用历史手势轨迹信息预测得到预测时刻的预测手势轨迹信息，同时获得预测时刻对应的真实手势轨迹信息；其中，历史手势轨迹信息与真实手势轨迹信息的获取方式：根据初始遗忘系数对初始切分帧数的手部关键点热力图叠加得到对应的手势轨迹信息；
8.根据预测手势轨迹信息与真实手势轨迹信息的动作类别的比较结果得到置信度评价指标；以预测时段内所有预测时刻的置信度评价指标的均值为综合评价指标，进行系数修正；根据预测时段内预测时刻的置信度评价指标时序上值的变化趋势获得初始切分帧数和初始遗忘系数的修正概率；根据修正概率选择初始切分帧数或初始遗忘系数作为待修正系数，由修正方向的概率对待修正系数进行对应修正方向的调整，并根据修正的有效性更新修正方向的概率，所述修正方向包括增大方向、减小方向；获取待修正系数调整后的综合评价指标；
9.持续进行所述系数修正直至综合性评价指标趋于稳定时停止修正，获得最优的切分帧数和遗忘系数，并将最优的切分帧数和遗忘系数用于后续的手势识别。
10.优选地，置信度评价指标具体为：
[0011][0012]
其中，βn为置信度评价指标，n表示预测时段内第n个预测时刻；c表示手势动作分类结果分类类别的个数；表示第n个预测时刻的真实手势轨迹信息动作类别属于第c个分类类别的置信度；表示第n个预测时刻的预测手势轨迹信息动作类别属于第c个分类类别的置信度；需要说明的是，手势轨迹信息的动作类别分类结果为一个置信度序列，表征该手势轨迹信息属于对应分类类别的概率。
[0013]
优选地，初始切分帧数的修正概率具体为：对置信度评价指标进行标号，该标号表示置信度评价指标时间上的顺序；将标号后的置信度评价指标进行线性拟合，拟合直线的纵坐标为置信度评价指标，横坐标为置信度评价指标的标号，获得拟合后直线斜率；给定初始切分帧数修正概率，利用直线斜率获得初始切分帧数修正概率：
[0014][0015]
其中，gm′
为初始切分帧数修正概率，k为拟合直线斜率，gm为给定初始切分帧数修正概率。
[0016]
优选地，初始遗忘系数的修正概率具体为：
[0017]gα
＝1-gm′
[0018]
其中g
α
表示初始遗忘系数修正概率；gm′
表示初始切分帧数修正概率。
[0019]
优选地，修正的有效性根据有效性评价指标判断，所述有效性评价指标为：
[0020][0021]
其中为有效性评价指标；β为切分帧数和遗忘系数未修正时的综合评价指标，β
′
为修正后的综合评价指标；k为切分帧数和遗忘系数未修正时的拟合直线斜率，k
′
为修正后的拟合直线斜率。
[0022]
优选地，根据修正的有效性更新修正方向的概率包括：将有效性评价指标与实际进行调整的修正方向的概率的相乘，将相乘结果与未进行调整的修正方向的概率归一化，得到更新后修正方向的概率。
[0023]
优选地，最优的切分帧数和遗忘系数获取包括：构建系数预测网络，输入连续固定帧的手部动作深度图像，输出最优的切分帧数和遗忘系数。
[0024]
第二方面，本发明另一个实施例提供了一种基于虚拟现实的手势识别系统。系统包括：手势轨迹信息获取模块，用于利用历史手势轨迹信息预测得到预测时刻的预测手势轨迹信息，同时获得预测时刻对应的真实手势轨迹信息；其中，历史手势轨迹信息与真实手势轨迹信息的获取方式：根据初始遗忘系数对初始切分帧数的手部关键点热力图叠加得到对应的手势轨迹信息；
[0025]
系数修正模块，用于根据预测手势轨迹信息与真实手势轨迹信息的动作类别的比较结果得到置信度评价指标；以预测时段内所有预测时刻的置信度评价指标的均值为综合评价指标，进行系数修正；根据预测时段内预测时刻的置信度评价指标时序上值的上升或下降趋势获得初始切分帧数和初始遗忘系数的修正概率；根据修正概率选择初始切分帧数
或初始遗忘系数作为待修正系数，由修正方向的概率对待修正系数进行对应修正方向的调整，并根据修正的有效性更新修正方向的概率，所述修正方向包括增大方向、减小方向；获取待修正系数调整后的综合评价指标；持续进行所述系数修正直至综合性评价指标趋于稳定时停止修正；
[0026]
手势识别模块，用于在修正停止时，获得最优的切分帧数和遗忘系数，并将最优的切分帧数和遗忘系数用于后续的手势识别。
[0027]
优选地，系数修正模块还用于获取置信度评价指标，具体为：
[0028][0029]
其中，βn为置信度评价指标，n表示预测时段内第n个预测时刻；c表示手势动作分类结果分类类别的个数；表示第n个预测时刻的真实手势轨迹信息动作类别属于第c个分类类别的置信度；表示第n个预测时刻的预测手势轨迹信息动作类别属于第c个分类类别的置信度；需要说明的是，手势轨迹信息的动作类别分类结果为一个置信度序列，表征该手势轨迹信息属于对应分类类别的概率。
[0030]
优选地，系数修正模块还用于修正的有效性根据有效性评价指标判断，所述有效性评价指标为：
[0031][0032]
其中为有效性评价指标；β为切分帧数和遗忘系数未修正时的综合评价指标，β
′
为修正后的综合评价指标；k为切分帧数和遗忘系数未修正时的拟合直线斜率，k
′
为修正后的拟合直线斜率。
[0033]
本发明实施例至少具有如下有益效果：通过tcn网络结合历史手势的轨迹信息进行预测得到预测手势轨迹信息；根据真实手势分类类别和预测手势分类类别的差异程度对初始切分帧数和初始遗忘系数进行优化，使其更加符合当前使用者的手势习惯，获得更加接近真实手势轨迹信息的预测手势轨迹信息；且进一步的提高了手势识别的准确性和手势识别网络的泛化能力，减少了因使用者的自身因素而导致的手势动作的误判。
附图说明
[0034]
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。
[0035]
图1为本发明的方法流程图。
具体实施方式
[0036]
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种基于虚拟现实的手势识别方法和系统，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。
[0037]
除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
[0038]
下面结合附图具体的说明本发明所提供的一种基于虚拟现实的手势识别方法和系统的具体方案。
[0039]
实施例1
[0040]
本发明的主要应用场景为：虚拟现实场景，部署有rgb-d相机可以对使用者的手部信息进行采集，包括rgb图像和深度信息，默认相机位姿固定，不考虑视差、遮挡等因素的影响；根据采集的手部动作信息对手部动作进行识别并分类，从而获得手势动作类别代表的指令信息；根据指令信息实现相应的功能。
[0041]
请参阅图1，其示出了本发明一个实施例提供的一种方法流程图，该方法包括以下步骤：
[0042]
首先，利用历史手势轨迹信息预测得到预测时刻的预测手势轨迹信息，同时获得预测时刻对应的真实手势轨迹信息；其中，历史手势轨迹信息与真实手势轨迹信息的获取方式：根据初始遗忘系数对初始切分帧数的手部关键点热力图叠加得到对应的手势轨迹信息。
[0043]
通过rgb-d相机采集用户手部rgb-d图像，将用户手部rgb-d图像通过手部关键点检测网络进行处理，输出用户手部关键点热力图。所述手部关键点检测网络，架构采用编码器-解码器架构，网络输入为用户手部rgb-d图像，网络输出为多通道用户手部关键点热力图，热力图通道数与手部关键点类别数一致，输入及输出的图像尺寸一致；训练集采用多张针对手部不同姿势所采集的rgb-d图像，标签为以手部关键点中心通过高斯模糊生成的热斑，标签类别为常用的21个骨节点类别，损失函数采用均方误差损失函数。通过rgb-d相机所采集到的用户手部rgb-d图像获取手部关键点信息，便于后续手势识别网络进行手势识别。
[0044]
构建手势识别网络：其手势识别网络架构由tcn网络和手势分类网络耦合形成。其中tcn网络具体为：本实施例tcn网络中采用因果卷积的方式，其滑窗长度建议设置为奇数，优选地，本实施例中滑窗长度设置为3；所述因果卷积为通过对历史信息进行处理，预测后续信息。tcn网络的输入即手势识别网络的输入为多个连续时序上的手势轨迹信息，单个手势轨迹信息为输入序列的单个元素，由连续m帧手部关键点热力图分通道进行热力叠加获取。所述热力叠加方式具体为：对于单通道连续多帧手部关键点热力图，采用遗忘系数进行逐点累加，具体公式为x＇＝(1-α)x+αx，其中α为初始遗忘系数，用于控制历史累加的热力值保留的比例，相应地，(1-α)为当前热力值保留的比例，x为当前热力值，即当前热力图各像素位置的像素值，x为历史累加的热力值，即当前帧之前所有帧进行热力叠加的结果图中各像素位置的像素值。
[0045]
采集连续多帧rgb-d图像，通过手部关键点检测网络，获取连续多帧手部关键点热力图，并以初始切分帧数m进行切分，切分后获取的各段手部关键点热力图进行叠加，获取连续时序上的多个手势轨迹信息，通过滑窗选取固定个数的轨迹信息作为单个训练样本，以k1，k2，k3为例，则对应的标签数据为k4，其中k1，k2，k3代表历史手势轨迹信息，k4为预测手
势轨迹信息，也即在输入的历史手势轨迹信息后的第一个预测手势轨迹信息；通过对不同使用者的不同手势进行上述处理过程，获取多组训练样本和对应的标签数据，损失函数同样采用均方误差损失函数。tcn网络训练完成后，输入为连续时序历史手势轨迹信息，输出为预测手势轨迹信息，同时根据初始切分帧数m和初始遗忘系数α对连续多帧手部关键点热力图进行切分叠加获得与预测时刻的预测手势轨迹信息对应的真实手势轨迹信息。
[0046]
接着，根据预测手势轨迹信息与真实手势轨迹信息的动作类别的比较结果得到置信度评价指标；以预测时段内所有预测时刻的置信度评价指标的均值为综合评价指标，进行系数修正；根据预测时段内预测时刻的置信度评价指标时序上值的变化趋势获得初始切分帧数和初始遗忘系数的修正概率；根据修正概率选择初始切分帧数或初始遗忘系数作为待修正系数，由修正方向的概率对待修正系数进行对应修正方向的调整，并根据修正的有效性更新修正方向的概率，所述修正方向包括增大方向、减小方向；获取待修正系数调整后的综合评价指标。
[0047]
其中，手势分类网络具体为：以上述单个手势轨迹信息作为训练样本，标签数据设置为手势轨迹信息对应的真实手势动作类别，类别可由实施者根据实际情况设置，例如手势动作类别包括：点击、移动、旋转、缩放、返回等；损失函数采用交叉熵损失函数；手势分类网络训练完成后，分别输入预测手势轨迹信息和真实手势轨迹信息，输出对应的预测手势动作类别和真实手势动作类别。
[0048]
上述tcn网络和手势分类网络均进行预训练，保证其可正常使用；手势识别网络采用固定帧数m进行切分和采用固定遗忘系数α进行叠加，无法适应使用者具体的手势动作速度，因此本技术对手势识别网络进行优化，主要优化初始切分帧数m和初始遗忘系数α，以提高网络输入样本与使用者的契合度，进而提高手势识别网络的准确率。
[0049]
对于实际采集的rgb-d手部图像，经过手部关键点检测网络，获得手部关键点热力图，按照初始切分帧数m进行切分并根据遗忘系数α进行叠加，获得历史手势轨迹信息，根据历史手势轨迹信息开始预测，获得预测手势轨迹信息。当预测时段达到设定长度时，预测时段内预测时刻的数量为n，利用预测手势轨迹信息与真实手势轨迹信息的动作类别的比较结果得到置信度评价指标对初始切分帧数和初始遗忘系数进行评价，根据评价值对初始切分帧数和初始遗忘系数进行修正；每个预测时刻的置信度评价指标为：
[0050][0051]
其中，βn为置信度评价指标，n表示预测时段内第n个预测时刻；c表示手势动作分类结果分类类别的个数；表示第n个预测时刻的真实手势轨迹信息动作类别属于第c个分类类别的置信度；表示第n个预测时刻的预测手势轨迹信息动作类别属于第c个分类类别的置信度。需要说明的是，手势轨迹信息的动作类别分类结果为一个置信度序列，表征该手势轨迹信息属于对应分类类别的概率。
[0052]
对切分帧数m和遗忘系数α的综合评价指标为：
[0053][0054]
其中，n为预测时段内预测时刻的数量。
[0055]
置信度评价指标值越大，说明预测手势分类类别与真实手势分类类别的置信度差异越大，由于预测网络和分类网络均经过预训练，默认其在使用时不存在误判问题，则引起预测手势分类类别置信度与真实手势分类类别置信度差异较大的原因主要为初始切分帧数m设置不合理或初始遗忘系数α设置不合理，导致预测手势轨迹无法与真实手势轨迹信息一致，即预测手势分类类别与真实手势分类类别的置信度差异较大；此时，对初始切分帧数m或初始遗忘系数α进行寻优，具体为：对初始切分帧数m进行遍历，遍历范围m
±△
ε，遍历步长为1，
△
ε为切分帧数调整值，优选地，在本实施例中设置为初始遗忘系数α的寻优范围为[0,1]，遍历步长为0.02。
[0056]
在进行上述寻优过程中需要给定初始切分帧数m的修正概率gm，优选地，gm的初始值为1/2。对置信度评价指标βn进行标号，其标号表示置信度评价指标在时间上的顺序，对置信度评价指标βn进行线性拟合，拟合后的直线横坐标为置信度评价指标的标号，纵坐标为置信度评价指标，获取拟合后直线斜率k，得到初始切分帧数的修正概率的调整函数：
[0057][0058]
调整函数τ，用于初始切分帧数修正概率的修正，即斜率越大，说明预测手势轨迹信息与真实手势轨迹信息的差距越来越大，此时更可能是初始切分帧数m不合理导致，因此，τ越接近2；将给定的初始切分帧数的修正概率gm与调整函数τ的乘积作为初始切分帧数修正概率，令初始切分帧数被修正的概率更大；而对于斜率接近0处时，此时难以判断是初始切分帧数还是初始遗忘系数不合理导致，因此二者修正概率近似；而斜率越小，说明预测手势轨迹信息与真实手势轨迹信息的差距越来越小，此时更可能是初始遗忘系数不合理导致预测出现差异，但随着输入历史轨迹信息的变更，该差异慢慢变小，此时τ越接近0，将给定的初始切分帧数gm与调整函数τ的乘积作为初始切分帧数m的修正概率，令初始切分帧数被调整的概率更小。则初始切分帧数的修正概率为：
[0059][0060]
相应地，因为初始切分帧数与初始遗忘系数的修正概率为完整的概率分布，则初始遗忘系数修正概率为：
[0061]gα
＝1-g
′m[0062]
其中g
′m表示初始切分帧数的修正概率，g
α
表示初始遗忘系数的修正概率，gm为设定初始切分帧数的修正概率，τ为调整函数。根据初始切分帧数的修正概率g
′m和初始遗忘系数的修正概率随机选择初始切分帧数或初始遗忘系数作为待修正系数进行修正。
[0063]
上述待修正系数进行修正时，采用随机的修正方向进行遍历，即增大方向和减小方向也存在概率gu和gd，初始值均为1/2，为提高遍历速度，设置选择初始切分帧数或初始遗忘系数进行修正时用于判断修正有效性的有效性指标对于一次遍历结果，获取待修正系数修正后的综合评价指标β
′
及拟合直线斜率k
′
，则系数修正的有效性评价指标为：
[0064][0065]
其中，为有效性评价指标中的综合性评价指标影响，修正后综合性评价指
标β
′
小于初始综合性评价指标β时，β
′‑
β为负，说明修正后综合性评价指标β
′
评价变好，修正有效，则大于1，且β
′‑
β越小，越接近2；为有效性评价指标中的拟合直线斜率影响，(|k|-|k
′
|)表示直线接近水平的程度，该值越大，说明系数修正后拟合直线越接近水平，修正有效，则越接近2。
[0066]
将有效性评价指标与实际进行调整的修正方向的概率的相乘，将相乘结果与未进行调整的修正方向的概率归一化，得到更新后修正方向的概率：
[0067][0068]g′
为再次进行修正时修正方向的概率，g为当前修正时修正方向的概率；g
′
和g可以是增大方向的概率或减小方向的概率。
[0069]
如假设修正方向为增加方向，则调整后增加方向的概率值为g
′u，未被调整的另一个遍历方向概率值仍为gd，对g
′u和gd进行归一化，即可得到再次修正时增大或减小方向的概率值。
[0070]
最后，持续进行所述系数修正直至综合性评价指标趋于稳定时停止修正，获得最优的切分帧数和遗忘系数，并将最优的切分帧数和遗忘系数用于后续的手势识别。
[0071]
采用上述方式优化，直至综合性评价指标收敛或综合性评价指标在一段时间后无法达到更低，则以综合性评价指标最低时对应的切分帧数和遗忘系数作为最优的切分帧数和遗忘系数。
[0072]
在实际使用中，构建系数预测网络，以连续固定帧数的手部动作rgb-d图像作为系数预测网络输入，网络架构采用tcn-fc结构，网络输出最优切分帧数回归值和最优遗忘系数回归值；网络训练具体为：采用多个不同用户在进行vr设备操作时所采集的连续固定帧数的手部动作rgb-d图像，处理获取的最优切分帧数和最优遗忘系数作为标签数据，采用均方误差作为损失函数。
[0073]
采集用户连续固定帧数的rgb-d图像送入参数预测网络，输出最优切分帧数回归值和最优遗忘系数回归值；基于最优切分帧数回归值和最优遗忘系数回归值对rgb-d图像进行切分和叠加处理，获取若干轨迹信息图，轨迹信息图再通过tcn网络生成预测轨迹，并结合分类网络进行手部动作的预测和识别。
[0074]
实施例2
[0075]
本实施例提供了一种系统实施例。一种基于虚拟现实的手势识别系统，该系统包括：手势轨迹信息获取模块，用于利用历史手势轨迹信息预测得到预测时刻的预测手势轨迹信息，同时获得预测时刻对应的真实手势轨迹信息；其中，历史手势轨迹信息与真实手势轨迹信息的获取方式：根据初始遗忘系数对初始切分帧数的手部关键点热力图叠加得到对应的手势轨迹信息；
[0076]
系数修正模块，用于根据预测手势轨迹信息与真实手势轨迹信息的动作类别的比较结果得到置信度评价指标；以预测时段内所有预测时刻的置信度评价指标的均值为综合评价指标，进行系数修正；根据预测时段内预测时刻的置信度评价指标时序上值的上升或下降趋势获得初始切分帧数和初始遗忘系数的修正概率；根据修正概率选择初始切分帧数或初始遗忘系数作为待修正系数，由修正方向的概率对待修正系数进行对应修正方向的调
整，并根据修正的有效性更新修正方向的概率，所述修正方向包括增大方向、减小方向；获取待修正系数调整后的综合评价指标；持续进行所述系数修正直至综合性评价指标趋于稳定时停止修正；
[0077]
手势识别模块，用于在修正停止时，获得最优的切分帧数和遗忘系数，并将最优的切分帧数和遗忘系数用于后续的手势识别。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王瑞娟;王灏;陈慧民
技术所有人：郑州大学
我是此专利的发明人

上一篇：一种用于逐排灌注静态破碎剂的装置的制作方法
上一篇：一种闸门超声波除冰装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。