手势识别方法及装置制造方法

文档序号：6487394阅读：215来源：国知局

手势识别方法及装置制造方法
【专利摘要】本发明公开了一种手势识别方法，捕捉常见的人体基本动作并存储为样本动作；根据所述样本动作得到最终的训练动作；对训练动作进行图形渲染生成初步的深度图及相应部位标识图；根据所生成的深度图合成与实时采集的深度图相似的样本；利用合成样本计算对应深度特征向量，训练得到随机森林模型；通过基于平滑度约束的区域生长提取精确深度人像轮廓；基于随机森林模型计算深度人像轮廓的每个像素的深度特征向量，通过随机森林模型确定每个像素的部位标识概率；基于每个像素对应的人体部位及其概率，滤除识别噪点，聚合生成骨架节点；记录骨架节点的时序序列形成骨架运动轨迹；抽取人体手部节点的运动轨迹与预定义的模板进行匹配，识别出手势动作类型。本发明同时公开了一种手势识别装置。
【专利说明】手势识别方法及装置
【技术领域】
[0001]本发明涉及手势识别技术，尤其涉及一种手势识别方法及装置。
【背景技术】
[0002]基于视觉的体感交互技术近年来越来越多地受到研究人员的关注，特别是当微软发布能够支持全身动作姿态识别的体感交互装置方案Kinect以来，更让广大研究人员看到了体感交互技术未来的应用前景。近年来有大量学者、研究机构和相关企业在从事体感交互方面的探索与研究，大致可分为两个方面:一为近景动作交互，捕获区域和对象较小，集中在手部姿态，如SixthSense等；一为全身动作交互，动作的幅度也更大，需要更大的捕获区域和软硬件处理能力，但用户与虚拟空间的联系感更为强烈，如Kinect、Wii以及一些大型虚拟实境系统。
[0003]实时姿态估计技术是体感交互的关键技术之一，一直是计算机视觉与多媒体领域内的热点。姿态估计技术指从视频或图片中，提取和估计人物的姿态。在具体交互语境中，系统就能够根据姿态结合上下文识别具体的动作语义。
[0004]传统的基于色彩光度图的姿态估计技术，容易受光照等多种环境因素的影响，很难同时达到对实时性能与精度的较高要求，并且鲁棒性不佳。深度相机能够直接提供拍摄场景的较准确空间信息，这大大降低了姿态估计的难度。
[0005]微软的体感交互装置Kinect使用对运动轨迹的方向判断、预测进行手势动作的识别，该方法虽然能够准确的识别出手势动作，但计算量大、耗时久，不能在基于JAVA的Android平台平板电脑、以及IPTV的电视机顶盒上使用。同时，微软的骨架聚合识别工具NITE中间件并未对外开源，在动作识别的开发上存在困难。

【发明内容】

[0006]有鉴于此，本发明的主要目的在于提供一种手势识别方法及装置，能快速、准确的识别出体感动作，适用于计算性能并不强大终端如电视机顶盒中。
[0007]为达到上述目的，本发明的技术方案是这样实现的:
[0008]一种手势识别方法，包括:
[0009]实时获取人体深度图片，使用阈值分割背景而确定人物位置，再通过基于平滑度约束的区域生长提取精确深度人像轮廓；
[0010]基于随机森林模型计算深度人像轮廓的每个像素的深度特征，形成特征向量，再通过随机森林模型确定每个像素的部位标识概率；
[0011]基于每个像素对应的人体部位及其概率，滤除识别噪点，聚合生成骨架节点；
[0012]记录骨架节点的时序序列形成骨架运动轨迹；
[0013]抽取人体手部节点的运动轨迹与预定义的模板进行匹配，识别出手势动作类型。
[0014]优选地，基于随机森林模型计算深度人像轮廓的每个像素的深度特征之前，所述方法还包括:[0015]捕捉常见的人体基本动作并存储为样本动作；
[0016]对所述样本动作进行关键帧聚类，剔除重复和相似的动作，得到最终的训练动作；配合不同的人体模型，对训练动作进行图形渲染生成初步的深度图及相应部位标识图；
[0017]对所生成的深度图进行重采样、加噪处理，合成与实时采集的深度图相似的样本；
[0018]利用合成样本计算对应深度特征向量，训练得到随机森林模型。
[0019]优选地，所述利用合成样本计算对应深度特征向量，训练得到随机森林模型，包括:
[0020]定义深度变化差异特征为
【权利要求】
1.一种手势识别方法，其特征在于，所述方法包括: 实时获取人体深度图片，使用阈值分割背景而确定人物位置，再通过基于平滑度约束的区域生长提取精确深度人像轮廓；基于随机森林模型计算深度人像轮廓的每个像素的深度特征，形成特征向量，再通过随机森林模型确定每个像素的部位标识概率；基于每个像素对应的人体部位及其概率，滤除识别噪点，聚合生成骨架节点；记录骨架节点的时序序列形成骨架运动轨迹；抽取人体手部节点的运动轨迹与预定义的模板进行匹配，识别出手势动作类型。
2.根据权利要求1所述的方法，其特征在于，基于随机森林模型计算深度人像轮廓的每个像素的深度特征之前，所述方法还包括: 捕捉常见的人体基本动作并存储为样本动作；对所述样本动作进行关键帧聚类，剔除重复和相似的动作，得到最终的训练动作；配合不同的人体模型，对训练动作进行图形渲染生成初步的深度图及相应部位标识图；对所生成的深度图进行重采样、加噪处理，合成与实时采集的深度图相似的样本；利用合成样本计算对应深度特征向量，训练得到随机森林模型。
3.根据权利要求2所述的方法，其特征在于，所述利用合成样本计算对应深度特征向量，训练得到随机森林模型，包括: 定义深度凹凸差异特征为其中，u，v为所述深度特征的随机参数，为像素X在u，v方向的位移^1(X)为深度图1上的像素χ的深度值；随机挑选合成样本，并随机抽取合成样本中的若干像素作为训练样本，并读取对应部位标识图获取部位标识；从根节点开始生成单棵随机决策树，对于当前分裂节点进行以下处理:计算当前节点训练样本中样本数量最多的类别，作为该节点的类别，同时计算更新交叉验证错误率；确定节点训练样本数量少于设定阈值、深度大于最大指定深度且节点只存在一种类别时，停止分裂；确定节点训练样本数量大于等于设定阈值、或深度小于等于最大指定深度且节点存在两种以上类别时，继续分裂，寻找最优分裂；所有节点停止分裂时停止训练。
4.根据权利要求1或2所述的方法，其特征在于，所述基于随机森林模型计算深度人像轮廓的每个像素的深度特征，形成特征向量，再通过随机森林模型确定每个像素的部位标识概率，包括: 读入轮廓提取后的人物深度图；对于图中的所有像素中的每一个非背景像素，计算深度特征向量；调用随机森林识别模型，单棵决策树的终叶子节点给出类别c概率分布为Pt (c 11，χ)，则整个随机森林的最终预测结果。取其中概率最大的类作为当前像素的类别:C(I,x) = arg max P(c|l,x)。
5.根据权利要求1或2所述的方法，其特征在于，所述基于每个像素对应的人体部位及其概率，滤除识别噪点，聚合生成骨架节点，包括: 初始化搜索窗口为整个人像范围；对当前帧的部位识别标识图，遍历所有像素点，按照部位对应的腐蚀窗口大小，腐蚀去除噪点和边缘标识点；定义每个部位的密度分布估计为
6.根据权利要求1所述的方法，其特征在于，所述实时获取人体深度图片为:使用深度相机获取人体深度图片；捕捉常见的人体基本动作时，还捕捉人体手部的动作。
7.一种手势识别装置，其特征在于，所述装置包括人像轮廓获取单元、部位标识概率确定单元、骨架节点生成单元、记录单元和识别单元，其中: 人像轮廓获取单元，实时获取人体深度图片，使用阈值分割背景而确定人物位置，再通过基于平滑度约束的区域生长提取精确深度人像轮廓；部位标识概率确定单元，用于通过随机森林模型确定每个像素的部位标识概率；骨架节点生成单元，用于基于每个像素对应的人体部位及其概率，滤除识别噪点，聚合生成骨架节点；记录单元，用于记录骨架节点的时序序列形成骨架运动轨迹；识别单元，用于抽取人体手部节点的运动轨迹与预定义的模板进行匹配，识别出手势动作类型。
8.根据权利要求7所述的装置，其特征在于，所述装置还包括: 训练单元，用于捕捉常见的人体基本动作并存储为样本动作；对所述样本动作进行关键帧聚类，剔除重复和相似的动作，得到最终的训练动作；配合不同的人体模型，对训练动作进行图形渲染生成初步的深度图及相应部位标识图；对所生成的深度图进行重采样、加噪处理，合成与实时采集的深度图相似的样本；利用合成样本计算对应深度特征向量，训练得到随机森林模型。
9.根据权利要求8所述的装置，其特征在于，所述训练单元利用合成样本计算对应深度特征向量，训练得到随机森林模型，包括:定义深度变化差异特征为
10.根据权利要求7或8所述的装置，其特征在于，所述部位标识概率确定单元还用于: 读入轮廓提取后的人物深度图；对于图中的所有像素中的每一个非背景像素，计算深度特征向量；调用随机森林识别模型，单棵决策树的终叶子节点给出类别c概率分布为Pt (c 11，χ)，

则整个随机森林的最终预测结果为
11.根据权利要求7或8所述的装置，其特征在于，所述骨架节点生成单元还用于: 初始化搜索窗口为整个人像范围；对当前帧的部位识别标识图，遍历所有像素点，按照部位对应的腐蚀窗口大小，腐蚀去除噪点和边缘标识点；定义每个部位的密度分布估计为:
【文档编号】G06K9/66GK103577793SQ201210264265
【公开日】2014年2月12日申请日期:2012年7月27日优先权日:2012年7月27日
【发明者】罗圣美, 王高浩, 耿卫东申请人:中兴通讯股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：罗圣美;王高浩;耿卫东
技术所有人：中兴通讯股份有限公司
我是此专利的发明人

上一篇：一种医院药品配制管理系统及其操作方法
上一篇：非正常文本识别方法及其系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。