手势识别方法及装置制造方法

文档序号:6487394阅读:192来源:国知局
手势识别方法及装置制造方法
【专利摘要】本发明公开了一种手势识别方法,捕捉常见的人体基本动作并存储为样本动作;根据所述样本动作得到最终的训练动作;对训练动作进行图形渲染生成初步的深度图及相应部位标识图;根据所生成的深度图合成与实时采集的深度图相似的样本;利用合成样本计算对应深度特征向量,训练得到随机森林模型;通过基于平滑度约束的区域生长提取精确深度人像轮廓;基于随机森林模型计算深度人像轮廓的每个像素的深度特征向量,通过随机森林模型确定每个像素的部位标识概率;基于每个像素对应的人体部位及其概率,滤除识别噪点,聚合生成骨架节点;记录骨架节点的时序序列形成骨架运动轨迹;抽取人体手部节点的运动轨迹与预定义的模板进行匹配,识别出手势动作类型。本发明同时公开了一种手势识别装置。
【专利说明】手势识别方法及装置
【技术领域】
[0001]本发明涉及手势识别技术,尤其涉及一种手势识别方法及装置。
【背景技术】
[0002]基于视觉的体感交互技术近年来越来越多地受到研究人员的关注,特别是当微软发布能够支持全身动作姿态识别的体感交互装置方案Kinect以来,更让广大研究人员看到了体感交互技术未来的应用前景。近年来有大量学者、研究机构和相关企业在从事体感交互方面的探索与研究,大致可分为两个方面:一为近景动作交互,捕获区域和对象较小,集中在手部姿态,如SixthSense等;一为全身动作交互,动作的幅度也更大,需要更大的捕获区域和软硬件处理能力,但用户与虚拟空间的联系感更为强烈,如Kinect、Wii以及一些大型虚拟实境系统。
[0003]实时姿态估计技术是体感交互的关键技术之一,一直是计算机视觉与多媒体领域内的热点。姿态估计技术指从视频或图片中,提取和估计人物的姿态。在具体交互语境中,系统就能够根据姿态结合上下文识别具体的动作语义。
[0004]传统的基于色彩光度图的姿态估计技术,容易受光照等多种环境因素的影响,很难同时达到对实时性能与精度的较高要求,并且鲁棒性不佳。深度相机能够直接提供拍摄场景的较准确空间信息,这大大降低了姿态估计的难度。
[0005]微软的体感交互装置Kinect使用对运动轨迹的方向判断、预测进行手势动作的识别,该方法虽然能够准确的识别出手势动作,但计算量大、耗时久,不能在基于JAVA的Android平台平板电脑、以及IPTV的电视机顶盒上使用。同时,微软的骨架聚合识别工具NITE中间件并未对外开源,在动作识别的开发上存在困难。

【发明内容】

[0006]有鉴于此,本发明的主要目的在于提供一种手势识别方法及装置,能快速、准确的识别出体感动作,适用于计算性能并不强大终端如电视机顶盒中。
[0007]为达到上述目的,本发明的技术方案是这样实现的:
[0008]一种手势识别方法,包括:
[0009]实时获取人体深度图片,使用阈值分割背景而确定人物位置,再通过基于平滑度约束的区域生长提取精确深度人像轮廓;
[0010]基于随机森林模型计算深度人像轮廓的每个像素的深度特征,形成特征向量,再通过随机森林模型确定每个像素的部位标识概率;
[0011]基于每个像素对应的人体部位及其概率,滤除识别噪点,聚合生成骨架节点;
[0012]记录骨架节点的时序序列形成骨架运动轨迹;
[0013]抽取人体手部节点的运动轨迹与预定义的模板进行匹配,识别出手势动作类型。
[0014]优选地,基于随机森林模型计算深度人像轮廓的每个像素的深度特征之前,所述方法还包括:[0015]捕捉常见的人体基本动作并存储为样本动作;
[0016]对所述样本动作进行关键帧聚类,剔除重复和相似的动作,得到最终的训练动作;配合不同的人体模型,对训练动作进行图形渲染生成初步的深度图及相应部位标识图;
[0017]对所生成的深度图进行重采样、加噪处理,合成与实时采集的深度图相似的样本;
[0018]利用合成样本计算对应深度特征向量,训练得到随机森林模型。
[0019]优选地,所述利用合成样本计算对应深度特征向量,训练得到随机森林模型,包括:
[0020]定义深度变化差异特征为
【权利要求】
1.一种手势识别方法,其特征在于,所述方法包括: 实时获取人体深度图片,使用阈值分割背景而确定人物位置,再通过基于平滑度约束的区域生长提取精确深度人像轮廓; 基于随机森林模型计算深度人像轮廓的每个像素的深度特征,形成特征向量,再通过随机森林模型确定每个像素的部位标识概率; 基于每个像素对应的人体部位及其概率,滤除识别噪点,聚合生成骨架节点; 记录骨架节点的时序序列形成骨架运动轨迹; 抽取人体手部节点的运动轨迹与预定义的模板进行匹配,识别出手势动作类型。
2.根据权利要求1所述的方法,其特征在于,基于随机森林模型计算深度人像轮廓的每个像素的深度特征之前,所述方法还包括: 捕捉常见的人体基本动作并存储为样本动作; 对所述样本动作进行关键帧聚类,剔除重复和相似的动作,得到最终的训练动作;配合不同的人体模型,对训练动作进行图形渲染生成初步的深度图及相应部位标识图; 对所生成的深度图进行重采样、加噪处理,合成与实时采集的深度图相似的样本; 利用合成样本计算对应深度特征向量,训练得到随机森林模型。
3.根据权利要求2所述的方法,其特征在于,所述利用合成样本计算对应深度特征向量,训练得到随机森林模 型,包括: 定义深度凹凸差异特征为 其中,u,v为所述深度特征的随机参数,为像素X在u,v方向的位移^1(X)为深度图1上的像素χ的深度值; 随机挑选合成样本,并随机抽取合成样本中的若干像素作为训练样本,并读取对应部位标识图获取部位标识; 从根节点开始生成单棵随机决策树,对于当前分裂节点进行以下处理:计算当前节点训练样本中样本数量最多的类别,作为该节点的类别,同时计算更新交叉验证错误率;确定节点训练样本数量少于设定阈值、深度大于最大指定深度且节点只存在一种类别时,停止分裂;确定节点训练样本数量大于等于设定阈值、或深度小于等于最大指定深度且节点存在两种以上类别时,继续分裂,寻找最优分裂;所有节点停止分裂时停止训练。
4.根据权利要求1或2所述的方法,其特征在于,所述基于随机森林模型计算深度人像轮廓的每个像素的深度特征,形成特征向量,再通过随机森林模型确定每个像素的部位标识概率,包括: 读入轮廓提取后的人物深度图; 对于图中的所有像素中的每一个非背景像素,计算深度特征向量; 调用随机森林识别模型,单棵决策树的终叶子节点给出类别c概率分布为Pt (c 11,χ),则整个随机森林的最终预测结果。取其中概率最大的类作为当前像素的类别:C(I,x) = arg max P(c|l,x)。
5.根据权利要求1或2所述的方法,其特征在于,所述基于每个像素对应的人体部位及其概率,滤除识别噪点,聚合生成骨架节点,包括: 初始化搜索窗口为整个人像范围; 对当前帧的部位识别标识图,遍历所有像素点,按照部位对应的腐蚀窗口大小,腐蚀去除噪点和边缘标识点; 定义每个部位的密度分布估计为
6.根据权利要求1所述的方法,其特征在于,所述实时获取人体深度图片为:使用深度相机获取人体深度图片; 捕捉常见的人体基本动作时,还捕捉人体手部的动作。
7.一种手势识别装置,其特征在于,所述装置包括人像轮廓获取单元、部位标识概率确定单元、骨架节点生成单元、记录单元和识别单元,其中: 人像轮廓获取单元,实时获取人体深度图片,使用阈值分割背景而确定人物位置,再通过基于平滑度约束的区域生长提取精确深度人像轮廓; 部位标识概率确定单元,用于通过随机森林模型确定每个像素的部位标识概率; 骨架节点生成单元,用于基于每个像素对应的人体部位及其概率,滤除识别噪点,聚合生成骨架节点; 记录单元,用于记录骨架节点的时序序列形成骨架运动轨迹; 识别单元,用于抽取人体手部节点的运动轨迹与预定义的模板进行匹配,识别出手势动作类型。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括: 训练单元,用于捕捉常见的人体基本动作并存储为样本动作;对所述样本动作进行关键帧聚类,剔除重复和相似的动作,得到最终的训练动作;配合不同的人体模型,对训练动作进行图形渲染生成初步的深度图及相应部位标识图;对所生成的深度图进行重采样、加噪处理,合成与实时采集的深度图相似的样本;利用合成样本计算对应深度特征向量,训练得到随机森林模型。
9.根据权利要求8所述的装置,其特征在于,所述训练单元利用合成样本计算对应深度特征向量,训练得到随机森林模型,包括:定义深度变化差异特征为
10.根据权利要求7或8所述的装置,其特征在于,所述部位标识概率确定单元还用于: 读入轮廓提取后的人物深度图; 对于图中的所有像素中的每一个非背景像素,计算深度特征向量; 调用随机森林识别模型,单棵决策树的终叶子节点给出类别c概率分布为Pt (c 11,χ),





则整个随机森林的最终预测结果为
11.根据权利要求7或8所述的装置,其特征在于,所述骨架节点生成单元还用于: 初始化搜索窗口为整个人像范围; 对当前帧的部位识别标识图,遍历所有像素点,按照部位对应的腐蚀窗口大小,腐蚀去除噪点和边缘标识点; 定义每个部位的密度分布估计为:
【文档编号】G06K9/66GK103577793SQ201210264265
【公开日】2014年2月12日 申请日期:2012年7月27日 优先权日:2012年7月27日
【发明者】罗圣美, 王高浩, 耿卫东 申请人:中兴通讯股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1