手掌开合动作识别方法和装置的制造方法
【技术领域】
[0001] 本发明涉及一种机器视觉人机交互领域,特别地,它提供了一种从输入的图像序 列或视频中识别手掌开合手势动作的方法。
【背景技术】
[0002] 手势作为一种自然直观的交流方式,它并不需要额外的设备的辅助,就能被广泛 的用于与电子设备的交互。基于计算机视觉的手势识别技术已经广泛用于人机交互。基于 计算机视觉的手势识别技术接收可视化图像输入,向外输出手势姿态或手势动作的类型, 由此那些受计算机控制的设备就能将不同的手势姿态或手势动作解释为不同的命令来完 成交互的操作,比如开/关,点击,触摸与否或电视频道的切换等。
[0003] 在专利文献1中,美国专利US7821541B2公开了一种对手的2个状态进行识别的 方法。这个2个手的状态分别是握住的拳头状态(aclosedfist)和打开的手掌状态。这 里的识别是对静态的开合手掌姿态的识别。其中,只有单一的静态特征被用到,比如它是通 过检测是否有3个连续的手指临近到另外一个手指的直观规则来判断是否为"开"状态。由 于在实际的系统里,获得清晰的手的外形图像并不是件容易的事情(通常受距离,设备精度 和光照条件影响),因此该方法并不鲁棒。此外该方法只是基于单帧图像来是识别姿态。
[0004] 在非专利文献1中,作者为ZhouRen的文章"RobustHandGesture RecognitionBasedonFinger-EarthMover'sDistancewithaCommodity DepthCamera",Proceedingsofthe19thACMinternationalconferenceon Multi-media,MM' 11,ACM,NewYork,NY,USA, 2011,pp. 1093 - 1096 中,采用了 时间序列曲线 (time-seriescurve)来表述手的形状信息,该时间序列曲线记录了手掌轮廓上每个点到 手掌中心点的相对距离。另外,该文章还定义了FEMD(Finger-EarthMover'sDistance) 距离度量算子来计算2个手形状的相似性。本质上,该方法是用模板匹配技术来实现手掌 姿态的识别。虽然比起美国专利"US7821541B2",它能识别更多的姿态,但其不足之处却是 相同的。
[0005]在非专利文献2中,作者为NguyenDangBinh的文章"Real-TimeHandTracking andGestureRecognitionSystem"(byNguyenDangBinh,KyushuInstituteof Technology),采用了伪二维隐马尔科夫模型(P2-DHMMs)来识别静态手势。这个P2-DHMM 包含5个超级状态(super-states),每个超级状态下又对手掌图像的行序列进行建模,超 级状态模型的拓扑结构是线性的,只允许自己状态向自己转移或转向下一个超级状态。而 这篇文章的方法是对空域中对不同姿态下子区域图像的关系进行建模,而不是对时间域里 的姿态转移进行建模。
[0006] 以上的方法主要解决了静态手势识别,而手掌开合手势动作有别于静态手掌姿 态,它是个动态的过程,由一系列的姿态序列从姿态"开"到"合"或从"合"到"开"组成,包 括这开合状态转换过程中的半开半合的中间状态。为了识别动态手势,最重要的事情就是 从特征抽取的角度或从模型的角
[0007] 度来完成对姿态在姿态序列中的变化进行描述或建模。
[0008] 在专利文献2中,发明人为章鹏的申请号为CN201200147172的专利申请中,公开 了一种基于分类器的手势识别方法,该方法采用所谓的深度差分布算子来从几帧相邻的图 像里抽取出⑶DD特征来表述动作发生时前后深度差的分布规律。该⑶DD是一组高维的特 征向量,其维数随手势识别单元里所采用的图像的帧数而增加。比如3帧图像作为一个手 势识别单元的话将对应于128维的特征向量,如果是4帧图像则为192维。一方面高维的 特征向量必然要求大量的样本用于分类器的学习,另一方面,象这样用固定图像帧数作为 识别单元来描述深度差分布的方法,并不能很好解决帧数变化的手势的识别问题。此外该 方面只适用于深度图像,这也限制了该方法在传统彩色图像上的应用。
[0009] 在专利文献3(中国申请号CN2013100161691. 1)中,作为本申请同一发明人的熊 怀欣为了解决帧数长度变化着的动态手势识别,从特征抽取的角度提出一种自适应帧长开 合手势识别的方法。该方法计算用来描述开合手势姿态特征在图像序列中的最大单向差异 量。此处被采用进行最大差异特征量计算的手势姿态特征从开合手势过程看去必须具有特 征取值单调性的特性。
[0010] 动态手势通常表现为时间序列下一系列姿态或位置不同的图片,为识别动态手 势,常规处理方法是取一固定长度的滑动窗口在输入的图像序列上滑动,用以选择相邻的 几帧图像来作为一个动作识别单元。理想情况下,滑动窗口的长度恰好等同于完成一个手 势动作所需的图像帧数。但事实上,手势动作的帧长并不是固定的而是随手势操作者不同 而不同,即使对同一个操作者,手势动作的长度也不尽是相同的。而且图像设备的采样速率 也能影响到手势单元的长度(如果采样率高,则完成一个手势所需的图像帧多,反之则少)。 因此将滑动窗口的长度简单的设置为一个手势平均所用的帧数并不是最有效的方式,这将 为手势的识别带去较多的虚警错误或漏检错误。由此,在滑动窗口长度不变情况下如何有 效的处理手掌开合手势动作所对应的图像帧数变化的情况在手势的识别过程是一个需要 面对的问题。
[0011] 此外,在一些手势控制系统中,比如"HandMouse"采用手的移动来控制光标移动并 结合手掌开合动作来模拟鼠标按键的这样的系统,在开合手势动作过程中通常因手跟踪点 发生位移而导致光标位置的改变,因而需明确的检测到一个手势动作的起始点和终止点时 间,这样才能在手势结束的时刻回溯光标到手势开始的时刻来执行对应的手势命令。这样 的问题在以前的技术中未给出合理的解决方案或未提及。
【发明内容】
[0012] 为了解决上述问题,本发明提出了一种基于隐马尔科夫模型(HMM)技术能简单快 速且保持高识别率地实现手掌开合手势动作识别的方法。它不仅能自适应于手势帧数变化 的情况而且能给出手势动作的起始和终止时刻。
[0013] 根据本发明的一个方面,提供了一种手掌开合动作识别方法,包括:采用滑动窗口 沿着输入图像序列移动,依次选择预定数量的连续图像序列作为一个识别单元;从作为所 述识别单元的连续输入图像序列中的每一帧图像中分割出手掌形状图像;从每个所分割的 手掌形状图像中抽取出代表手掌姿态的多个特征以便形成属于对应手掌图像的特征向量, 并将属于同一识别单元的手掌形状图像的所抽取的特征向量的序列作为隐马尔科夫模型 HMM的观察量序列;将所述观察量序列输入多个HMM中的每个独立手势HMM,计算出所述观 察量序列属于对应HMM的概率;以及将所计算的概率作为特征输入分类器识别手势。
[0014] 根据本发明的手掌开合动作识别方法,其中,所述手掌开合动作为手掌从闭合姿 态到张开姿态的变化过程或从张开姿态到闭合姿态的变化过程,所述变化过程包括在闭合 姿态和张开姿态之间的中间姿态。
[0015] 根据本发明的手掌开合动作识别方法,其中,所述代表手掌姿态的特征是基于沿 手掌主方向所在最小覆盖的四边形及手掌轮廓线所在凸包多边形的特征。
[0016] 根据本发明的手掌开合动作识别方法,其中,所述特征量被量化为