专利名称:一种头戴式立体视觉手势识别装置的制作方法
技术领域:
本发明为一种头戴式立体视觉手势识别装置,属于计算机视觉与人机交互技术领域,用于穿戴计算机的手势交互。
背景技术:
穿戴计算机的各种输入装置,比如键盘、鼠标、写字板等,都穿戴在人身上,比如腰部、胸部、肩部、手臂等部位。这些输入装置对于穿戴者来说,比较累赘,因此,人们在大力研发手势识别技术,以解决人和计算机之间的自然交互。目前,已有各种不同的装置和技术用来解决穿戴条件下的手势识别问题,主要可以分为二大类。第一类是基于数据手套的手势识别装置,如,澳大利亚的“Tinmith-Hand”。但该类装置体积大,需要佩戴数据手套,没有完全把人手解放出来。第二类是基于计算机视觉的手势识别装置,该类装置使用一个普通的CCD或CMOS摄像头,具有体积小、价格便宜和功耗较低的特点。如,日本国家工业科学技术研究院智能系统研究所研发的单目穿戴视觉系统“Weavy”,美国加州大学HRL实验室研制的穿戴视觉系统“SNAP&TELL”。已有这类装置的主要不足是(1)采用单个摄像机,获取的信息有限,容易受到环境光线和复杂背景的影响;(2)摄像头方向固定,只能面向前方,识别手势时穿戴者必须将手抬起来,容易产生疲劳,缺乏灵活性;(3)主要采用肤色信息进行人手跟踪与手势识别,肤色易受光照条件的影响,随着穿戴者的行走,会引起光照条件的改变,从而导致跟踪与识别的失败;除此之外,当摄像机视野中出现与肤色相近的物体时,会产生二义性,无法区分。
针对现有装置和技术存在的问题与不足,本发明提出了一种头戴式立体视觉手势识别装置。该装置由立体视觉成像头、立体视觉板、头戴显示器和穿戴计算机组成。该装置可以同步获取穿戴者手的立体图像对,能够实时计算视差图(或深度图),结合视差图和灰度图,能够稳定和鲁棒的进行人手跟踪和手势识别,为穿戴计算机提供基于手势的自然友好的人机接口。
发明内容
本发明是由立体视觉成像头[1]、立体视觉板[2]、头戴显示器[3]和穿戴计算机[4]组成;立体视觉成像头[1]由两个或两个以上的微型摄像机[8]组成,可以获取人手的立体图像对;立体视觉板[2]以视频速度计算稠密视差图(深度图),并将稠密视差图(深度图)和灰度图像(或彩色图像)以视频速度传输到穿戴计算机[4],穿戴计算机[4]完成人手跟踪和手势识别,并将识别和控制结果显示在头戴显示器[3]上;为了方便地恢复近距离的手势视差图,微型摄像机[8]采用了广角摄像头;微型摄像机[8]之间的基线距离较小,这样既保证了摄像机视场角公共区与摄像机的距离较小,也保证了人手具有一定的活动范围。
立体视觉成像头[1]固定在头箍[10]的右(左)边,便于获取右手(左手)的图像;同时配置了旋转轴[9],可以根据需求任意调节立体视觉成像头[1]的朝向。
立体视觉板[2]以一片FPGA作为处理芯片,实时完成图像变形修正、外极线校正和稠密视差图计算。立体视觉板[2]中包含有一个基于IEEE1394通讯芯片设计的实时图像传输接口,用于实现视差图、灰度图像(或彩色图像)的实时传输。立体视觉板的体积小,重量轻,计算速度快。
穿戴计算机[4]实时接收来自立体视觉板[2]的视差图和灰度图像(或彩色图像),穿戴计算机[4]完成人手跟踪与手势识别的任务,并将计算结果显示在头戴显示器[3]上,用于实现手势鼠标、手语识别和手写字符输入等应用。
本发明的具体特征如下(1)头戴式立体视觉手势识别装置中的立体视觉成像头[1]由两个或两个以上的微型摄像机[8]组成,可以同步获取人手的图像,为穿戴计算机[4]提供灰度图像或彩色图像的同时,还提供了立体图像对,可以鲁棒地实现人手跟踪和手势识别。
(2)立体视觉成像头[1]固定在头箍[10]的右(左)边,便于获取右(左)手的立体图像对。同时配置了旋转轴[9],可以根据需求任意调节立体视觉成像头[1]的朝向,如前方、下方、斜下方等,以方便穿戴者在座姿、站立、行走等不同情况下调节最合适的立体视觉成像头[1]的朝向。
(3)头戴式立体视觉手势识别装置中的立体视觉板[2]以视频的速度计算稠密视差图(稠密深度图),并将灰度图像(或彩色图像)和稠密视差图(或稠密深度图)以视频的速度传输到穿戴计算机[4]中进行手势识别和跟踪。
(4)通过廉价的立体视觉技术,获取穿戴者手的立体图像对,通过立体图像对实时计算稠密视差图,利用人手的视差图和灰度图像能够更稳定的实现人手跟踪和手势识别,并将计算结果显示在头戴显示器[3]上,用于实现手势鼠标、手语识别和手写字符输入等应用。
本发明具有以下优点1.本发明采用了立体视觉信息和灰度(或彩色)信息,实现更加可靠和鲁棒的人手定位、跟踪和识别。
2.本发明采用广角镜头(60°以上),并使用图像变形修正算法,有效地提高场景图像感知效率,可以在穿戴条件下可靠地对近距离人手进行定位、跟踪和识别。
3.本发明采用两个或多个微型摄像机[8],并采用硬件实现图像的变形修正处理、图像外极线校正处理和稠密视差图的视频速度计算。
4.本发明采用IEEE1394[16]接口实现与穿戴计算机[4]的实时通讯,降低了延迟,提高了交互的效率。
5.本发明体积小、重量轻、计算速度快。
图1是本发明的组成示意图。
图2是本发明的基本组成框图。
图3是本发明的穿戴示意图。
图4是本发明的两种立体视觉成像头外观图。
图5是本发明的立体视觉成像头组成框图。
图6是本发明的立体视觉板组成框图。
图7是本发明的手语识别的流程示意图。
图8是本发明的手势鼠标应用中用到的三种手势。
图9是本发明的手势鼠标的流程示意图。
图10是本发明的手写字符输入应用中用到的三种手势。
图11是本发明的手写字符输入的流程示意图。
图1-图11中的1-立体视觉成像头、2-立体视觉板、3-头戴显示器、4-穿戴计算机、5-图像数据线缆、6-IEEE1394连接线、7-VGA连接线、8-CMOS微型摄像机、9-旋转轴、10-头箍、11-图像采集控制器、12-图像传输接口、13-立体视觉信息处理器、14-控制器/通讯接口、15-视差图像高层处理与传输控制器、16-IEEE1394接口、17-帧存储器、18-图像传输接口。
下面结合附图对本发明作进一步说明一种头戴式立体视觉手势识别装置的结构如图1、2、3所示,该装置包括立体视觉成像头[1],立体视觉板[2],头戴显示器[3]和穿戴计算机[4]四大部分。立体视觉成像头[1]固定在头箍[10]的右侧(左侧),方便于拍摄右手(左手)的图像;立体视觉成像头[1]通过图像数据线缆[5]把采集到的立体图像对传送到立体视觉板[2]。立体视觉板[2]完成图像变形修正、立体图像对的外级线校正和稠密视差图的实时计算,并将稠密视差图连同灰度图像或彩色图像,通过IEEE1394接口[16]传送给穿戴计算机[4];穿戴计算机[4]根据视差图、灰度图像或彩色图像,实现人手的分割、跟踪和手势识别,并将手势控制显示在头戴显示器[3]上,实现文本、图形、图像界面的控制。
图4是两种立体视觉成像头[1]的外观图,一种是双目的,另一种是三目的。图5是立体视觉成像头组成框图。立体视觉成像头[1]由两个或两个以上的微型摄像机[8]、图像采集控制器[11]、图像传输接口[18]、帧存储器[17]和旋转轴[9]组成。立体视觉成像头[1]采用三个微型摄像机比采用两个微型摄像机获取的视觉信息更丰富,视差图更稠密、更精确,而采用两个微型摄像机[8]可以获得更快的执行速度,可根据需求选取合适的微型摄像机[8]数目。微型摄像机[8]采用了广角镜头,摄像头的对角线视场角范围为60°以上,可以恢复0.3-1.2米深度范围内人手的稠密三维数据。图像采集控制器[11]控制多个微型摄像机同步采集图像,并将图像缓存到帧存储器[17],然后再通过图像传输接口[18]传送到立体视觉板[2]。立体视觉成像头[1]通过一个手动旋转轴[9]与立体视觉板相连,并固定在头箍上[10],人们可以根据需要,旋转成像头。这样,穿戴者可以在坐姿、站姿或行走时选择最合适的摄像头朝向。
图6是立体视觉板[2]的组成框图。立体视觉板[2]由立体视觉信息处理器[13]和控制器/通讯接口[14]组成。立体视觉信息处理器[13]以一片FPGA作为处理芯片,完成图像变形修正、LoG滤波、立体图像对外极线校正、稠密视差图计算、子象素级视差计算,实现稠密视差图实时恢复。立体视觉信息处理器[13]的实现方法见我们的发明专利ZL02100547.8。控制器/通讯接口[14]由视差图像高层处理与传输控制器[15]和1394接口[16]组成。视差图像高层处理与传输控制器[15]由DSP芯片实现,不仅可以向立体视觉信息处理器[13]传送摄像头的内外参数和进行视差图像的高层处理,而且还可以通过1394接口[16]将灰度图像、彩色图像和视差图像传输给穿戴计算机[4]。
立体视觉成像头[1]在使用之前,要进行强标定。把标定参数由穿戴计算机[4]通过1394接口[16]传输到立体视觉板[2]。立体视觉成像头[1]采用固定的镜头,并将其与成像芯片固化到一起,已保证在穿戴者使用过程中,系统参数不会发生改变。
穿戴计算机[4]是整个装置的中央控制机构和高层处理单元。穿戴计算机[4]对系统的各个部分进行统一管理和协调控制,并对立体视觉板[2]输出的视差图像、灰度图像或彩色图像进行高层处理,完成人手跟踪与手势识别的任务,为穿戴计算机提供基于手势的智能人机接口。
手势是一种自然而直观的人际交流模式,基于视觉的手势交互是实现新一代人机交互的关键技术。特别是对于穿戴计算机来说,基于视觉的手势交互是最有希望突破人机交互瓶颈的核心技术。目前已经有许多手势识别和跟踪的方法,但在动态和复杂背景下,比如穿戴计算机视觉系统所处的环境,由于图像的抖动、光照的变化、背景的动态和复杂性,给穿戴计算环境下的人手跟踪与手势识别带来一定的困难。利用单一的视觉信息很难获得鲁棒的跟踪与识别结果,因此,多信息融合是一个行之有效的好方法。该装置可以实时地获取灰度、彩色和稠密视差图像,综合利用多种视觉信息完成人手跟踪与手势识别的任务。
人手跟踪与手势识别是手势交互过程中两项重要的技术。在下面的应用实例中,我们采用粒子滤波器(Particle Filter)进行人手的鲁棒跟踪。粒子滤波器是一种非线性/非高斯的贝叶斯滤波器,它利用随机产生的样本集合来表示跟踪目标在图像中的概率分布,该分布是非高斯的,可以同时维持多个假设,能够增强复杂背景下的目标跟踪能力;除此之外,样本集合中可以同时存在多种类别的粒子,便于融合多种视觉信息进行人手的鲁棒跟踪。我们采用隐马尔可夫模型(Hidden Markov Models,HMM)进行手势识别,在基于HMM的识别算法里,每种手势有一个HMM,可观察符号对应着模型参数空间里的向量(点),例如几何矩向量,Zernike矩,特征图像系数向量,或者3D空间的运动速度等等。基于HMM识别技术不仅具有时间尺度不变性,而且还具备自动分割和分类的能力,可以用于动态手势和手语的识别。
实施例应用举例1一种头戴式立体视觉手势识别装置,如图1、2、3所示,包括立体视觉成像头[1],立体视觉板[2],头戴显示器[3]与穿戴计算机[4]四大部分。图7给出了一个手语识别的流程示意图。立体视觉成像头[1]把采集到灰度手势图像传送至立体视觉板[2]。立体视觉板[2]对手势图像进行变形修正、外极线校正和视差计算,把校正后的灰度图像和视差图像通过1394接口[16]传送至穿戴计算机[4]。从视差图和灰度图中提取特征,采用基于HMM的手语识别方法进行手语识别。最后,将识别结果显示在头戴显示器[3]上。
应用举例2图9给出了是一个手势鼠标的流程示意图。立体视觉成像头[1]把采集得到灰度手势图像传送至立体视觉板[2]。立体视觉板[2]对手势图像对进行变形修正、外极线校正和视差计算,把校正后的灰度图像和视差图像通过1394接口[16]传送至穿戴计算机[4]。穿戴计算机[4]综合利用灰度信息和视差信息进行人手的鲁棒跟踪,并在跟踪过程中进行手势识别。图8给出了手势鼠标中用到的三种手势,手势1是右手自然伸展状态,手背朝向摄象机,对应鼠标移动事件;手势2是右手握拳状态,对应单击鼠标左键事件;手势3是右手自然伸展状态,手心朝向摄象机,对应单击鼠标右键事件。通过对这三种手势的跟踪、识别就可以完成传统的鼠标操作,我们把这种基于手势的人机交互方式称为手势鼠标。
应用举例3图11给出了是一个手写字符输入的流程示意图。立体视觉成像头[1]把采集得到灰度手势图像传送至立体视觉板[2]。立体视觉板[2]对手势图像对进行变形修正、外极线校正和视差计算,把校正后的灰度图像和视差图像通过1394接口[16]传送至穿戴计算机[4]。穿戴计算机[4]综合利用灰度信息和视差信息进行人手的鲁棒跟踪,并在跟踪过程中进行手势识别和食指指尖定位。图10给出了三种手势,字符轨迹输入点由食指指尖确定。由手势1切换到手势2表示字符笔画输入的开始;由手势2切换到手势1表示字符笔画输入的结束;手势3表示字符轨迹输入完毕。通过这3种手势的识别,就可以实现字符轨迹的输入,可以是单或多笔画的字符,甚至可以输入汉字轨迹。之后,进行字符识别。从而实现了基于手势的手写体字符的输入。
权利要求
1.一种头戴式立体视觉手势识别装置,其特征在于该装置由立体视觉成像头[1]、立体视觉板[2]、头戴显示器[3]和穿戴计算机[4]组成;立体视觉成像头[1]由两个或两个以上的微型摄像机[8]组成,可以获取人手的立体图像对;立体视觉板[2]以视频速度计算稠密视差图(深度图),并将稠密视差图(深度图)和灰度图像(或彩色图像)以视频速度传输到穿戴计算机[4],穿戴计算机[4]完成人手跟踪和手势识别,并将识别和控制结果显示在头戴显示器[3]上。
2.权利要求1所述的一种头戴式立体视觉手势识别装置,其特征在于为了方便地恢复近距离的手势视差图,微型摄像机[8]采用了广角摄像头。
3.权利要求1所述的一种头戴式立体视觉手势识别装置,其特征在于立体视觉成像头[1]固定在头箍[10]的右(左)边,便于获取右手(左手)的图像;同时配置了旋转轴[9],可以根据需求任意调节立体视觉成像头[1]的朝向。
全文摘要
本发明为头戴式立体视觉手势识别装置,属于计算机视觉与人机交互技术领域。该装置由立体视觉成像头、立体视觉板、头戴显示器和穿戴计算机四个部分组成;立体视觉成像头获取穿戴者手的灰度图像,立体视觉板实时计算稠密视差图(深度图),并将视差图和灰度图像传送给穿戴计算机,穿戴计算机完成人手跟踪与手势识别的任务,并将计算结果显示在头戴显示器上。本发明可以实现在穿戴计算环境下的人手跟踪与手势识别,用于完成手势鼠标、手语识别和手写字符输入等,实现基于手势的智能人机接口。
文档编号G06K9/20GK1648840SQ20051000295
公开日2005年8月3日 申请日期2005年1月27日 优先权日2005年1月27日
发明者贾云得, 柳阳 申请人:北京理工大学