基于双视点手势识别的汉字识别方法与流程

文档序号：12175850阅读：1179来源：国知局

本发明属视频处理领域，涉及一种基于双目相机的自然手汉字书写识别方法。

背景技术：

在信息化的今天，在计算机技术迅速普及的现代，人与计算机的交互已经成为日常生活的一部分。尤其是在最近几年，研究如何使人和计算机进行自然直接顺畅的交流已经成为人们的焦点。从输入方式的角度来讲，采用鼠标和键盘来作为输入手段的人机交互已不能完全满足人们当前的需求，而以自然手为输入直接与计算机进行交流或者对机器进行控制才是发展的新趋势。

根据手势识别实现的基础不同，可以将手势识别分为基于数据手套和基于视觉两类。基于穿戴设备的手势识别，如数据手套或者颜色标记等，可以反应出手的具体细节信息并且具备可观的效率，但是设备给人带来的空间不便利性限制他的发展。所以，以自然手的手势作为输入，基于机器视觉进行自然手势的检测识别成为研究热点。

根据识别技术的不同，自然手的模型可分为基于二维表观模型和基于三维立体模型两类。二维表观的手势识别局限了信息平面，无法解决手势的遮挡问题，这在一定程度上就限制了手势识别的准确性，三维手势识别技克服传统二维手势交互的信息限制缺点。

本发明基于双目相机捕捉自然手势，实现不同角度的手势识别以及手势轨迹识别，能够输出所书写的汉字。

技术实现要素：

本发明的目的在于克服单目相机在信息捕捉上的缺陷，提供一种可以实现多角度的手势识别和轨迹跟踪，能够提高用户输入的自由度的汉字识别方法。本发明利用双目相机所能提供的左右图像进行立体匹配，获得手的三维空间坐标信息，以便进行手势的识别和轨迹的计算，从而实现书写汉字的识别。技术方案如下：

一种基于双视点手势识别的汉字识别方法，将手的动作分为笔划书写的动作和两笔划之间的过渡动作，与此相对应，定义有效手势和无效手势分别代表两种输入状态，分别对应汉字笔画书写轨迹和笔画之间的过渡轨迹；定义伸出一只食指朝上为有效手势，写有效笔划的时候使用有效手势；定义握拳为无效输入手势，手在两笔划位置之间过渡时使用无效手势，包括下列步骤：

第一步：对书写汉字时采集的手部图像进行色彩空间转换，选取在YC_bC_r色彩空间进行肤色建模并进行手势分割，分割出的手势二值化图像。

第二步：在分割出的手势二值化图像中，手势区域像素值为1，背景区域的像素值为0，计算手势中心点

第三步：在书写汉字时，在进行动态轨迹识别时，先判断一下此手势是否为有效手势方法如下：

利用canny算子进行边缘提取，根据提取的边缘得到一个矩形边界，计算手的指尖与中心的距离，即上边界与中心点的距离d₁，手腕与中心点，即下边界和中心点的距离d₂，若满足d₁/d₂≥1.4，则判断该手势为有效手势，否则为无效手势；

第四步：对于含有有效手势的帧图像，在双目相机获得的左右两幅图像中，选右图为基准图进行立体匹配并计算视差。计算步骤如下：

1)将基准图和待匹配图都转为灰度图；

2)选基准图的指尖点p为兴趣点，以其为中心建立窗口，计算窗口里的像素灰度特征作为参考值；

3)在待匹配图里建立一个相同尺寸的窗口，移动并不断计算窗口覆盖区域的像素灰度特征；

4)判断移动窗口和基准窗口特征值的相似性，取相似程度最高的窗口为匹配的窗口，窗口的中心点即为匹配点p'；

5)计算视差disparity＝p'(x)-p(x)。

第五步：根据视差原理，计算获得指尖点的三维坐标；

第六步：对所有含有有效手势的帧进行第四步和第五步处理，连接有效手势的空间位置，得到书写汉字的轨迹。

本发明实现多角度的手势识别和轨迹跟踪，能够提高用户输入的自由度，利用双目相机所能提供的左右图像进行立体匹配，获得手的三维空间坐标信息，以便进行手势的识别和轨迹的计算，从而实现书写汉字的识别。

附图说明

图1形态学处理操作。

图2手势分割图示，左图包含有效手势，右图包含无效手势；第一行是肤色检测的分割效果，有噪声；第二行是经过形态学处理的效果；第三行是计算出的中心和指尖标示。

图3手势判断涉及的距离标示，左图为有效手势，右图为无效手势。

具体实施方式

基于双目相机的汉字输入识别，手势由双目相机进行拍摄输入，每一时刻都有左右两幅图像，对其进行手势定位分割，特征提取和手势分析，立体匹配和三维坐标计算，具体包括以下步骤：

第一步：对图像进行色彩空间转换，选取在YC_bC_r色彩空间进行肤色建模进行手势分割。具体步骤如下：

1)首先对图像进行色彩空间转换，把RGB图像转换到YC_bC_r色彩空间；

2)提取Y、Cb、Cr分量，对其进行肤色检测，定位手势区域，满足下式则判断为肤色：

在上式中，a＝25.39，b＝14.03，ecx＝1.60，ecy＝2.41，cx＝109.38，cy＝152.02。将待检测的关键帧图像转换到YC_bC_r空间后，判断像素的C_bC_r值是否在式3式描述的椭圆内。如在椭圆内，则认为该像素为肤色点，设置像素点值为1，否则就为背景点，设置像素点值为0；

3)对上一步得到的二值化图像进行腐蚀膨胀形态学处理，填补孔洞，去除噪声，得到优化的手势分割图。

第二步：在分割出的有效手势二值化图像中，手势区域像素值为1，背景区域的像素值为0。计算手势中心点(xcenter,ycenter)，具体步骤如下：

1)求得所有值为1的像素的x坐标的和为sumx，y坐标的和为sumy；

2)求得所有值为1的像素的个数的总和为sum；

3)中心点x坐标y坐标

第三步，在书写汉字时，将手的动作分为有效笔划的动作和两笔划之间的过渡动作，与此相对应，定义有效手势和无效手势分别代表两种输入状态。在进行动态轨迹识别时，先判断一下此手势是否有效，只有当输入为汉字有效笔画时只有在有效手势输入才跟踪记录手势的轨迹信息。具体定义为：

1)伸出一只食指朝上为有效输入手势，写有效笔画的时候我们使用有效手势；

2)定义握拳为无效输入手势，手在两笔画位置之间过渡时使用无效手势。

利用canny算子进行边缘提取，根据提取的边缘得到一个矩形边界，计算手的指尖与中心的距离，即上边界与中心点的距离d₁，手腕与中心点，即下边界和中心点的距离d₂，若满足d₁/d₂≥1.4，则判断该手势为有效手势，否则为无效手势。