本发明涉及一种手语翻译方法,特别涉及一种基于深度传感器的中文手语翻译方法。
背景技术:
目前手语识别的研究主要集中在基于rgb光学图像上,这种手势识别系统的图像数据是由光学摄像头获取的,但是这种识别方式容易受到光照等外界条件干扰,识别准确率有待提高;数据手套的出现给研究员们提供了一种更加精确的手部定位方式,可是这种接触性的外设又会给用户带来诸多的不便;近现代以来手语识别发展到基于三维摄像机进行手语识别,该方法不仅仅能提高识别的精度还能带给用户更好的交互体验。
技术实现要素:
本发明的目的是为了解决现有手语识别方法中所存在的诸多不足而提供的一种基于深度传感器的中文手语翻译方法。
本发明提供的基于深度传感器的中文手语翻译方法,其方法如下所述:
步骤一、手部形态信息及运动轨迹的提取,利用彩色图像中的人体肤色提取完成精准的手部形态提取;
步骤二、动态手语识别,将动态手语分为两类,一类为含有标志静态手型的动态手势,一类为完全由手部运动轨迹决定其语义的动态手势,第一类主要通过对标准静态手型的识别及标志静态手型出现的顺序作为此类手型识别结果的依据;第二类动态手型则是收集某段时间特征关节坐标变化的信息,从而推断出动态手语轨迹,后利用轨迹信息与标准动态手型轨迹进行对比判断,则可得出匹配结果;
步骤三、手部识别算法的实现;对于静态手语的识别主要通过hu矩、手部凸包的相应算法提取手部特征,再利用有限状态机及动态时间规整算法实现手语识别;
步骤四、手语标准库的设计,在构建标准库时收入多用户,多测试角度的静态手型,进而方便静态手型识别被推广至更多的使用场合。
本发明的工作原理:
首先通过深度传感器得到深度图像、彩色图像和骨骼图像,在深度图像和骨骼图像基础上利用手部分割算法进行手掌骨截取,得到手部的深度图像。但是由于服饰等非手部因素影响,故再加入肤色识别、手部滤波等完成精准的手部形态提取,后将手型图二值化,采用边缘检测算法获得手部轮廓信息;然后利用hu矩、手部凸包等方法提取手部特征,最后利用有限状态机及动态时间规整算法完成手语的识别。
本发明的有益效果:
本发明基于深度图像进行中文手语翻译方法,利用深度摄像头捕捉手的动作并进行翻译,通过文字或语音的形式显现出来,它增强了用户的趣味性和便利性,更为重要的是该发明主要是站在一些具有听力障碍的人群的角度而提出的,进而才在一些其它的场合得以应用。
附图说明
图1为本发明所述方法流程示意图。
图2为本发明所述手部形态信息提取示意图。
图3为本发明所述手语识别流程示意图。
图4为本发明所述hog特征算法流程图。
具体实施方式
请参阅图1至图4所示:
本发明基于深度图像进行中文手语翻译方法,其方法如下所述:
步骤一、手部运动轨迹可以通过识别手掌关节相对于脊椎中部骨骼关节的矢量变化,协同判断其变化速度是否大于设定阈值来判断是否开始提取轨迹。
提取到的手型区域受到环境背景噪声的影响,所以需要利用彩色图像中的人体肤色提取完成精准的手部形态提取。
步骤二、动态手语识别,必须对手部特征进行提取即对手势的图形特征的提取。图像特征可为几何特征、纹理特征、灰度特征等,选取四种常见的静态手势识别算法提取图像特征信息,并对四种方式所得到的识别结果进行对比,从而得到最优的动态手势识别效果,具体方式如下:
方式1、hu矩:
在图像处理中,经常利用矩方法得到图像的灰度密度分布特征,从而完成图像的特征提取。且该特征提取方法的时间复杂度和空间复杂度都较低,故简单的静态手势图像考虑选择较为成熟的矩特征作为首选特征提取方式[11]。在以像素为单元的离散图像中,定义为图像函数,其阶几何矩和中心距分别为:
其中
利用二阶和三阶归一化中心距的方式,hu推导出了7个不变矩m1-m7,其具有旋转,缩放和平移不变的特性。
m1=η20+η02
m2=(η20-η02)2+4η112
m3=(η30-3η12)2+(3η21-η03)2
m4=(η30+η12)2+(η21+η03)2
m5=(η30-3η12)(η30+η12)((η30+η12)2-3(η21+η03)2)
+(3η21-η03)(η21+η03)(3(η30+η12)2-(η21+η03)2)
m6=(η20-η02)(η30+η12)2-(η21+η03)2)
+4η11(η30+η12)(η21+η03)
m7=(3η21-η03)(η30+η12)((η30+η12)2-3(η21+η03)2)
-(η30-3η12)(η21+η03)(3(η30+η12)2-(η21+η03)2)
具体如表1所示:
表.1手势数字1,2,3,4,5手型样本hu矩的特征值:
从上表可观察出,虽然同一手型模板的不同样本之间hu矩数字有一定波动,但每一个模板仍然存在独有的数据特征,例如,数字3的m5和m6均为负数,这与其他数字模板不同等,而这也从侧面证实了利用hu矩完成手势识别的可行性。再利用hu矩特征对静态手势轮廓进行特征提取的过程中也可以发现,由于仅存在外型外围轮廓的hu特征,不变矩的数值普遍较小,并对手型的变化较为灵敏,故不利于手型模板的扩充和多用户手势识别的支持。使用hu矩作为特征量进行手势识别,计算速度快,但识别速率较低。其所使用的低阶矩,未能充分描述手型细节,经测量其识别率大约为50%。
方式2、手部凸包:
利用手部凸包和凸缺陷提取手指形态信息,并利用凸包面积、凸缺陷角等特征找出对应的手型模板。其中,利用凸缺陷角度测得手指形态的三点检测法较为常用。经过多次测试,可得手指角度阈值的经验角为45゜。因为指尖夹角不会随着手形图像的旋转而改变,此算法在识别简单手型时稳定性较强,识别率可达70%。但由于其提取的仅为图像的指尖信心,故在手型图像较为复杂时,需根据具体手型寻找新的特征夹角,从而影响手型数据库的扩充。
方式3、轮廓与掌心距离特征:
手部轮廓情况不仅可以通过图像矩的方式统一表示,还可以选取轮廓到图像质心的距离变化来表征,即相同静态手形轮廓到掌心的距离变化符合特定的波形规律。为了更好地对比手形,对手势的边缘进行间隔取样500个像素点,并且对每个图像的边缘到中心的距离减去其该图像中边缘到掌心距离的最小值。沿着得到的图像最低处,通过引入freeman链码,沿着一定方向得到每一个手势边缘点到掌心的欧几里德距离。
方式4、方向梯度直方图特征:
方向梯度直方图(histogramoforientedgradient,hog)特征通过统计图像局部梯度或边缘方向密度分布来获得该区域图像形状纹理信息,并利用插值法将局部信息梯度方向直方图信息转化为图像的高维描述子向量,进而表征图像几何特征信息。
步骤三、手语识别算法实现选取动态规划,动态时间规整(dtw)有限状态机为主要识别方式。
步骤四、手语标准库建立,考虑到用户个体差异,在构建标准库时应收入多用户,多测试角度的静态手型,进而方便静态手型识别被推广至更多的使用场合。多次提取用户关节特征,并利用dtw算法后的模板之间匹配所得的规整路径。若最终计算获得的累加距离小于设定阈值,及默认两模板匹配,则将规整路径上的顾各关节图像按照累加平均的方式获得更新后的骨骼坐标值。