基于双路分割的MA-YOLO动态手势快速识别方法与流程

文档序号:24238502发布日期:2021-03-12 13:12阅读:296来源:国知局
基于双路分割的MA-YOLO动态手势快速识别方法与流程

本发明属于图像处理领域,具体设计一种基于双路分割的ma-yolo动态手势快速识别方法。



背景技术:

随着科学技术的发展,计算机已经渗透到平民百姓生活之中,且在各个领域发挥日愈重要的作用。当前科学研究领域越发重视与计算机的互动交流。近年来虚拟现实技术快速发展,极大地提高了人类的研究热情。现有研究主要集中在识别面部表情、嘴部、检测头部方向、跟踪视线、识别手势以及定位技术、解释人体姿势等方面。在科学领域、日常生活中普遍应用到各种手势,当前手势识别已经成为重点研究课题。与此同时,学术界结合研究目标,引入各类科学技术进行处理。手势作为普遍存在的交流方式,具有直观、自然等属性特点。因此,手势识别作为关键技术在人与计算机交流互动中充分发挥作用。

然而由于手本身是复杂的人体部位,其存在空间位置差异性及多样性、复杂性的特点,加之人体本身的不适应性。而且在手势识别过程中,现有的手势识别技术受外部环境、背景等因素影响较大,缺少降低手势识别中外部因素对识别过程的影响的办法,这是手势识别的一大瓶颈。同时,现有的手势识别技术在识别过程中耗费的时间过多,没有办法实时的完成手势指令的实施,然而无法实时的完成指令实施,手势识别对现实日常生活的作用就降低了很多,无法满足日常生活中的使用。

因此,我们需要一种新的手势识别方法以实现在复杂环境下的动态手势快速识别。



技术实现要素:

本发明要解决的技术问题是提供一种新的基于双路分割的ma-yolo动态手势快速识别方法,可实现复杂背景下的动态手势快速识别。

本发明的目的是这样实现的:

一种基于双路分割的ma-yolo动态手势快速识别方法,包括如下步骤:

步骤1:利用rgb、tof摄像头采集目标的rgbd信息,通过肤色分割和动态阈值法来处理rgb信息和深度信息,将两路信息融合得到最终分割图像;

步骤2:构建ma-yolo网络模型:将分割后的图像进行分类信息以及检测框的标注,再将图像输入改进的ma-yolo网络中进行训练,通过梯度下降等方法调整迭代过程中的参数值,最终获得训练完毕的ma-yolo网络模型;

步骤3:将视频流截取图片先根据rgbd信息进行手部分割,再将分割好的图片送入训练好的模型中进行检测,输出检测后手部位置以及手势类型的分类信息,将分类信息传递给云端,再从云端传入终端,从而实现手势指令对信息设备、系统的控制

本发明还包括这样一些特征:

所述步骤一具体为:

步骤1.1:取得彩色图像后在hsv颜色空间与ycbcr颜色空间分别进行肤色阈值分割,取并集的肤色分割图;

步骤1.2:取得深度图像后求取前景背景最大方差,然后进行最佳阈值分割,得到深度信息分割图;

步骤1.3:将取得的肤色分割图与深度信息分割图取并集得到最终的分割图像;

所述步骤二中ma-yolo模型包括:resnet-34网络、aspp模块和注意力机制;输入图像进入主干网络进行特征提取,将不同层次的特征图输出后分别进入一个aspp模块来增加感受野以解决尺度变化的问题,将低级特征与高级特征融合以获得更多的图像信息,然后进入一个通道注意力模块来提升手势识别精度,最后将处理好的特征送入检测模块获得最终结果。

述resnet-34网络作为特征提取网络,网络中不同颜色的方块代表不同部分,网络分为四个部分每个部分输出特征图尺寸是上一个部分的1/2,每一个小的方块代表一个残差块,网络使用的卷积核大小都为3*3并且同一部分的通道数相同,分别为64,128,256,512;

所述步骤1.1具体为:

hsv具体计算公式如下:

固定阈值来对肤色进行界定:

其中,公式1、公式2中hsv分别代表色调、饱和度、亮度,r、g、b代表红、绿、蓝三个通道的颜色;

由此,得到图像i转换到hsv颜色空间进行肤色分割的图像;

ycbcr受不同人种的不同肤色区别不大,ycbcr可由rgb颜色数值进行线性变换计算得来,颜色空间计算公式如下:

利用人的肤色在ycbcr颜色空间中的分布,可以设定阈值有效地对肤色区域进行定位:

其中,公式3、公式4中,ycbcr,y是亮度特征(luminance)而cb和cr则为蓝色和红色的浓度偏移量成份;

所述步骤1.2具体为:

所述求取前景背景最大方差,然后进行最佳阈值分割,即图像由前景区域和背景区域两部分组成,计算不同阈值下前景区域和背景区域的灰度直方图,当方差达到最大时,对应的阈值就是要求的最佳阈值,这样便通过阈值分割将背景与手部分割开。

与现有技术相比,本发明的有益效果是:

ma-yolo的动态手势快速识别方法提出ma-yolo算法,将yolo主干网络换为更轻量的resnet-34网络(残差网络)进行特征提取,加入了aspp模块(多路膨胀卷积)来改变感受野,同时也加入了注意力机制,可更好的进行自主学习,同时提出基于双路分割的复杂环境手势识别技术,可通过双路分割结合深度信息分割图与肤色分割图实现复杂环境下的手势识别。本发明相比于前人的基础方法精度提高了5.4%,识别速度降低到了50ms以下。

附图说明

图1为根据本发明实施方案示出的多尺度注意力yolo总体网络框架图即ma-yolo总体网络架构图;

图2为根据本发明实施方案示出的一种基于双路分割的ma-yolo动态手势快速识别方法的总体流程图;

图3为根据本发明实施方案示出的aspp模块图;

图4为根据本发明实施方案示出的注意力机制流程图;

图5为根据本发明实施方案示出的双路分割流程图;

图6为根据本发明实施方案示出的手势视频获取流程图;

图7为根据本发明实施方案示出的终端图像处理系统框图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述。

本发明通过创建一个新的ma-yolo网络,同时,创建了一个新的手部图像分割方法,加快了手势识别的速度,也解决了复杂背景下识别精度低的问题。

为实现上述目的,本发明的技术方案为一种基于双路分割的ma-yolo动态手势快速识别方法,包括以下步骤:

一种基于双路分割的ma-yolo动态手势快速识别方法,其特征在于,所述方法包括:

步骤1:将获取的rgb(r、g、b即是代表红、绿、蓝三个通道的颜色)信息与深度信息进行处理分割;

步骤2:将分割后的手部图像数据输入到训练好的ma-yolo网络模型中;

步骤3:将分割好的图片送入训练好的模型中在终端或云端进行检测,得出指令信息。

一种基于双路分割的复杂环境手势识别技术,其特征在于,所述方法包括:

步骤1:取得彩色图像后在hsv(hsv分别代表hue(色调)、saturation(饱和度)、value(亮度))颜色空间与ycbcr(ycbcr,y是亮度特征(luminance)而cb和cr则为蓝色和红色的浓度偏移量成份)颜色空间分别进行肤色阈值分割,取并集的肤色分割图;

步骤2:取得深度图像后求取前景背景最大方差,然后进行最佳阈值分割,得到深度信息分割图;

步骤3:将取得的肤色分割图与深度信息分割图取并集得到最终的分割图像。

优选地,所述将获取的rgb信息与深度信息进行处理分割之前所述方法还包括:

预先构建ma-yolo网络模型,将分割后的图像进行分类信息以及检测框的标注,再将图像输入改进的轻量化yolo网络中进行训练,通过梯度下降等方法调整迭代过程中的参数值,最终获得训练完毕的模型。

优选地,所述ma-yolo模型包括:resnet-34网络(残差网络)、aspp(多路膨胀卷积)模块和注意力机制;

输入图像进入主干网络进行特征提取,将不同层次的特征图输出后分别进入一个aspp模块来增加感受野以解决尺度变化的问题,将低级特征与高级特征融合以获得更多的图像信息。然后进入一个通道注意力模块来提升手势识别精度。最后将处理好的特征送入检测模块获得最终结果。

优选地,所述的resnet-34网络作为特征提取网络。

网络中不同颜色的方块代表不同部分,网络分为四个部分每个部分输出特征图尺寸是上一个部分的1/2。每一个小的方块代表一个残差块。网络使用的卷积核大小都为3*3并且同一部分的通道数相同,分别为64,128,256,512。

优选地,所述取得彩色图像后在hsv颜色空间与ycbcr颜色空间分别进行肤色阈值分割,取并集的肤色分割图还包括如下子步骤:

1.对于基于肤色的hsv,hsv具体计算公式如下:

我们设定了常用的固定阈值来对肤色进行界定:

其中,公式1、公式2中hsv分别代表hue(色调)、saturation(饱和度)、value(亮度)。r、g、b即是代表红、绿、蓝三个通道的颜色。

由此,得到图像i转换到hsv颜色空间进行肤色分割的图像。

2.ycbcr受不同人种的不同肤色区别不大,ycbcr可由rgb颜色数值进行线性变换

计算得来,颜色空间计算公式如下:

利用人的肤色在ycbcr颜色空间中的分布,可以设定阈值有效地对肤色区域进行定位:

其中,公式3、公式4中,ycbcr,y是亮度特征(luminance)而cb和cr则为蓝色和红色的浓度偏移量成份。

优选地,所述取得深度图像后求取前景背景最大方差,然后进行最佳阈值分割,得到深度信息分割图还包括如下子步骤:

所述求取前景背景最大方差,然后进行最佳阈值分割,即图像由前景区域和背景区域两部分组成,计算不同阈值下前景区域和背景区域的灰度直方图,当方差达到最大时,对应的阈值就是要求的最佳阈值,这样便通过阈值分割将背景与手部分割开。

如图1所述,图1为根据本发明实施方案示出的多尺度注意力yolo总体网络框架图即ma-yolo总体网络架构图,如图2所述,图2为据本发明实施方案示出的一种基于双路分割的ma-yolo动态手势快速识别方法的总体流程图,包括以下步骤:

将获取的图像rgb-d信息(彩色与深度信息)进行图像预处理;

通过肤色分割和动态阈值法来处理rgb信息和深度信息;

将肤色分割图与深度信息分割图融合得到精确的手势分割图从而减弱复杂背景下的影响;

将分割后的图像进行分类信息以及检测框的标注;

ma-yolo的主干网络为resnet-34网络,并且加入aspp模块与注意力机制模块;

将图像输入改进的轻量化yolo网络中进行训练;

通过梯度下降等方法调整迭代过程中的参数值,最终获得训练完毕的模型;

检测阶段将视频流先根据rgbd信息进行手部分割,再将分割好的图片送入训练好的模型中进行检测,输出检测后手部位置以及手势类型的分类信息,将分类信息传递给云端,再从云端传入终端,从而实现手势指令对信息设备、系统的控制。

ma-yolo算法的主干网络使用的是resnet-34,并加入了aspp模块与注意力机制模块,最终的检测部分使用的是yolov4的检测部分检测网络包括24个卷积层和2个全连接层,其中卷积层用来提取图像特征,全连接层用来预测图像位置和类别概率值。而原网络结构复杂。为了解决识别时出现的尺度问题,本文使用多路膨胀卷积aspp模块来改变感受野。同时为了达到快速识别的目的,使用更轻量的resnet-34网络提取特征。图像通过主干网络之后通过aspp模块解决尺度变化的问题,再通过注意力机制来提高识别精度,最终将处理好的特征送入检测模块得到最终的结果。

resnet-34网络作为特征提取网络,因深层网络在训练时会产生梯度消失,而残差网络可以很好的解决这一问题。网络中不同颜色的方块代表不同部分,网络分为四个部分,每个部分输出特征图尺寸是上一个部分的1/2。每一个小的方块代表一个残差块。网络使用的卷积核大小都为3*3并且同一部分的通道数相同。

为解决多尺度识别问题,本发明加入了aspp模块,使用三路膨胀卷积,分别设置不同的膨胀率来进一步优化特征,增加了感受野,解决尺度变化问题。膨胀卷积(atrousconvolution)即一个卷积核中,相邻两个元素之间存在间隔,间隙中存在几个空白的元素,权重为0,不对图像做卷积。假如一个3×3的卷积,dilationrate分别为1、6、24,这三个卷积核内同样包含9个元素,对图像做9个像素点的计算,这并不额外增加计算量。dilationrate越大,扩大了卷积核的视野范围,dilationrate=1时就是常用的标准卷积核多种dilationrate的卷积核能够捕捉多种尺度下的物体特征。其计算卷积核大小公式为:

knew=r(kold-1)+1(9)

其中公式5中knew为膨胀卷积大小,kold为标准卷积大小,r为膨胀率。

而加入注意力机制的目的就是把注意力集中放在重要的点上,而忽略其他不重要的因素。其中重要程度的判断取决于应用场景,具备注意力机制的神经网络可更好的进行自主学习。深度学习中的注意力机制从本质上讲和人类的选择性视觉注意力机制类似,核心目标也是从众多信息中选择出对当前任务目标更关键的信,该方法借鉴人的视觉的注意力机制,通过网络训练使得模型可以从众多信息中提取出对分割任务更重要的特征以提升识别结果的准确性,同时能够把有限的资源分配给更重要的任务。原因是提高识别精度,深度学习中的注意力机制从本质上讲和人类的选择性视觉注意力机制类似,核心目标也是从众多信息中选择出对当前任务目标更关键的信息,该方法借鉴人的视觉的注意力机制,通过网络训练使得模型可以从众多信息中提取出对分割任务更重要的特征以提升识别结果的准确性,同时能够把有限的资源分配给更重要的任务。

对手部图像进行双路分割即将深度图像分割图与肤色分割图取并集来取得最佳手部分割图像。深度图像分割图采用最佳阈值分割法,即假设图像由前景区域和背景区域两部分组成,计算不同阈值下前景区域和背景区域的灰度直方图,当方差达到最大时,对应的阈值就是要求的最佳阈值。

假设一幅图像具有n个像素点,图像的灰度总级为l,pi表示灰度级为i的像素点出现的概率。对任意灰度值t(1≤t≤l),可按照t将图像的灰度级分为两类,c0={1,2,3,…,t},c1={t+1,t+2,…,l},c0所占比例为w0,灰度均值为u0,c1所占比例为w1,灰度均值为u1,则整幅图像的灰度均值为u=w0×u0+w1×u1,建立目标函数:

g(t)=w0×(u0-u)2+w1×(u1-u)2(10)

公式6是阈值为t时的前景背景部分方差表达式,当g(t)取值为最大值时,对应的t为最佳阈值。这样便通过阈值分割将背景与手部分割开。

然而仅仅依靠深度图像分割图不是很准确,所以本发明还加入了肤色分割图。本发明提出在hsv空间与ycbcr空间分别进行分割,之后再进行联合,得到肤色分割图。

其中hsv空间具体计算公式如公式1所示。而对于基于肤色的hsv,我们设定了常用的固定阈值来对肤色进行界定,如公式1所示。其中公式1、公式2中hsv分别代表hue(色调)、saturation(饱和度)、value(亮度)。rgb即是代表红、绿、蓝三个通道的颜色。

由此,得到图像i转换到hsv颜色空间进行肤色分割的图像。ycbcr空间具体计算过程如公式3所示。

利用人的肤色在ycbcr颜色空间中的分布,可以设定阈值有效地对肤色区域进行定位,其中,公式3、公式4中,ycbcr,y是亮度特征(luminance)而cb和cr则为蓝色和红色的浓度偏移量成份。

由此,得到ycbcr颜色空间进行肤色分割的图像。后再将几者取并集就可以得到最终的分割图像。

对以上的步骤作总结:利用rgb、tof摄像头采集目标的rgbd信息,通过肤色分割和动态阈值法来处理rgb信息和深度信息,将两路信息融合得到精确的手势分割图从而减弱复杂背景下的影响。训练阶段,将分割后的图像进行分类信息以及检测框的标注,再将图像输入改进的ma-yolo网络中进行训练,通过梯度下降等方法调整迭代过程中的参数值,最终获得训练完毕的模型。检测识别阶段,将视频流截取图片先根据rgbd信息进行手部分割,再将分割好的图片送入训练好的模型中进行检测,输出检测后手部位置以及手势类型的分类信息,将分类信息传递给云端,再从云端传入终端,从而实现手势指令对信息设备、系统的控制。

本发明公开了一种基于双路分割ma-yolo的动态手势快速识别方法,所述方法包括:101、提出ma-yolo算法,将yolo主干网络换为更轻量的resnet-34网络(残差网络)进行特征提取,加入了aspp模块(多路膨胀卷积)来改变感受野,同时也加入了注意力机制,可更好的进行自主学习;102、提出基于双路分割的复杂环境手势识别技术,可通过双路分割结合深度信息分割图与肤色分割图实现复杂环境下的手势识别。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1