一种基于计算机视觉的快递暴力分拣识别方法与流程

文档序号:12734730阅读:668来源:国知局
一种基于计算机视觉的快递暴力分拣识别方法与流程

本发明属于计算机视觉以及模式识别技术领域,涉及一种基于计算机视觉的快递暴力分拣识别方法。



背景技术:

随着电子商务、网络购物等新型服务业对快递服务的需求不断增加,我国快递行业呈现出高速发展的态势,快递已经成为联系亿万商家和广大人民群众的民生服务,在推动流通方式转型、促进消费升级中发挥着越来越重要的作用。与前几年相比,我国快递行业的服务质量以及分拣效率在不断提高,但“暴力分拣”等行业顽疾依然层出不穷。打开必应或者百度搜索,与暴力分拣相关的网页达到了数十万条,扔摔踩抛踢等“暴力分拣”乱象不仅损害了消费者和电商的利益,而且也有损快递企业自身的竞争力以及快递业声誉。

视觉摄像机具有覆盖范围大、信息丰富、对环境和用户透明、非侵入的优点,随着硬件水平的不断提高,其成本也在逐步降低。在安全监控、智能交通以及环境检测等领域,摄像机及其网络得到了越来越广泛的应用。为规范分拣操作过程,目前绝大部分的快递企业在分拣场所都安装了摄像机系统,并主要依靠人工对视频图像进行辨别和监视以检测是否存在着暴力分拣等行为。然而,单纯依靠人对大量的视频数据进行分析不仅需要大量的人力物力,而且人工很难长时间对大量的视频图像进行实时监控,从而造成报警准确度低、漏报率和误报率高、报警周期长、视频数据难分析等弊端。

为了克服人工辨别与检测的弊端,实现对快递暴力分拣行为的自动、智能识别,尚淑玲在文献《尚淑玲,基于计算机视觉的物流暴力分拣行为识别[J],计算机仿真,2013,30(12):430-433.》中提出了一种基于计算机视觉的方法,该方法利用小波包分析方法,对采集的物流分拣图像行为特征进行提取,从而为物流暴力分拣识别提供相似性判断基础,当待分类图片和暴力分拣图片特征的欧式距离小于指定的阈值时,则判断该图片中存在暴力分拣行为。然而,该方法仅仅对单张图片进行判断,提取的特征也没有利用到连续的视频帧,而暴力分拣动作是由连续的帧构成的一段运动,因此该方法存在着明显的局限性。

快递暴力分拣动作是人体运动的一种特殊形式,基于计算机视觉的快递暴力分拣识别属于机器视觉人体运动分析领域,包含人体检测、目标分类和跟踪、动作识别和高层行为理解等内容。事实上,基于计算机的人体运动分析一直是计算机视觉领域中最活跃的研究主题之一,基于视觉的快递暴力分拣识别的核心问题是如何利用计算机视觉技术对操作人员的分拣图像序列进行分析,识别出人的动作,通过连续的跟踪并结合上下文环境对其分拣行为的规范性进行推理和描述。根据文献《Moeslund T B,Hilton A,Krüger V.A survey of advances in vision-based human motion capture and analysis[J].Computer vision and image understanding,2006,104(2):90-126.》,人体动作行为识别可以从总体上分为特征提取和分类识别两个过程。特征提取是在视频数据中提取能够表征视频内容关键信息的特征,在提取了区分性特征后,则可以采用SVM、随机森林等分类学习算法建立识别模型,并对新数据中的人体行为类别进行标记。

传统特征提取方法一般是通过人工设计出能够表征动作内容的区分性特征及其提取方法,其受限于人工提取特征表达能力不足以及浅层学习算法泛化能力不足。深度网络可以无监督地从低层次的特征中学习出特征之间的层次关系,从而得到高层次的特征,这种学习方式符合人类感知世界的机理。由于深度学习能够有效解决传统浅层结构机器学习存在的数据表示缺乏判别能力和有效语义等问题,因此,已经成为当前的研究热点。目前,研究者已经提出了一些基于深度学习的人体行为识别方法,根据所采用的深度学习技术的不同,可以分为基于卷积神经网络CNN的人体行为识别、基于自动编码器(AutoEncoder)的人体行为识别、基于深度置信网(DBF)的人体行为识别以及基于递归神经网络(RNN)的人体行为识别。

尽管基于深度学习的人体行为识别已经取得了一定的进展,然而,基于二维视频的人体行为识别依然面临着诸多的挑战,包括类间和类内数据的差异以及场景变化等,这主要是由于人本身是一个复杂的非刚性物体,人体动作识别受到人体外表、姿势、动作、衣着的个体差异、视角变化和摄像机运动、光照变化、遮挡和复杂背景的影响,而二维视频得到的只是三维空间的一个投影,这给底层的动作识别造成很大的困难,很难满足实际复杂场景中快递暴力分拣识别的需要。

综上所述,已有的基于计算机视觉的人体行为识别方法很难满足快递暴力分拣识别的需要。



技术实现要素:

本发明目的在于针对上述现有技术的不足,提出了一种基于深度摄像机和递归神经网络的快递暴力分拣识别方法,该方法通过深度摄像机直接估计分拣操作人员的人体三维姿态,然后进一步提取人体三维姿态的相对时空特征,最后通过递归神经网络对提取的相对时空特征进行学习并得到暴力分拣行为识别分类模型。基于该分类模型,可以有效实现对固定分拣场所内快递暴力分拣行为进行自动、实时、准确地识别。

本发明为解决上述技术问题所采取的技术方案是一种基于计算机视觉的快递暴力分拣识别方法,包括如下步骤:

步骤1:基于深度摄像机的姿态估计:采用深度摄像机直接估计快递操作人员的人体三维姿态,并把人体姿势估计问题转换为对深度摄像机捕获到的深度图像像素进行分类的问题,通过使用随机森林的方法得到人体姿态估计;

步骤2:人体三维姿态相对时空特征的提取:三维姿态中关节形成的点、线、面几何元素集合是不同动作模式对应的局部区域的最小构成单元,提取三维姿态中关节形成的点、线、面几何元素之间的相对空间位置及其变化的度量作为姿态的特征表示,通过不同局部区域包含的不同类型特征的权重组合,来表达广泛的姿态模式;

步骤3:基于递归神经网络的暴力分拣识别:随着时间连续变化的姿态形成运动,分拣操作行为具有时间特性,通过LSTM型递归神经网络,对从时间连续的人体三维姿态中提取的相对时空特征进行建模训练,从而实现对快递暴力分拣行为的识别。

进一步,上述步骤1的基于深度摄像机的姿态估计具体包括以下步骤:

1)训练数据生成:使用运动捕捉技术采集高精度快递操作动作数据,将其加入到运动捕获数据库,然后对人体三维姿态集采用最大距离聚类分析方法,以剔除相似的冗余数据,最后,使用标准计算机图形学技术人工合成训练用的深度图像;

2)人体部位标签定义:定义若干个人体部位标签,使它们可以稠密地覆盖整个身体,把深度图像与人体部位标签图绑定为一个数据对作为训练数据;

3)深度图像特征提取:对于每个深度图像中的像素点,提取具有平移不变性的深度比较特征;

4)随机决策森林构建:采用最大信息增益构建决策树,每棵决策树都在一个不同的随机合成图像集上训练,随机决策森林是由若干棵决策树所组成,每棵决策树都有若干个分支节点和叶子节点,每个分支节点都由一个特征和一个阈值组成;

5)图像像素分类:对图像中的每个像素进行分类,从决策树根节点开始,根据特征值与阈值的比较结果往左或者往右分支,最终到达的决策树的叶子节点决定了该节点所属于的身体部位标签,对每个训练集上生成的决策树求平均值作为每个像素最终的所属身体部位标签;

6)人体骨骼节点位置估计:根据每个像素所属于的身体部位标签的位置,使用均值漂移方法估计身体部位的密度,取最大密度的中心作为人体骨骼关节位置。

进一步,上述步骤2的人体三维姿态相对时空特征的提取,具体包括以下步骤:

1)定义三维人体关节模型,选择其中最重要的若干个关节作为三维姿态表示;

2)构建几何元素集合,选择的关节构成了几何元素集合中的点集,点集中任意2点形成直线,任意3点则构成平面;

3)提取每个三维姿态相对空间特征,包括关节对距离特征、关节与骨骼距离特征、关节与平面距离特征、骨骼对夹角特征、骨骼与平面夹角特征、平面与平面夹角特征、关节旋转特征;

4)提取每个三维姿态相对时间特征,包括关节角速度与加速度特征。

进一步,上述步骤3的基于递归神经网络的暴力分拣识别,具体包括以下步骤:

1)LSTM网络结构设计:LSTM暴力分拣识别模型的输入是连续地从人体三维姿态提取的相对时空特征,用<x1,x2,......,xT>表示,其中T表示连续输入的人体三维姿态数,xi表示从姿态i中提取的相对时空特征向量,LSTM暴力分拣模型的输出为<y1,y2,......,yT>,其中yi表示姿态i属于各个暴力分拣动作类别的概率向量,LSTM网络采用单层设计,共包含了若干个LSTM单元,LSTM单元的输出除了接入下一个时间LSTM网络外,还接入SoftMax层,SoftMax层的输出为该姿态属于各个暴力分拣动作类别的概率,SoftMax层后面接入的是Loss层,用来计算系统预测的类别和人工标记的类别的误差损失;

2)训练数据生成:对于深度摄像机收集的暴力分拣行为数据,采用人工标定的方法标定出每个暴力分拣行为所属于的类别,开始位置和结束位置;

3)LSTM模型训练:对于输入的连续的人体三维姿态相对时空特征,采用滑动窗口机制,从第一帧开始,连续取固定数量的帧作为一个样本输入到LSTM网络,采用主流的深度学习框架并适用梯度下降法对LSTM网络进行训练,待算法收敛后,保存该模型作为基于相对时空特征的LSTM暴力分拣识别模型。为提高识别准确率,对输入的样本,将当前帧的人体三维姿态的相对时空特征减去上一帧的相对时空特征。连续人体三维姿态对应的相对时空特征差值构成了另外一个样本集,在一个新的LSTM网络上训练,直到收敛,保存学习模型,作为基于相对时空特征差值的LSTM暴力分拣识别模型。

4)暴力分拣识别:对于分拣操作,采用步骤1获得姿态估计,采用步骤2提取相对时空特征,并进一步计算连续人体三维姿态对应的相对时空特征差值,采用滑动窗口机制,从第一帧开始,每隔所述固定数量的帧作为一个样本,在两个LSTM暴力分拣模型上分别进行识别,得到每个姿态属于每个暴力分拣动作类别的概率,取其加权的平均值,如果概率超过了一定的阈值,则判断该姿态为暴力分拣动作并给出其类别。

与现有技术相比,本发明的有益效果:

1、本发明采用深度摄像机直接估计快递操作人员的人体三维姿态,深度摄像机能够得到视野范围内的深度信息,相比于普通的摄像机,其识别结果受到颜色和纹理变化影响小,并能够有效解决姿势的轮廓模糊问题。此外,深度摄像机的价格也已大幅降低,有利于快递企业的大规模部署;

2、本发明采用相对时空特征作为人体三维姿态描述,该特征描述提取姿态中关节形成的点、线、面几何元素之间的相对空间位置及其变化的度量作为动作内容表示。关节形成的点、线、面几何元素集合是不同动作模式对应的局部区域的最小构成单元,而点、线、面几何元素之间的角度与距离等度量从不同方面反映了最小构成单元之间的相对空间位置关系,通过不同局部区域包含的不同类型特征的权重组合能够表达广泛的动作模式。

3、本发明采用LSTM递归神经网络构建暴力分拣识别模型,一方面递归神经网络属于深度模型,相比于Boost、SVM等浅层的分类器,具有更好的泛化性能,另一方面,递归神经网络在决策的过程中同时考虑了前面的若干连续状态,更符合包含暴力分拣动作的人体运动的时间特性,而本发明采用的LSTM递归神经网络模型则能够有效的解决普通递归神经网络的梯度消失问题,能够获得更好的识别效果。

附图说明

图1为本发明的方法流程图。

图2为本发明使用的一种深度摄像机示意图。

图3为本发明姿态估计中生成的训练样本及其身体部位标注示意图。

图4为本发明通过姿态估计获得的人体骨骼节点位置示意图。

图5为本发明使用的相对时空特征示意图。

图6为本发明使用的长短时记忆LSTM单元结构示意图。

图7为本发明设计的长短时记忆LSTM递归神经网络结构示意图。

具体实施方式

下面结合说明书附图对本发明创造作进一步的详细说明。

如图1所示,本发明提供了一种基于计算机视觉的快递暴力分拣识别方法,该方法包括如下步骤:

步骤1:基于深度摄像机的姿态估计:深度图像中的像素记录了场景的校准深度,而不是场景强度或颜色的值,深度摄像机较传统强度传感器具有工作光强水平低,受到颜色和纹理变化影响小的优势,并解决了姿势的轮廓模糊问题。深度图像技术在过去的几年中有了极大的发展,随着Kinect的发布最终成为了价格低廉产品,深度摄像机Kinect示意图如图2所示。本发明采用文献《Shotton J,Sharp T,Kipman A,et al.Real-time human pose recognition in parts from single depth images[J].Communications of the ACM,2013,56(1):116-124.》中的方法对深度摄像机获取的图片直接估计快递操作人员的人体三维姿态,其本质是把人体姿势估计问题转换为对深度摄像机捕获到的深度图像像素进行分类的问题,通过使用随机森林的方法得到人体姿态估计,具体步骤如下:

1)训练数据生成:使用运动捕捉技术采集高精度快递操作动作数据,将其加入到运动捕获数据库。然后对人体三维姿态集采用最大距离聚类分析方法,当两个人体三维姿态之间的距离小于预定的阈值时,就剔除相似的冗余三维姿态数据。最后,使用标准计算机图形学技术,从纹理映射到三维网格渲染,人工合成训练用的深度图像。图3为本发明姿态估计中生成的训练样本及其身体部位标注示意图,其中每对姿态的第一个姿态为渲染的深度图片。

2)人体部位标签定义:定义31个人体部位标签,使它们可以稠密地覆盖整个身体,把深度图像与人体部位标签图绑定为一个数据对作为训练数据。图3为本发明姿态估计中生成的训练样本及其身体部位标注示意图,其中每对姿态的第二个图片为标注的人体部位。

3)深度图像特征提取:采用文献《Lepetit V,Lagger P,Fua P.Randomized trees for real-time keypoint recognition[C]//2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR'05).IEEE,2005,2:775-781.》中的方法,对于每个深度图像中的像素点,提取具有平移不变性的深度比较特征,计算公式如下,其中,dI(x)是图像I在像素x处的深度,参数θ=(u,v)描述了偏移u和v,

4)随机决策森林构建:采用最大信息增益构建决策树,每棵决策树都在一个不同的随机合成图像集上训练。随机决策森林是由若干棵决策树所组成,每棵决策树都有若干个分支节点和叶子节点,每个分支节点都由一个特征和一个阈值组成。决策树的训练过程如下:

a)随机给出一个分支候选集合其中θ为特征参数,τ为阈值;

b)使用每个将样本集Q={(I,x)}分成左子集和右子集其中fθ(I,x)为图像I在像素x的特征值;

c)通过求解最大信息增益问题确定即的计算公式如下,其中H(Q)为香农熵,在所有(I,x)∈Q身体部位标签上计算,

d)如果最大增益仍然大于指定的阈值,并且树的深度没有达到最大值,则在左右子集和中继续递归,直到深度达到最大值,或者信息最大增益小于指定的阈值。

5)图像像素分类:对图像中的每个像素进行分类,从决策树根节点开始,根据特征值与阈值的比较结果往左或者往右分支,最终到达的决策树的叶子节点决定了该节点所属于的身体部位标签。对每个训练集上生成的决策树求平均值作为每个像素最终的所属身体部位标签。

6)人体骨骼节点位置估计:根据每个像素所属于的身体部位标签的位置,使用均值漂移方法估计身体部位的密度,取最大密度的中心作为人体骨骼关节位置。图4给出了本发明通过姿态估计获得的人体骨骼节点位置示意图。

步骤2:人体三维姿态相对时空特征提取:三维姿态中关节形成的点、线、面几何元素集合是不同动作模式对应的局部区域的最小构成单元。本发明提取三维姿态中关节形成的点、线、面几何元素之间的相对空间位置及其变化的度量作为姿态的特征表示,通过不同局部区域包含的不同类型特征的权重组合,来表达广泛的姿态模式。对于步骤1获取的每个人体三维姿态,其相对时空特征提取具体步骤如下:

1)定义三维人体关节模型,选择其中最重要的若干个关节作为三维姿态表示;

2)构建几何元素集合,选择的关节构成了几何元素集合中的点集,点集中任意2点形成直线,任意3点则构成平面;

3)提取每个三维姿态相对空间特征,包括关节对距离特征、关节与骨骼距离特征、关节与平面距离特征、骨骼对夹角特征、骨骼与平面夹角特征、平面与平面夹角特征、关节旋转特征。提取的三维姿态相对空间特征如图5所示,具体计算过程如下;

a)关节对距离特征Fj,j,d,本发明使用欧氏距离计算几何元素集合中关节对之间的距离,设姿态中关节j1、j2的三维坐标分别为(x1,y1,z1)、(x2,y2,z2),则关节对之间的距离计算公式为:

b)关节与骨骼距离特征Fj,l,d,关节到骨骼的距离通过三角形面积公式来计算,设d12、d13、d23分别为关节j1、j2、j3之间的距离,p=(d12+d23+d13)/2,则关节j1与关节j2、j3形成的直线之间的距离为:

Fj,l,d=2p(p-d12)(p-d13)(p-d23)/d23

c)关节与平面距离特征Fj,p,d,关节到平面的距离通过关节和平面上任意一点形成的向量和平面法向量之间的点积求得,设n为关节j2、j3、j4形成的平面的法向量,v为关节j1、j3形成的向量,则关节j1到j2、j3、j4形成的平面的距离为:

Fj,p,d=n·v/||n||;

d)骨骼对夹角特征Fl,l,a,骨骼与骨骼的夹角通过向量点积公式来计算,若关节j1、j2形成向量va,关节j3、j4形成向量vb,则骨骼之间的夹角计算公式为:

Fl,l,a=arccos(va·vb/(||va||×||vb||));

e)骨骼与平面夹角特征Fl,p,a,骨骼与平面之间的夹角通过骨骼与平面法向量的点积公式进行计算,设n为关节j3、j4、j5形成的平面P的法向量,v为关节j1、j2形成的向量,则关节j1、j2形成的骨骼与P的夹角为:

Fl,p,a=arccos(n·v/(||n||×||v||));

f)平面与平面夹角特征Fp,p,a,平面与平面之间的夹角通过平面的法向量的点积公式进行计算,设n1为关节j1、j2、j3形成的平面P1的法向量,n2为关节j4、j5、j6形成的平面P2的法向量,则P1与P2的夹角为:

Fp,p,a=arccos(n1·n2/(||n1||×||n2||));

g)关节旋转特征Feuler,以上姿态空间特征只有一维信息,并不能反映三维的相邻关节旋转信息,本发明选用欧拉角表示相邻关节的旋转信息。

4)提取每个三维姿态相对时间特征,包括关节角速度与加速度特征。本发明采用Kim等人在文献《Kim T H,Park S I,Shin S Y.Rhythmic-motion synthesis based on motion-beat analysis[J].Acm Transactions on Graphics,2003,22(3):392-401》中提出的方法来计算关节的角速度与加速度。提取的角速度与加速度特征示意图如图5所示。假设关节j在时刻i-1和i的旋转用四元数分别表示为qj(i-1)和qj(i),采样间隔时间为△t。

a)关节j在时刻i的角速度为:

b)在计算出角速度后,加速度可以根据角速度的变化求得,即:

步骤3:基于递归神经网络的暴力分拣识别:随着时间连续变化的姿态形成运动,分拣操作行为具有时间特性。递归神经网络(Recurrent neural networks,RNN)将上几个时刻的隐含层数据作为当前时刻的输入,从而允许时间维度上的信息得以保留。长短时记忆(Long short term memory,LSTM)型RNN模型是对普通RNN模型的扩展,以解决RNN模型中的梯度消亡现象。LSTM接受上一时刻的输出结果、当前时刻的系统状态和当前系统输入,通过输入门、遗忘门和输出门更新系统状态并将最终的结果进行输出。图6给出了LSTM单元结构示意图,其中ht-1为上一时刻的隐状态,xt为当前输入,ht为当前状态的输出。本发明通过LSTM对从连续的人体三维姿态中提取的姿态相对时空特征进行建模并用于对分拣动作是否存在暴力分拣行为进行识别。基于LSTM的暴力分拣识别具体步骤如下:

1)LSTM网络结构设计:本发明构建的LSTM暴力分拣识别模型的输入是连续的从人体三维姿态提取的相对时空特征,用<x1,x2,......,xT>表示,其中T表示连续输入的人体三维姿态数,xi表示从姿态i中提取的相对时空特征向量,LSTM暴力分拣模型的输出为<y1,y2,......,yT>,其中yi表示姿态i属于各个暴力分拣动作类别的概率向量。本发明LSTM网络采用单层设计,共包含了256个LSTM单元,每个LSTM单元都包含了输入门、遗忘门和输出门,其输入为前一时刻的用256维向量表示的系统状态和从当前姿态中提取的相对时空特征向量。256个LSTM单元的输出除了接入下一个时间的LSTM网络外,还接入SoftMax层,SoftMax层的输出为该姿态属于各个暴力分拣动作的类别的概率,SoftMax层后面接入的是Loss层,用来计算系统预测的类别和人工标记的类别的误差损失。图7给出了本发明设计的LSTM递归神经网络结构。

2)训练数据生成:LSTM网络需要一定数量的样本来训练网络参数,对于深度摄像机收集的暴力分拣行为数据,采用人工标定的方法标定出每个暴力分拣行为所属于的类别、开始位置和结束位置,系统进而把开始位置和结束位置的每一帧都设置为对应的暴力分拣行为类别。

3)LSTM模型训练:对于输入的连续的人体三维姿态相对时空特征,采用滑动窗口机制,从第一帧开始,连续取16帧作为一个样本输入到LSTM网络。采用主流的深度学习框架(如Torch或者Caffe等)并采用梯度下降法对LSTM网络进行训练,采用高斯分布进行参数初始化,学习率随着学习过程逐步减少,样本重复使用进行多伦训练,待算法收敛后,保存该模型作为基于相对时空特征的LSTM暴力分拣识别模型。为提高识别准确率,对输入的样本,将当前帧的人体三维姿态的相对时空特征减去上一帧的相对时空特征,从而得到当前帧相对于上一帧相对时空特征差值。连续人体三维姿态对应的相对时空特征差值构成了另外一个样本集,在一个新的LSTM网络上训练,直到收敛,保存学习模型,作为基于相对时空特征差值的LSTM暴力分拣识别模型。

4)暴力分拣识别:对于分拣操作,采用步骤1获得姿态估计,采用步骤2提取相对时空特征,并进一步计算连续人体三维姿态对应的相对时空特征差值。采用滑动窗口机制,从第一帧开始,每隔16帧作为一个样本,在两个LSTM暴力分拣模型上分别进行识别,得到每个姿态属于每个暴力分拣动作类别的概率,取其加权的平均值,如果概率超过了一定的阈值,则判断该姿态为暴力分拣动作并给出其类别。

本发明提供了一种基于计算机视觉的快递暴力分拣识别方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1