基于合成描述子的人体动作识别方法及系统的制作方法

文档序号:8473279阅读:645来源:国知局
基于合成描述子的人体动作识别方法及系统的制作方法
【技术领域】
[0001]本发明涉及计算机视觉和视频监控领域,具体是涉及一种基于合成描述子的人体动作识别方法及系统。
【背景技术】
[0002]基于视频的人体动作识别是一个非常重要的问题,可应用于视频监控、视频检索和人机交互。人体动作识别是指用计算机从视频中区分出人体动作的类别。
[0003]基于视频的人体动作识别可以分为两个部分:动作的表示和动作的分类。动作的表示是指从包含人体动作的视频中提取合适的特征数据来描述人体的动作。动作的分类,是指从训练数据学习得到分类模型,将测试集中表示这些人体动作的特征数据进行分类。
[0004]目前的动作识别方法有全局方法和局部方法。全局方法,首先需要定位人体,然后将感兴趣区域编码为一个整体,形成特征描述子。全局表示法中一般通过背景相减方法或者人体检测器来定位人体。由于提取方法一般都是不完善的,因此侧影会包含一些噪声,并且对视角变化敏感。全局方法有全局性,该特性使其对类内变化和变形敏感。局部方法被描述为局部小块的一个集合,首先探测时空兴趣点或者得到密集采样点,然后在点的周围计算局部小块,合并成为一个描述子。局部方法对视角、噪声和部分遮挡具有某种程度的不变性,并不严格需要背景相减或人体检测。然而,他们依靠足够相关兴趣点的提取或者需要得到密集采样点,有时需要预处理。
[0005]目前最佳的动作识别方法是一种局部方法,称为结合密集轨迹的运动边界描述子,该方法提取密集轨迹,并计算运动边界描述子。但是该方法需要计算视频中全部帧的光流,运算量较大,而且该方法只包含局部信息,不包含全局信息。

【发明内容】

[0006]本发明的目的是为了克服上述【背景技术】的不足,提供一种基于合成描述子的人体动作识别方法及系统,从视频中提取三种合成描述子的局部特征和全局特征,运算量较小,能够快速识别人体动作。
[0007]本发明提供一种基于合成描述子的人体动作识别方法,包括以下步骤:
[0008]A、提取所有视频的三种合成描述子:视频分为训练视频和待识别视频,对于每一个视频,提取该视频中位于不同时间点上的信息,组合成一幅图像,得到该视频的合成描述子;合成描述子有三种:图像合成描述子、累积梯度合成描述子、光流合成描述子;在人体动作的识别过程中,使用这三种合成描述子的局部特征和全局特征来表征人体的动作,这三种合成描述子的局部特征和全局特征互为补充;
[0009]B、计算待识别视频的三种合成描述子的局部特征的支持向量机SVM分数;
[0010]C、计算待识别视频的三种合成描述子的全局特征的SVM分数;
[0011]D、根据待识别视频的三种合成描述子的局部特征的SVM分数、全局特征的SVM分数得到综合分数,再根据综合分数得到待识别视频中人体动作的识别结果。
[0012]在上述技术方案的基础上,步骤A中提取视频的图像合成描述子的过程为:对视频进行时间采样,得到16帧不同的图像;再将这16帧不同的图像依次排列成4行4列,组合成一帧图像,得到该视频的图像合成描述子。
[0013]在上述技术方案的基础上,步骤A中提取视频的累积梯度合成描述子的过程为:对视频进行时间采样,得到16个不同的图像序列片段,这16个图像序列片段中心位置的图像位于视频的16个等间隔的时间节点,每个图像序列片段由视频中相邻的8帧图像组成;对于每个图像序列片段,计算该图像序列片段中每一帧图像的梯度,累积到一帧中,得到累积梯度图像;有16个图像序列片段,共得到16帧累积梯度图像;将16帧累积梯度图像,依次排列成4行4列,组合成一帧图像,得到该视频的累积梯度合成描述子。
[0014]在上述技术方案的基础上,所述累积梯度图像的计算过程如下:
[0015]步骤101、图像序列片段中包括若干帧图像,图像序列片段中所有图像的梯度图都累积到一帧图像上得到的累积梯度图像为H(x, y, t),X为点(X,y)的横坐标,y为点(x, y)的纵坐标,t为时间,累积梯度图像H(x,y,t)的尺寸与图像序列片段中原始图像的大小相等;初始化累积梯度图像H(x,y, t),将累积梯度图像H(x,y, t)的全部像素置为0,此时时间t为O ;将图像序列片段中的第一帧作为当前帧I (x,y);
[0016]步骤102、计算当前帧I (X,y)的梯度图像幅值G(x, y) ;t_l时刻的累积梯度图像为H(x, y, t-1),将G(x, y)与H(x, y, t_l)在每一个像素点上进行比较,取灰度值较大的像素点的灰度值作为H(x, y, t)的新值;在点(X,y)处,t时刻的累积梯度图像H(x, y, t)=max [H (x, y, t_l),G (x, y)];
[0017]步骤103、将下一帧作为当前帧,返回步骤102,直到图像序列片段的最后一帧。
[0018]在上述技术方案的基础上,步骤A中提取视频的光流合成描述子的过程为:
[0019]对视频进行时间采样,得到16对相邻的图像序列对,共计32帧图像,计算这16对图像序列对的光流图像,得到16帧光流图像X分量和16帧光流图像Y分量;
[0020]将16帧光流图像X分量依次排列成4行4列,组合成一帧图像,得到光流X分量合成描述子;
[0021]将16帧光流图像Y分量依次排列成4行4列,组合成一帧图像,得到光流Y分量合成描述子;
[0022]光流X分量合成描述子和光流Y分量合成描述子共同构成该视频的光流合成描述子。
[0023]在上述技术方案的基础上,步骤B中,计算待识别视频的三种合成描述子的局部特征的SVM分数均包括训练和识别两个过程,训练过程为:对已经标记好动作类别的训练视频提取三种合成描述子的局部特征,对训练视频的三种合成描述子的局部特征在视觉词典上进行特征编码,用编码结果训练SVM模型;识别过程为:对待识别视频提取三种合成描述子的局部特征,对待识别视频的三种合成描述子的局部特征在视觉词典上进行特征编码,将编码结果输入训练得到的SVM模型,得到待识别视频的三种合成描述子的局部特征的SVM分数。
[0024]在上述技术方案的基础上,步骤B具体包括以下步骤:
[0025]步骤201、采集多个训练视频,在已经提取这些训练视频的三种合成描述子的基础上,对训练视频的三种合成描述子进行密集采样,采样块上的方向梯度直方图HOG特征是局部特征,在采样块上计算三种合成描述子的HOG特征,从而得到训练视频的三种合成描述子的HOG特征集合;
[0026]步骤202、采用本领域技术人员公知的K均值算法,对训练视频的三种合成描述子的HOG特征集合进行聚类,生成多个聚类中心,以聚类中心为视觉单词,组成视觉词典;
[0027]步骤203、用视觉词典对训练视频的三种合成描述子的HOG特征集合进行特征编码,得到编码结果向量,作为训练视频的三种合成描述子局部特征的最终表达;
[0028]步骤204、将所有训练视频的三种合成描述子局部特征的最终表达送入SVM分类器进行训练,生成局部特征的SVM模型;
[0029]步骤205、按照步骤201对待识别视频进行处理,得到待识别视频的三种合成描述子的HOG特征集合;
[0030]步骤206、采用步骤202得到的视觉词典,对待识别视频的三种合成描述子的HOG特征集合进行特征编码,作为待识别视频的三种合成描述子局部特征的最终表达;
[0031]步骤207、将待识别视频的三种合成描述子局部特征的最终表达送入步骤204生成的局部特征的SVM模型进行测试,采用一对多的方法,实现多类分类,得到待识别视频的
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1