三种合成描述子的局部特征的SVM分数。
[0032]在上述技术方案的基础上,步骤C中,计算待识别视频的三种合成描述子的全局特征的SVM分数均包括训练和识别两个过程,训练过程为:对已经标记好动作类别的训练视频提取三种合成描述子的全局特征,用训练视频的三种合成描述子的全局特征训练SVM模型;识别过程为:对待识别视频提取三种合成描述子的全局特征,将待识别视频的三种合成描述子的全局特征输入到训练得到的SVM模型,得到待识别视频的三种合成描述子的全局特征的SVM分数。
[0033]在上述技术方案的基础上,步骤C具体包括以下步骤:
[0034]步骤301、塔式方向梯度直方图PHOG特征是全局特征,采集多个训练视频,在已经提取这些训练视频的三种合成描述子的基础上,计算每个训练视频的三种合成描述子的PHOG特征,作为该训练视频的三种合成描述子全局特征的最终表达;
[0035]步骤302、将所有训练视频的三种合成描述子全局特征的最终表达送入SVM分类器进行训练,生成全局特征的SVM模型;
[0036]步骤303、按照步骤301对待识别视频进行处理,得到待识别视频的三种合成描述子的PHOG特征集合,作为待识别视频的三种合成描述子全局特征的最终表达;
[0037]步骤304、将步骤303得到的待识别视频的三种合成描述子全局特征的最终表达送入步骤302生成的全局特征的SVM模型进行测试,采用一对多的方法,实现多类分类,得到待识别视频的三种合成描述子的全局特征的SVM分数。
[0038]本发明还提供用于实现上述方法的基于合成描述子的人体动作识别系统,包括合成描述子提取单元、第一计算单元、第二计算单元和人体动作识别单元,其中:
[0039]所述合成描述子提取单元用于:提取所有视频的三种合成描述子;视频分为训练视频和待识别视频,对于每一个视频,提取该视频中位于不同时间点上的信息,组合成一幅图像,得到该视频的合成描述子;合成描述子有三种:图像合成描述子、累积梯度合成描述子、光流合成描述子;在人体动作的识别过程中,使用这三种合成描述子的局部特征和全局特征来表征人体的动作,这三种合成描述子的局部特征和全局特征互为补充;
[0040]所述第一计算单元用于:计算待识别视频的三种合成描述子的局部特征的支持向量机SVM分数;
[0041]所述第二计算单元用于:计算待识别视频的三种合成描述子的全局特征的SVM分数;
[0042]所述人体动作识别单元用于:根据待识别视频的三种合成描述子的局部特征的SVM分数、全局特征的SVM分数得到综合分数,再根据综合分数得到待识别视频中人体动作的识别结果。
[0043]与现有技术相比,本发明的优点如下:
[0044]本发明首次提出“合成描述子”这个概念,提取视频中位于不同时间点上的信息,合成到一帧图像上,得到合成描述子。合成描述子有三种:图像合成描述子、累积梯度合成描述子、光流合成描述子。提取视频的三种合成描述子后,分别计算这三种合成描述子的局部特征和全局特征。在人体动作识别的过程中,使用这三种合成描述子的局部特征和全局特征来表征人体的动作,这三种合成描述子的局部特征和全局特征互为补充,也可作为其他特征的有力补充。与现有技术运算量较大且不包含全局信息相比,本发明不仅能够从视频中提取三种合成描述子的局部特征和全局特征,而且运算量较小,能够快速识别人体动作。
【附图说明】
[0045]图1是本发明实施例中基于合成描述子的人体动作识别方法的流程图。
[0046]图2是本发明实施例中提取视频的图像合成描述子的流程图。
[0047]图3是本发明实施例中提取视频的累积梯度合成描述子的流程图。
[0048]图4是本发明实施例中提取视频的光流合成描述子的流程图。
[0049]图5是本发明实施例中计算三种合成描述子的局部特征的SVM分数的流程图。
[0050]图6是本发明实施例中计算三种合成描述子的全局特征的SVM分数的流程图。
【具体实施方式】
[0051]下面结合附图及具体实施例对本发明作进一步的详细描述。
[0052]参见图1所示,本发明实施例提供一种基于合成描述子的人体动作识别方法,包括以下步骤:
[0053]A、提取所有视频的三种合成描述子:视频分为训练视频和待识别视频,对于每一个视频,提取该视频中位于不同时间点上的信息,组合成一幅图像,得到该视频的合成描述子;合成描述子有三种:图像合成描述子、累积梯度合成描述子、光流合成描述子;在人体动作的识别过程中,使用这三种合成描述子的局部特征和全局特征来表征人体的动作,这三种合成描述子的局部特征和全局特征互为补充,也可作为其他特征的有力补充;
[0054]B、计算待识别视频的三种合成描述子的局部特征的SVM (Support VectorMachine,支持向量机)分数;
[0055]C、计算待识别视频的三种合成描述子的全局特征的SVM分数;
[0056]D、根据待识别视频的三种合成描述子的局部特征的SVM分数、全局特征的SVM分数得到综合分数,再根据综合分数得到待识别视频中人体动作的识别结果。
[0057]参见图2所示,步骤A中提取视频的图像合成描述子的过程为:对视频进行时间采样,得到16帧不同的图像;再将这16帧不同的图像依次排列成4行4列,组合成一帧图像,得到该视频的图像合成描述子。
[0058]参见图3所示,步骤A中提取视频的累积梯度合成描述子的过程为:对视频进行时间采样,得到16个不同的图像序列片段,这16个图像序列片段中心位置的图像位于视频的16个等间隔的时间节点,每个图像序列片段由视频中相邻的8帧图像组成;对于每个图像序列片段,计算该图像序列片段中每一帧图像的梯度,累积到一帧中,得到累积梯度图像;有16个图像序列片段,共得到16帧累积梯度图像;将16帧累积梯度图像,依次排列成4行4列,组合成一帧图像,得到该视频的累积梯度合成描述子。
[0059]累积梯度图像的计算过程如下:
[0060]步骤101、图像序列片段中包括若干帧图像,图像序列片段中所有图像的梯度图都累积到一帧图像上得到的累积梯度图像为H(x, y, t),X为点(X,y)的横坐标,y为点(x, y)的纵坐标,t为时间,累积梯度图像H(x,y,t)的尺寸与图像序列片段中原始图像的大小相等;初始化累积梯度图像H(x,y, t),将累积梯度图像H(x,y, t)的全部像素置为0,此时时间t为O ;将图像序列片段中的第一帧作为当前帧I (x,y);
[0061]步骤102、计算当前帧I (X,y)的梯度图像幅值G(x, y) ;t_l时刻的累积梯度图像为H(x, y, t-1),将G(x, y)与H(x, y, t_l)在每一个像素点上进行比较,取灰度值较大的像素点的灰度值作为H(x, y, t)的新值;在点(X,y)处,t时刻的累积梯度图像H(x, y, t)=max [H (x, y, t_l),G (x, y)];
[0062]步骤103、将下一帧作为当前帧,返回步骤102,直到图像序列片段的最后一帧。
[0063]参见图4所示,步骤A中提取视频的光流合成描述子的过程为:
[0064]对视频进行时间采样,得到16对相邻的图像序列对,共计32帧图像,计算这16对图像序列对的光流图像,得到16帧光流图像X分量和16帧光流图像Y分量;
[0065]将16帧光流图像X分量依次排列成4行4列,组合成一帧图像,得到光流X分量合成描述子;
[0066]将16帧光流图像Y分量依次排列成4行4列,组合成一帧图像,得到光流Y