基于非线性融合深度3D卷积描述子的行为识别方法与流程

文档序号:13073079阅读:608来源:国知局

本发明属于视频处理技术领域,特别涉及一种行为识别方法,可应用于人机交互、视频监控和视频检索。



背景技术:

目前,视频处理领域的行为识别方法主要包括人工特征和深度学习两种方法。其中,人工特征通常是基于受控环境的领域知识而设计的,然而真实场景中的视频数据并不能总是被正确地建模,因此人造特征的泛化能力不足够。由于视频中包含了非常丰富的语义信息,传统人工特征直接用于行为识别,缺乏一定的语义信息和足够的判别能力,容易引起行为识别混淆。

最近几年,基于深度学习的行为识别方法取得了巨大的成功和进步。深度学习通常利用深度卷积神经网络进行行为识别,用于行为识别的深度卷积神经网络主要有:2d卷积网络、3d卷积网络和c3d网络。其中,3d卷积网络模型要优于传统的2d卷积网络模型。然而,3d卷积网络模型需要使用人体检测器和头部跟踪算法对视频进行分割,以分割后的视频片段作为3d卷积神经网络的输入,存在很大的局限性。相比于3d卷积网络,c3d网络能够学习视频中的空时信息,并且可以直接将完整的视频作为输入,不依赖于任何预处理,因此易于扩展到大规模数据集。然而,c3d网络在进行行为识别时,仅用到了顶层的全局特征,网络中作为重要局部特征的底层特征,未得到充分重视。



技术实现要素:

本发明的目的在于针对上述现有技术的不足,提出一种基于非线性融合深度3d卷积描述子的行为识别方法,通过融合c3d网络不同层特征,以获得更具判别性的特征表示,提高行为识别率。

实现本发明的技术关键是构建一种判别性非线性融合方法,利用这一方法对从c3d网络中提取出的全局特征和局部特征进行融合,得到深度3d卷积描述子,利用svm对数据进行分类,实现步骤包括如下:

(1)利用c3d网络获取每个样本的l个特征向量u,其中,l为c3d网络的层数;

(2)根据特征向量u,获取每个样本的全局特征向量x和局部特征向量y,得到全局特征集合x和局部特征集合y;

(3)根据全局特征集合x和局部特征集合y,获取深度3d卷积描述子dc3d;

(4)根据深度3d卷积描述子dc3d,得到每个训练样本的深度特征向量ztrain和每个测试样本的深度特征向量ztest

(5)根据训练样本的深度特征向量ztrain,训练线性svm分类器;

(6)根据线性svm分类器,对每个测试样本的深度特征向量ztest进行分类,得到每个测试样本的分类结果。

本发明与现有技术相比具有以下优点:

本发明利用c3d网络提取数据的全局特征和局部特征,通过非线性融合得到了一种更具判别性的深度3d卷积描述子,利用深度3d卷积描述子训练svm分类器,提高了行为识别的准确率。

附图说明

图1是本发明的实现流程图。

具体实施方式

参照图1,本发明基于非线性融合深度3d卷积描述子的行为识别方法,其实现步骤如下:

步骤1,获取训练数据集和测试数据集。

(1a)获取人类行为视频集v,该人类行为视频集v的类别数为c,样本总数为n;

(1b)从人类行为视频集v的每个类别中选择a个样本,作为测试样本,得到测试数据集vtrain,人类行为视频集v中的剩余样本作为训练样本,得到训练数据集vtrain,其中,a∈{1,2,...,nk-1},nk为第k类样本的样本数量,k=1,2,..,c。

步骤2,获取每个样本的特征向量u。

(2a)将每个样本划分为多个连续的视频片段,其中,每个视频片段的长度相同;

(2b)将步骤(2a)得到的视频片段输入到c3d网络,得到每个视频片段在c3d网络中的各层激活值,其中,c3d网络的层数为l;

(2c)根据步骤(2b)得到的每个视频片段的各层激活值,将所有视频片段相同层的激活值求和取平均,得到每一层的平均激活值;

(2d)对步骤(2c)中得到的每一层平均激活值,使用主成分分析进行降维,得到每个样本的l个特征向量u。

步骤3,获取全局特征集合x。

(3a)根据步骤2中得到的训练样本的l个特征向量u,从c3d网络第层到第l层中选取b个特征向量u,并将这些不同的特征向量u串接在一起得到全局特征向量x,其中,全局特征向量x的维度为q,表示向下取整;

(3b)根据步骤(3a)对每一个样本重复相同过程,得到全局特征集合:x=[x1,x2,...,xn,...,xn],其中,x∈rq×n,rq×n为q×n维的向量空间,xn为第n个样本的全局特征向量,n=1,2,...,n。

步骤4,获取局部特征集合y。

(4a)根据步骤2中得到的训练样本的l个特征向量u,从c3d网络第1层到第层中选取e个特征向量u,并将这些不同的特征向量u串接在一起得到局部特征向量y,其中,局部特征向量y的维度为p,

(4b)根据步骤(4a)对每一个样本重复相同过程,得到局部特征集合:y=[y1,y2,...,ym,...,yn],其中,y∈rp×n,rp×n为p×n维的向量空间,ym为第m个样本的局部特征向量,m=1,2,...,n。

步骤5,计算深度3d卷积描述子dc3d。

(5a)利用核函数计算全局特征集合x的核矩阵kx和局部特征集合y的核矩阵ky,其中,所述核函数可为多项式核函数、高斯核函数、拉普拉斯核函数和幂指数核函数等不同类型的核函数,本实例选取多项式核函数,但不限于此方法;

(5a1)根据全局特征集合x,利用多项式核函数,计算全局特征集合x的核矩阵kx的每一个元素:

(kx)ij=gx(xi,xj),

其中,i=1,2,..,n,j=1,2,..,n,(kx)ij为全局特征集合x的核矩阵kx的第i行第j列元素,<·>表示计算内积,xi为全局特征集合x中第i个样本的全局特征向量,xj为全局特征集合x中第j个样本的全局特征向量,θ1为多项式核函数核参数;

(5a2)根据局部特征集合y,利用多项式核函数,计算局部特征集合y的核矩阵ky的每一个元素:

(ky)ηξ=gy(yη,yξ),

其中,η=1,2,..,n,ξ=1,2,..,n;(ky)ηξ为局部特征集合y的核矩阵ky的第η行第ξ列元素,yη为局部特征集合y中第η个样本的局部特征向量,yξ为局部特征集合y中第ξ个样本的局部特征向量,θ2为多项式核函数核参数;

(5b)根据全局特征集合x的核矩阵kx和局部特征集合y的核矩阵ky,进行判别性非线性融合,得到深度3d卷积描述子dc3d:

(5b1)计算全局特征集合x的核类内散度矩阵和全局特征集合x的核类间散度矩阵

其中,为第k类样本中第u个样本全局特征向量的非线性映射,第k类样本中第u个样本全局特征向量,u=1,2,..,nk,t为矩阵转置;

(5b2)计算局部特征集合y的核类内散度矩阵和局部特征集合y的核类间散度矩阵

其中,为第k类样本中第g个样本局部特征向量的非线性映射,第k类样本中第g个样本局部特征向量,g=1,2,..,nk;

(5b3)根据步骤(5b1)中得到的全局特征集合x的核类间散度矩阵和步骤(5b2)中得到的局部特征集合y的核类间散度矩阵得到互协方差矩阵kxy和互协方差矩阵kyx:

其中,cov(·)表示计算协方差;

(5b4)构建一个目标函数:并用该目标函数计算每个特征向量x的全局投影向量α和每个特征向量y的局部投影向量β,其中,

(5b5)根据拉格朗日乘子法求解(5b1)得到的目标函数,即将求解目标函数问题转换为求解广义特征值问题,求解广义特征值的公式如下:

其中,λ为广义特征值,全局投影向量α由广义特征值λ对应的特征向量的前n个元素组成,局部投影向量β由广义特征值λ对应的特征向量的后n个元素组成;

(5b6)根据步骤(5b5)求解广义特征值得到的前s个最大特征值,得到全局特征集合x的投影矩阵wx=[α1,α2,...,αs]和局部特征集合y的投影矩阵wy=[β1,β2,...,βs],其中,s=min(q,p),min(·)表示最小值,α1,α2,...,αs为求解广义特征值得到的前s个最大特征值对应的全局投影向量,β1,β2,...,βs为求解广义特征值得到的前s个最大特征值对应的局部投影向量;

(5b7)根据全局特征集合x的核矩阵kx、局部特征集合y的核矩阵ky、全局特征集合x的投影矩阵wx和局部特征集合y的投影矩阵wy,得到深度3d卷积描述子:

步骤6,训练线性svm分类器。

(6a)根据步骤5得到的深度3d卷积描述子dc3d,从中获取每个训练样本的深度特征向量ztrain,其中,深度3d卷积描述子dc3d的每一列对应一个样本的深度特征向量;

(6b)利用训练样本的深度特征向量ztrain,训练线性svm分类器。

步骤7,获取测试样本的分类结果。

(7a)根据步骤5得到的深度3d卷积描述子dc3d,从中获取每个测试样本的深度特征向量ztest

(7b)将每个测试样本的深度特征向量ztest输入到线性svm分类器中,得到每个测试样本的识别结果。

以上描述仅是本发明的一个具体实例,不构成对本发明的任何限制,显然对于本领域的专业人员来说,在了解了本发明内容和原理后,都可能在不背离本发明原理、结构的情况下,进行形式和细节上的各种修正和改变,但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1