基于相似性权值的半监督字典学习的人体行为识别方法

文档序号:9376242阅读:539来源:国知局
基于相似性权值的半监督字典学习的人体行为识别方法
【技术领域】
[0001] 本发明属于模式识别技术领域,特别涉及视频中目标人物行为的识别方法,可用 于视频中目标检测。
【背景技术】
[0002] 人体行为识别是指识别出视频序列中目标的行为信息,为之后的处理工作做准 备,其包括从视频序列中检测出相关的目标视觉信息,并用一种合适的方式进行表达,最后 解释这些信息以实现学习和识别人的行为。
[0003] 近年来,无监督和有监督字典学习已经成功应用于图像分类和行为识别领域。在 人体行为识别领域,它们的区别是否用到有标签的视频序列,其中无监督字典学习没有用 到视频的标签信息,而有监督字典学习刚好相反。最终通过学习到的字典进行识别等后续 工作。对于有监督字典学习分为以下几个步骤:
[0004] 第一步,获取局部特征:利用局部特征检测器,如Harris3D检测子,Hessian检测 子,Cuboid检测子等,自动检测出视频中感兴趣的区域,并用相应的描述子对其进行描述;
[0005] 第二步,获取初始化字典:利用K均值将所有视频局部特征描述符进行聚类,从而 得到若干个聚类中心,而这些聚类中心就是所谓的视觉关键词,聚类中心的个数或称作词 包的大小可事先由人为设定。
[0006] 第三步,获取字典:对目标函数进行求解,一般包括重复进行的二个步骤,即求解 编码系数和字典学习交替进行,直到终止条件达到。
[0007] 可以看出有监督的字典学习相对于无监督字典学习使用到了视频序列的标签信 息,而不同的有监督字典学习方法就在于如何使用标签信息。但因为实际生活中目标的标 签获取需要耗费大量的人力物力,实际生活中的视频往往是无标签的。而且有监督字典学 习方法也没有考虑无标签样本信息。
[0008] 2014年,Y. Sun等人在组稀疏的基础上,引入一个加权的组稀疏约束项,该约 束项的目的是尽可能的使得同一类的字典原子参与视频的编码,从而提出了一种更具判 别性的有监督字典学习方法,该方法充分利用了有标签样本的信息,但并未使用无标签 的信息,具体参见 Sun Y, Liu Q, Tang J, et al. Learning discriminative dictionary for group sparse representation. [J].IEEE Transactions on Image Processi ng, 2014, 23(9) : 3816-3828。
[0009] 上述方法虽然可以得到更具判别性的字典,提高识别精度,但该方法的不足也是 明显的:其只考虑有标记样本,没有考虑无标记样本的信息,没有充分的利用样本的信息; 而实际上往往有标签样本获取的难度很大,无标签的样本却可以容易获取且大量存在,如 何充分提取并利用大量无标签样本的信息,成为该领域的关键所在。

【发明内容】

[0010] 本发明的目的在于提出一种基于相似性权值的半监督字典学习的人体行为识别 方法,以通过提取无标签视频的信息,提高人体行为识别精度。
[0011] 本发明的技术思路是:引入无标签视频,来获取更具判别性的字典从而得到每个 视频的编码,将其应用到人体行为识别中,其实现步骤包括如下:
[0012] (1)输入包含c类行为的视频数据集,其中包括训练数据集和测试数据集,训练数 据集由Ik个带有类别标签的视频数据和η。个无标签视频数据组成,测试数据集由η τ个带 测试视频数据组成,每个视频作为一个样本只含有一种行为;
[0013] (2)提取每个视频数据的局部特征:利用空时域的Harris角点检测方法对每个视 频进行局部特征区域检测,在提取到的局部特征区域提取视频的梯度直方图特征和光流直 方图特征,并把得到的这两种特征进行拼接,获得每个视频中行为的局部特征;
[0014] (3)从训练样本集中,通过对每一类视频样本的局部特征进行随机采样得到初始 化字典D w e R dXm,其中:d表示样本局部特征的维数,m表示字典原子的个数;
[0015] 3a)假设训练样本第i类视频样本的局部特征为f 其中 :ηι表示第 i类训练样本有标签样本的个数,i = 1,2, ...,c,c表示视频样本的类别数;
[0016] 3b)对训练样本的第i类视频样本的局部特征X1进行随机采样得到第i类的 初始化类别字典6 Wiw,将获得的所有初始化类别字典进行拼接得到初始化字典
其中:d表示局部特征的维数,b表示每类初始化类别字 典的原子个数,m是初始化字典的原子个数,即m = c*b。
[0017] (4)构造用于编码的权重矩阵A(t)e Rmxn,其中:n表示所有训练样本的个数即n = 1?+]?, t = 0, 1,…,T max,T max表示最大迭代次数,权重矩阵的每一列表示对应样本的权 重向量;
[0018] (5)使用第t次迭代获得的字典D(t),通过优化下面的目标函数对第1个视频样本 的局部特征进行编码,得到第1个视频样本的第t次迭代的编码矩阵尽:
[0019]
[0020] 其中,Y1表示第1个视频样本的局部特征,I = l,2,....,n,4f是权重矩阵A(t) 的第1列,11 · I |F表示F范数,M · I U1表示矩阵的1,1范数即
Sg 表示编码矩阵忍/'的第P行,11 · 11:表示向量的1范数,11 · I U1表示矩阵的2,1范数, 上式第一项表示视频样本编码的重构误差项,||?r||w是对编码矩阵启P的稀疏性约束项,
是组稀疏约束项,该组稀疏约束项用以约束参与编码的字典原子来自于 IhJ 典,Xi是稀疏约束项参数,X 2是组稀疏约束项参数;
[0021] (6)通过优化下面的目标函数更新字典获得第t+Ι次迭代的字典D(t+1):
[0022]
[0023] 其中
1是对类别字典的相似性约束项,用以增加类别字典间的判 别性,(·)τ表示转置运算,λ 3是相似性约束项的参数;
[0024] (7)重复步骤(4)-(6),直到目标函数收敛或达到最大迭代次数,得到最终字典D ;
[0025] (8)使用最终字典D,通过优化下式的目标函数得到每个视频样本的编码矩阵Bg:
[0026]
[0027] 其中,I I · I |F表示F范数,I I · I I 2ι1表示2, 1范数,上式第一项是视频样本编码 的重构误差项,I |Bg| |2ι1是对编码矩阵Bg的组稀疏约束项,h表示所有视频样本的个数即h =Γ^+ηυ+Πτ,γ为组稀疏约束项的参数;
[0028] (9)对所有视频样本的局部特征,根据步骤(7)中得到的编码矩阵Bg,应用最大池 化算法,将每个视频样本表示成一个m维的编码向量z g:
[0029]
[0030] 其中
=l,2,...,h,q=l,2,...,K,B g|kq 表示第g个视频样本编码矩阵Bg的第k行q列,K表示这个视频的局部特征个数;
[0031] (10)利用所有训练样本的编码向量组成稀疏表示分类字典
,我由类别标签为i的所有训练样本的编码向量组成,i 是字典的类别标签i = 1,2, ...,c,c为类别总数,Ik是训练样本中有标签样本的总数,即
云第i类有标签样本的个数;
[0032] (11)根据分类字典焱对步骤(9)得到的每个测试样本的编码向量I进行稀疏编 码,由下式得到测试样本在分类字典上的编码系数β :
[0033]
[0034] 其中,I卜I |2表示向量的2范数,I卜I I
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1