专利名称:一种多视角行为识别方法
技术领域:
本发明属于智能视频监控技术领域,具体涉及一种多视角行为识别方法。
背景技术:
行为识别在视频监控中扮演着重要的角色,它可以识别出视频中人体的行为动作,为危险行为报警、特定行为识别做出贡献。行为识别中最简单最有效的方法当属基于词包模型的方法,此方法先对视频进行特征提取,然后将所有的特征聚类,然后根据每个视频特征在聚类中心出现的频率进行直方图化。但是此方法的一个缺点是没有考虑到时空特征。Zhang等人利用基于语义的线性编码方式不仅考虑了特征之间的时空关系而且减少了重构误差。Ryoo等人提出一种“特征X特征X关系”直方图去同时获取特征点之间表象的关系。Kovashaka等人利用近邻时空兴趣点设计一种层级直方图来弥补词包模型的不足。然而当动作的拍摄视角发生改变时,这些方法的正确率将会下降。这是因为当从不同视角拍摄时即使是相同类别的动作看起来也会不同,因此从一个视角训练而从另一个视角测试时正确率就会下降。而直觉的方法是在每一个视角都进行训练,但是这样需要足够多的样本,在实际应用中可行性不大。因此有很多方法致力于解决这种多视角行为识别的问题。Farhadi等人用最大间隔聚类法产生基于分割的特征,然后把这些分隔值迁移到目标视角对应的视频帧中。Liu等人利用无标签的样本 对训练一个双语词典,然后对动作视频进行表不。
发明内容
本发明的目的是要解决上述多视角行为识别的技术问题,为此,本发明提供一种多视角行为识别方法。为了实现所述目的,本发明提出的一种多视角行为识别方法包括以下步骤:步骤1,首先提取多个已分类动作视频样本中的每一个动作视频样本的局部时空兴趣点,利用词包模型对每个动作视频样本产生M维的局部时空兴趣点特征向量;提取每个动作视频样本的全局外形流特征,然后再次利用词包模型对每个动作视频样本产生N维的全局外形流特征特征向量;最后将两个特征向量连接在一起形成M+N维的特征向量作为相应动作视频样本的特征表示向量;步骤2,用源视角和目标视角动作视频样本的特征表示向量的主成分对源视角和目标视角动作视频样本的变换矩阵Ms和Mt进行初始化;步骤3,基于所述源视角和目标视角动作视频样本的变换矩阵Ms和Mt的初始值,利用源视角和目标视角动作视频样本之间的相似度与源视角和目标视角动作视频样本分类标签之间的互信息求得源视角和目标视角动作视频样本的变换矩阵Ms和Mt ;步骤4,利用所述步骤3求得的源视角和目标视角动作视频样本的变换矩阵Ms和Mt求得参数虚拟视角核;步骤5,利用所述步骤4求取的所述虚拟视角核求得所有动作视频样本中两两样本之间的相似度,训练支持向量机得到分类模型,并利用得到的分类模型来对测试动作视频中的行为进行分类,以得到行为识别的结果。本发明的有益效果是:通过连接在源视角和目标视角的连续通路达到多视角行为识别的目的;通过虚拟视角核计算得到的相似度矩阵能够作为任何基于核分类器的输入。
图1是本发明所提出的多视角行为识别方法的流程图;图2是本发明多视角行为识别方法在IMAXS数据库上的识别结果。
具体实施例方式为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。图1是本发明所提出的多视角行为识别方法的流程图,如图1所示,所述方法包括以下步骤:步骤1,首先提取多个已分类动作视频样本中的每一个动作视频样本的局部时空兴趣点,利用词包模型(bag-of-words, BOW)对每个动作视频样本产生M维(比如1000维)的局部时空兴趣点特征向量;提取每个动作视频样本的全局外形流特征(globalshape-flow feature),然后再次利用词包模型对每个动作视频样本产生N维(比如500维)的全局外形流特征特征向量;最后将两个特征向量连接在一起形成M+N维(比如1500维)的特征向量作为相应动作视频样本的特征表示向量;该步骤中,词包模型为现有技术中常用的特征向量产生模型,在此不作赘述。
所述动作视频样本为事先已经过分类的动作视频样本,所述动作视频的动作类别可以为跑、跳,走等。步骤2,用源视角和目标视角动作视频样本的特征表示向量的主成分(PCA)对源视角和目标视角动作视频样本的变换矩阵Ms和Mt进行初始化;所述变换矩阵Ms和Mt在多视角行为识别中起到至关重要的作用,它能将不同视角的动作特征变换到同一个子空间中,且该子空间的维数较低便于计算。所述变换矩阵的行数与动作视频特征表示向量的维数相等,列数与动作视频特征表示向量的主成分个数相等,所述变换矩阵的常用维数为:1500*20。对所述变换矩阵进行初始化之后直接将该矩阵与动作视频特征表示向量相乘即可得到变换后的动作视频特征。步骤3,基于所述源视角和目标视角动作视频样本的变换矩阵Ms和Mt的初始值,利用源视角和目标视角动作视频样本之间的相似度与源视角和目标视角动作视频样本分类标签之间的互信息求得源视角和目标视角动作视频样本的变换矩阵Ms和Mt ;该步骤中,使用以下公式来求取源视角和目标视角动作视频样本的变换矩阵:maxMSjMtI (V ;c) (I)其中,相似度集合F 二 Wi Ku丨J,K为虚拟视角核,Bi和aj是带有分类标签的动作
视频样本的特征表示向量代表互信息,以此来测量两个随机变量的依赖程度;Ms为源视角动作视频样本的变换矩阵;Mt为目标视角动作视频样本的变换矩阵;若Bi和a]属于相同的动作类别,则C设为1,记为正样本对;当ai和a]属于不同的动作类别,则c设为O,记为负样本对。上式中的I (V ;c)根据信息论中的微分熵公式能够写成:I (V ;c) =H (V) -H (V | c) = H (V) -P (c = I) H (Vp) -P (c = O) H (Vn),其中,Vp和Vn分别代表根据正样本对和负样本对计算得到的正样本相似度和负样本相似度;H(V)为所有样本相似度的熵;H(V|c)为标签为c的样本相似度的熵;P(c =I)为正样本对出现的概率;H(VP)为正样本相似度的熵;P(c = O)为负样本对出现的概率;H(Vn)为负样本相似度的熵。为了求解以上公式,接下来使用样本之间的相似度来估计微分熵。假设相似度集合V的分布为一维高斯分布,可得:
权利要求
1.一种多视角行为识别方法,其特征在于,该方法包括以下步骤: 步骤1,首先提取多个已分类动作视频样本中的每一个动作视频样本的局部时空兴趣点,利用词包模型对每个动作视频样本产生M维的局部时空兴趣点特征向量;提取每个动作视频样本的全局外形流特征,然后再次利用词包模型对每个动作视频样本产生N维的全局外形流特征特征向量;最后将两个特征向量连接在一起形成M+N维的特征向量作为相应动作视频样本的特征表示向量; 步骤2,用源视角和目标视角动作视频样本的特征表示向量的主成分对源视角和目标视角动作视频样本的变换矩阵Ms和Mt进行初始化; 步骤3,基于所述源视角和目标视角动作视频样本的变换矩阵Ms和Mt的初始值,利用源视角和目标视角动作视频样本之间的相似度与源视角和目标视角动作视频样本分类标签之间的互信息求得源视角和目标视角动作视频样本的变换矩阵Ms和Mt ; 步骤4,利用所述步骤3求得的源视角和目标视角动作视频样本的变换矩阵Ms和Mt求得参数虚拟视角核; 步骤5,利用所述步骤4求取的所述虚拟视角核求得所有动作视频样本中两两样本之间的相似度,训练支持向量机得到分类模型,并利用得到的分类模型来对测试动作视频中的行为进行分类,以得到行为识别的结果。
2.根据权利要求1所述的方法,其特征在于,所述步骤2中,对变换矩阵Ms和Mt进行初始化时, 所述变换矩阵的行数与动作视频特征表示向量的维数相等,列数与动作视频特征表示向量的主成分个数相等。
3.根据权利要求1所述的方法,其特征在于,所述步骤3中,使用以下公式来求取源视角和目标视角动作视频样本的变换矩阵: maxMs,MtI(V ;c), 其中,相似度集合
4.根据权利要求3所述的方法,其特征在于,所述互信息I(V ;c)利用下式来计算:I (V ;c) = H(V)-H(V|c) =H(V)-P(C=I)H(Vp)-P(C = O)H(Vn), 其中,Vp和Vn分别代表根据正样本对和负样本对计算得到的正样本相似度和负样本相似度;H(V)为所有样本相似度的熵;H(V|c)为标签为c的样本相似度的熵;P(c = I)为正样本对出现的概率;H(VP)为正样本相似度的熵;P(c = O)为负样本对出现的概率;H(Vn)为负样本相似度的熵。
5.根据权利要求1所述的方法,其特征在于,所述步骤4中,使用下式来计算虚拟视角核:
6.根据权利要求1所述的方法,其特征在于,所述步骤5中,所有动作视频样本中两两样本之间的相似度根据下式来计算:V = Ia1iKai], 其中,K为虚拟视角核,a,和a]是带有分类标签的动作视频样本的特征表示向量。
全文摘要
本发明公开了一种多视角行为识别方法。该方法包括以下步骤对每个视角的动作视频样本提取其局部和全局特征,并把每个动作视频样本表示成为一个特征向量;对源视角和目标视角的动作视频样本的变换矩阵进行初始化;然后在信息论的框架下求得源视角和目标视角的动作视频样本的变换矩阵;根据两个视角的动作视频样本的变换矩阵求得虚拟视角核;然后求得每个动作视频样本之间的相似度;最后使用支持向量机分类器对测试动作视频进行分类。本发明通过连接在源视角和目标视角的连续通路达到多视角行为识别的目的;通过虚拟视角核计算得到的相似度矩阵能够作为任何基于核分类器的输入。
文档编号G06K9/64GK103226713SQ20131018127
公开日2013年7月31日 申请日期2013年5月16日 优先权日2013年5月16日
发明者王春恒, 张重, 肖柏华, 周文, 刘爽 申请人:中国科学院自动化研究所