一种基于稀疏低秩编码的视频动作识别方法
【专利摘要】本发明涉及一种基于稀疏低秩编码的视频动作识别方法。本发明对给定的视频集合进行如下操作:1)对每个视频从空间和时间两个维度使用立方体检测和描述视频动作的兴趣点,并形成相应的局部时空特征;2)利用稀疏低秩矩阵分解对局部时空特征做编码,形成对应兴趣点的稀疏低秩编码表示,并用改进的平均池化技术获得全局时空特征向量作为视频的数据表示;3)对所有视频样本实施上述步骤获得相应的时空数据表示,并分为训练样本和测试样本,再利用支持向量机建立分类模型用于识别测试样本的视频动作。本发明能够从局部和全局角度利用视频兴趣点的时空特征有力刻画视频动作,并通过稀疏低秩编码获得更优的视频数据表示,提高了视频动作识别的准确率。
【专利说明】
一种基于稀疏低秩编码的视频动作识别方法
技术领域
[0001] 本发明属于视频分析技术领域,特别是基于稀疏低秩编码的视频动作识别方法。
【背景技术】
[0002] 随着视频采集设备的日益丰富和城市安防监控需求的逐步增大,各类视频数据源 源不断地产生,使得视频大数据的理解受到学术界和产业界研究人员的广泛关注,同时引 起了国家高层的重视。不同于传统的文本和图像,视频往往呈现非结构化、规模大的特点且 具有时序关联性,给理解和分析视频数据带来很大挑战。常见的视频数据应用包括目标定 位与跟踪、目标识别、动作识别、事件检测等。其中,视频动作识别作为典型的视频理解问 题,可用于地铁广场监控、交通流监管,同时为视频数据的高层语义分析奠定基础,例如视 频事件一般由多个相互关联的视频动作组成,因而视频动作识别方法的研究有利于提高视 频事件检测技术的发展。
[0003] 视频的数据表示是实现视频动作识别的关键,即对视频提取特征并将其表示为向 量形式。最为直接的方法是提取视频帧的图像特征,如SIFT、SURF等,但是该方法未考虑视 频帧之间的时间关系,不能反映兴趣点的时空变化。由此,研究人员提出许多时空兴趣点提 取方法,比如立方体(Cuboid)算子,分别从时间和空间两个维度提取给定视频的兴趣点,并 用合适的描述子表征兴趣点。同时,对兴趣点表征向量的进一步优化是提升视频动作识别 效果的重要途径,例如词袋(BoW)表示、稀疏表示、低秩表示、非负矩阵分解等等。然后,对优 化后的兴趣点表示利用最大池化技术或平均池化技术获得视频的向量化特征表示。最后, 在视频样本集的新特征表示上建立分类模型,用于对未标记的视频样本进行动作识别。
[0004] 上述方法存在一些缺陷,例如词袋表不和非负矩阵分解均未充分考虑视频样本与 字典间的重构关系、稀疏表示未考虑重构矩阵的低秩特性、低秩表示未考虑重构矩阵的稀 疏特性,使得视频样本的特征表示不能很好地刻画动作的兴趣点。另外,最大池化技术仅考 虑了占比最大兴趣点而忽略了其他重要兴趣点;平均池化技术由于利用了所有的兴趣点特 征,使之不可避免地将一些噪声兴趣点特征用于计算视频的全局特征表示。总体而言,这些 视频特征表示方法或多或少都存在无法克服的缺点,不利于视频样本分类器的建立,直接 影响了视频动作的识别效果。因此,迫切需要设计一种能准确反映视频时空兴趣点结构的 特征编码方法,同时考虑局部和全局信息,从而构建泛化能力更强的视频动作识别分类器, 提尚识别的精度。
【发明内容】
[0005] 为了准确表征视频动作序列的时空结构,从局部和全局两个角度反映视频中兴趣 点的时空信息,增强视频动作识别的效果,本发明提出了一种基于稀疏低秩编码的视频动 作识别方法,该方法包括以下步骤:
[0006] 1、获取视频样本集合后,进行以下操作:
[0007] 1)对每个视频从空间和时间两个维度使用立方体算子检测和描述视频动作的兴 趣点,并形成相应的局部时空特征。
[0008] 2)利用稀疏低秩矩阵分解对局部时空特征做编码,形成对应兴趣点的稀疏低秩编 码表示,并采用改进的平均池化技术获得全局时空特征向量作为一个视频的数据表示。
[0009] 3)对所有的视频样本实施上述步骤后,可获得相应的时空数据表示,将其分为训 练样本和测试样本,利用支持向量机建立分类模型用于识别测试样本的视频动作。
[0010] 进一步,所述的步骤1)中的对每个视频从空间和时间两个维度使用立方体算子检 测和描述视频动作的兴趣点,并形成相应的局部时空特征,具体是:
[0011 ] 1 · 1)对每个视频分别用二维高斯光滑核(Gaussian smoothing kernel)与一维高 波滤波器(Gabor filter)从空间维度和时间维度生成η个兴趣点,并采用立方体描述子 (Cuboid descriptor)表示这些局部时空兴趣点。
[0012] 1.2)单个视频的所有兴趣点表示组成的集合记为
,其中每个兴趣 点表示Ii(i = l,2,…,n)为长度为80维的具有局部时空特性的列向量,这些列向量组成该 视频对应的特征矩阵
[0013] 进一步,所述的步骤2)中的利用稀疏低秩矩阵分解对局部时空特征做编码,形成 对应兴趣点的稀疏低秩编码表示,并采用改进的平均池化技术获得全局时空特征向量作为 一个视频的数据表示,具体是:
[0014] 2.1)视频的特征矩阵X分解为两部分,一部分为从数据字典(500为字 典的原子个数,80为字典原子的维度)重构获得的低秩矩阵ZeR5wta,另一部分为噪声矩阵 五e!R 8°xn,并对低秩矩阵Z添加1:范式约束I |Z| U,使得重构矩阵Z尽可能逼近视频中兴趣点 的局部时空特性结构。
[0015] 2.2)数据字典A通过对视频的特征矩阵X运用k均值(k-means)聚类算法获得,即将 视频的所有兴趣点表示聚为500个簇,而簇中心以列向量的形式组成数据字典A。
[0016] 2.3)根据视频的特征矩阵及其数据字典,计算最优稀疏低秩编码矩阵Z的目标函 数为
[0017]
[0018]其中,常数α>0,λ>〇,符号I I · I I*表示矩阵的核范数为矩阵的奇异值之和,符号 ? I |2,1表示矩阵的12,1范数,即先求矩阵各列向量的h范式再求其Il范式。
[0019] 2.4)为了减少求解核范数的时间复杂度,特将矩阵Z分解为两个矩阵,即2^妒_> 和用Frobenius范数I I · I |F近似替换核范数,则计算效率更高的目标函数为
[0020]
[0021] 这样,该目标函数中共有四个变量需要优化。
[0022] 2.5)利用变量交替迭代优化方法求解2.4)中目标函数的最优解,可得到视频的最 优稀疏低秩编码表示Z'其中变量交替迭代方法的本质特点在于每轮迭代中依次固定其他 变量的同时仅优化一个变量。
[0023] 2.6)最优稀疏低秩编码表示浐由500个维度为η的行向量组成,即{Z1,Z2,…,Z 500}, 对其运用改进的平均池化技术,即对矩阵Ζ*中各行向量依次取前20个最大元素值的算术平 均值(先对行向量中的η个元素做降序排列),便可以得到视频的全局时空特征向量X,其维 度为500。
[0024] 所述的步骤3)中的对所有的视频样本实施上述步骤后,可获得相应的时空数据表 示,将其分为训练样本和测试样本,利用支持向量机建立分类模型用于识别测试样本的视 频动作,具体是:
[0025] 3.1)对所有的视频样本实施步骤1)和步骤2)后,可获得相应的时空数据表示{yi, y2,…,ym},此处设有m个视频样本。
[0026] 3.2)将m个视频样本一分为二,其中80%作为训练样本(即具有动作类别标记的视 频),20%作为测试样本(即无标记的视频),利用支持向量机(SVM)在训练样本上建立分类 模型,则输入测试样本的数据表示可通过SVM分类器获得对应的类别标记,即实现了视频动 作的识别功能。
[0027]本发明提出了基于稀疏低秩编码的视频动作识别方法,其优点在于:通过立方体 算子从空间和时间两个维度对视频检测和描述其兴趣点,能充分地刻画视频的动作序列特 性;利用稀疏低秩矩阵分解基于字典矩阵对兴趣点特征进行重构表示,能有效地反映视频 的兴趣点的时空信息;采用改进的平均池化技术对兴趣点的局部时空特征进行编码,能更 好地刻画视频的全局特征建立泛化能力更强的分类器,从而提高了视频的动作识别效果, 为智慧城市的安防监控等应用提供了技术支持。
【附图说明】
[0028]图1是本发明的方法流程图。
【具体实施方式】
[0029]参照附图1,进一步说明本发明:
[0030] 1、获取视频集合后,进行以下操作:
[0031] 1)对每个视频从空间和时间两个维度使用立方体算子检测和描述视频动作的兴 趣点,并形成相应的局部时空特征。
[0032] 2)利用稀疏低秩矩阵分解对局部时空特征做编码,形成对应兴趣点的稀疏低秩编 码表示,并采用改进的平均池化技术获得全局时空特征向量作为一个视频的数据表示。
[0033] 3)对所有的视频样本实施上述步骤后,可获得相应的时空数据表示,将其分为训 练样本和测试样本,利用支持向量机建立分类模型用于识别测试样本的视频动作。
[0034] 步骤1)中所述的对每个视频从空间和时间两个维度使用立方体算子检测和描述 视频动作的兴趣点,并形成相应的局部时空特征,具体是:
[0035] 1 · 1)对每个视频分别用二维高斯光滑核(Gaussian smoothing kernel)与一维高 波滤波器(Gabor filter)从空间维度和时间维度生成η个兴趣点,并采用立方体描述子 (Cuboid descriptor)表示这些局部时空兴趣点。
[0036] 1.2)单个视频的所有兴趣点表示组成的集合记为:T = U1J2,…,ia},其中每个兴趣 点表示Ii(i = l,2,…,n)为长度为80维的具有局部时空特性的列向量,这些列向量组成该 视频对应的特征矩阵X = [-W. ·,x" ] e Rsq'
[0037] 步骤2)中的利用稀疏低秩矩阵分解对局部时空特征做编码,形成对应兴趣点的稀 疏低秩编码表示,并采用改进的平均池化技术获得全局时空特征向量作为一个视频的数据 表示,具体是:
[0038] 2.1)视频的特征矩阵X分解为两部分,一部分为从数据字典(500为字 典的原子个数,80为字典原子的维度)重构获得的低秩矩阵Ze R5ti0xn,另一部分为噪声矩阵 五并对低秩矩阵Z添加1:范式约束I |Z| I1,使得重构矩阵Z尽可能逼近视频中兴趣点 的局部时空特性结构。
[0039] 2.2)数据字典A通过对视频的特征矩阵X运用k均值(k-means)聚类算法获得,即将 视频的所有兴趣点表示聚为500个簇,而簇中心以列向量的形式组成数据字典A。
[0040] 2.3)根据视频的特征矩阵及其数据字典,计算最优稀疏低秩编码矩阵Z的目标函 数为
[0041]
[0042] 其中,常数α>0,λ>〇,符号I I · I I*表示矩阵的核范数为矩阵的奇异值之和,符号 ? I |2,1表示矩阵的12,1范数,即先求矩阵各列向量的h范式再求其Il范式。
[0043] 2.4)为了减少求解核范数的时间复杂度,特将矩阵Z分解为两个矩阵,即 和Qertlxn,用Frobenius范数I I · I |F近似替换核范数,则计算效率更高的目标函数为
[0044]
[0045] 这样,该目标函数中共有四个变量需要优化。
[0046] 2.5)利用变量交替迭代优化方法求解2.4)中目标函数的最优解,可得到视频的最 优稀疏低秩编码表示Z'其中变量交替迭代方法的本质特点在于每轮迭代中依次固定其他 变量的同时仅优化一个变量。
[0047] 2.6)最优稀疏低秩编码表示浐由500个维度为η的行向量组成,即{Z1,Z 2,…,Z500}, 对其运用改进的平均池化技术,即对矩阵浐中各行向量依次取前20个最大元素值的算术平 均值(先对行向量中的η个元素做降序排列),便可以得到视频的全局时空特征向量X,其维 度为500。
[0048]步骤3)中的对所有的视频样本实施上述步骤后,可获得相应的时空数据表示,将 其分为训练样本和测试样本,利用支持向量机建立分类模型用于识别测试样本的视频动 作,具体是:
[0049] 3.1)对所有的视频样本实施步骤1)和步骤2)后,可获得相应的时空数据表示{yi, y2,…,ym},此处设有m个视频样本。
[0050] 3.2)将m个视频样本一分为二,其中80%作为训练样本(即具有动作类别标记的视 频),20%作为测试样本(即无标记的视频),利用支持向量机(SVM)在训练样本上建立分类 模型,则输入测试样本的数据表示可通过SVM分类器获得对应的类别标记,即实现了视频动 作的识别功能。
[0051] 本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护 范围的不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技 术人员根据本发明构思所能够想到的等同技术手段。
【主权项】
1. 一种基于稀疏低秩编码的视频动作识别方法,该方法的特征在于对给定的视频集 合,进行如下操作: 1) 对每个视频从空间和时间两个维度使用立方体算子检测和描述视频动作的兴趣点, 并形成相应的局部时空特征; 2) 利用稀疏低秩矩阵分解对局部时空特征做编码,形成对应兴趣点的稀疏低秩编码表 示,并采用改进的平均池化技术获得全局时空特征向量作为一个视频的数据表示; 3) 对所有的视频样本实施上述步骤后,可获得相应的时空数据表示,将其分为训练样 本和测试样本,利用支持向量机建立分类模型用于识别测试样本的视频动作。2. 如权利要求1所述的基于稀疏低秩编码的视频动作识别方法,其特征在于:所述的步 骤1)中的对每个视频从空间和时间两个维度使用立方体算子检测和描述视频动作的兴趣 点,并形成相应的局部时空特征,具体是: 1.1) 对每个视频分别用二维高斯光滑核与一维高波滤波器从空间维度和时间维度生 成η个兴趣点,并采用立方体描述子表示这些局部时空兴趣点; 1.2) 单个视频的所有兴趣点表示组成的集合记为:Γ=认,/,,..'},其中每个兴趣点表 示Ii(i = l,2,…,n)为长度为80维的具有局部时空特性的列向量,这些列向量组成该视频 对应的特征矩阵X。[.^,…為]e 。:3. 如权利要求1所述的基于稀疏低秩编码的视频动作识别方法,其特征在于:所述的步 骤2)中的利用稀疏低秩矩阵分解对局部时空特征做编码,形成对应兴趣点的稀疏低秩编码 表示,并采用改进的平均池化技术获得全局时空特征向量作为一个视频的数据表示,具体 是: 2.1) 视频的特征矩阵X分解为两部分,一部分为从数据字典J e肢8<^(?重构获得的低秩 矩阵Z e K5()^,另一部分为噪声矩阵五e I*-,并对低秩矩阵Z添加乜范式约束| | Z | |:,使得 重构矩阵Z尽可能逼近视频中兴趣点的局部时空特性结构; 2.2) 数据字典A通过对视频的特征矩阵X运用k均值聚类算法获得,即将视频的所有兴 趣点表示聚为500个簇,而簇中心以列向量的形式组成数据字典A; 2.3) 根据视频的特征矩阵及其数据字典,计算最优稀疏低秩编码矩阵Z的目标函数为其中,常数α>〇,λ>0,符号| | · | I*表示矩阵的核范数为矩阵的奇异值之和,符号| | · 2>1表示矩阵的12>1范数,即先求矩阵各列向量的h范式再求其h范式; 2.4) 为了减少求解核范数的时间复杂度,将矩阵2分解为两个矩阵,即1^狀5°°><81)和 ",用Frobenius范数| | · | |F近似替换核范数,则计算效率更高的目标函数为这样,该目标函数中共有四个变量需要优化; 2.5) 利用变量交替迭代优化方法求解2.4)中目标函数的最优解,可得到视频的最优稀 疏低秩编码表示浐,其中变量交替迭代方法的本质特点在于每轮迭代中依次固定其他变量 的同时仅优化一个变量; 2.6)最优稀疏低秩编码表示?由500个维度为η的行向量组成,即{Z1,Z2,…, Ζ5(χ)},对其 运用改进的平均池化技术,即对矩阵f中各行向量依次取前20个最大元素值的算术平均 值,便可以得到视频的全局时空特征向量X,其维度为500。4.如权利要求1所述的基于稀疏低秩编码的视频动作识别方法,其特征在于:所述的步 骤3)中的对所有的视频样本实施上述步骤后,可获得相应的时空数据表示,将其分为训练 样本和测试样本,利用支持向量机建立分类模型用于识别测试样本的视频动作,具体是: 3.1) 对所有的视频样本实施步骤1)和步骤2)后,可获得相应的时空数据表示{yi, y2,…,ym},此处设有m个视频样本; 3.2) 将m个视频样本一分为二,其中80 %作为训练样本,20 %作为测试样本,利用支持 向量机在训练样本上建立分类模型,则输入测试样本的数据表示可通过支持向量机分类器 获得对应的类别标记,即实现了视频动作的识别功能。
【文档编号】G06K9/00GK106056082SQ201610377217
【公开日】2016年10月26日
【申请日】2016年5月31日
【发明人】李平, 彭勇, 计忠平, 徐向华
【申请人】杭州电子科技大学