基于局部时空特征描述与金字塔词汇树的视频行为识别方法

文档序号:9708743阅读:583来源:国知局
基于局部时空特征描述与金字塔词汇树的视频行为识别方法
【技术领域】
[0001] 本发明涉及一种基于局部时空特征描述和金字塔词汇树的视频行为识别方法。
【背景技术】
[0002] 随着计算机视觉领域的研究不断深入、信号和图像处理技术的不断更新和发展, 行为识别日益成为一项具有挑战性的研究内容。行为识别是机器视觉的一项基础工作,也 是许多视频挖掘应用的关键技术。基于视频的人体行为识别课题的主要研究内容是对采集 到的视频中的运动人体进行行为检测,并对行为作特征提取和描述,构造有效的人体行为 识别模型来自动分析视频数据,理解视频中运动人体的行为内容,以正确识别视频中的人 体行为类别,并不断提高行为识别精度。
[0003] 综观国内外人体行为识别领域的相关研究,人体行为识别出现了两大研究方向: 基于全局特征的人体行为识别和基于局部特征的人体行为识别。
[0004] 基于全局特征的人体行为识别将整个运动人体作为检测和识别的对象。首先,采 用背景差法、轨迹追踪或其他方法定位视频中的运动人体,提取包含运动人体在内的兴趣 区域。然后,计算兴趣区域中运动人体的轮廓、姿态、轨迹等信息,生成人体行为的全局特 征。最后,利用得到的人体行为全局特征进行训练和建模,实现对视频中运动人体行为的分 类与识别。基于全局特征的人体行为识别得到的行为特征包含了丰富的信息,有很强的行 为识别能力。
[0005] 基于局部特征的人体行为识别将运动人体看作由若干个身体支部构成的集合,对 运动人体身上发生显著变化的局部区域(如手肘、膝盖、腿、脚等)进行检测和识别。首先,定 位视频数据中在空间维度和时间维度上都发生明显变化的关键像素点。然后,提取这些关 键像素点附近的视频信息,计算得到人体行为的局部特征。最后,对获得的人体行为局部特 征进行学习、训练,构造分类模型,实现人体行为的分类与识别。
[0006] 尽管视频中的人体行为识别课题已经成为机器视觉研究领域的一大热点,众多国 内外学者对人体行为识别已展开了多方面的深入研究,各种行之有效的人体行为识别模型 及其改进也被不断提出,但是,面临各种真实环境的复杂性、现实场景的多样性以及运动人 体的差异性,识别视频中的人体行为仍极具挑战。例如,复杂背景中的人体行为识别、多人 交互情况下的人体行为识别、多种动作连续发生的人体行为识别等复杂条件下的人体行为 识别的正确率都有待进一步提高。这种多样化的、更为复杂的人体行为识别场景正是将来 人体行为识别应用领域的发展趋势,具有长远的、典型的现实意义。
[0007] 利用传统LBP(Local Binary Patterns)算法对视频纹理进行描述的方法只考虑 了邻点与阈值之间的关系并没有考虑邻点和邻点之间的关系。LBP在被扩展到三维后即 LBP-T0P算法同样继承了它的缺点,而且由于三维时空特性,LBP-T0P算法对时域和空域进 行相同编码忽略了时域和空域特征的差异性。而传统词袋模型忽略了视觉单词的时序特 性,也忽略了视觉单词之间的关系。

【发明内容】

[0008] 针对LBP-T0P算法忽略了邻点之间的关系而丢失了邻域结构信息的问题,以及忽 略了时空特征在时域和空域上变化所具有差异性的问题,本发明提出了一种基于局部时空 特征描述与金字塔词汇树的视频行为识别方法,该方法对时空兴趣点所形成的时空立方体 切片的时域和空域采取不同的时空纹理描述策略。
[0009] 为了实现上述目的,本发明采用的技术方案如下:
[0010] 基于局部时空特征描述与金字塔词汇树的视频行为识别方法,包括以下步骤:
[0011] 步骤1特征的提取:
[0012] 步骤1.1首先将视频数据集转换成大小为图像高度*图像宽度*视频帧数的矩阵数 据;
[0013] 步骤1.2设置局部时空立方体特征提取方法的相关参数:空间尺度〇、时间尺度τ、 响应阈值R-thresh以及时空兴趣点个数;
[0014] 步骤1.3通过计算视频数据中的每一个像素点响应值R,如果计算得到的像素点的 响应值R>R-thresh,则提取并保存该像素点的(X,y,t)坐标及响应值R;
[0015] 步骤1.4将提取出来的像素点根据其响应值R的大小进行降序排列,选取前η个像 素点作为时空兴趣点;
[0016] 步骤1.5在找到响应值比较高的兴趣点后,就以兴趣点为中心生成时空子区域,用 时空子区域中的信息对行为特征进行描述;
[0017] 步骤2特征的描述:
[0018] 步骤2.1首先使用Avg-LBP算法将邻域的均值代替中心点像素灰度值作为阈值中 心实现对时空纹理的描述,Avg-LBP算法的计算公式为:
[0019]
[0020]
[0021 ] P为邻域像素数,gP为邻域中的P邻点的灰度值为P个邻点的像素均值; * /.-(1
[0022]步骤2.2在时域和空域使用dLBP描述子对8邻域的方向信息进行描述,描述了邻域 之间的变化率和变化方向,计算公式为:
[0023]
[0024] 其中,P'=P/2,gc为邻域中心像素点的灰度值,gP,和g P是沿中心点方向上中心点 两侧P'邻点和P邻点的灰度值;
[0025]步骤2.3利用TLBP描述子描述邻域像素之间的关系,其在每一行中比较了行中像 素的关系,按行顺序的将像素灰度值进行比较并进行模式统计,计算公式为:
[0026]

[0027] 步骤3构造模型,进行识别:
[0028] 步骤3.1基于等多视觉词汇森林的金字塔匹配核构造算法先将人体行为表示成 SMVVF的直方图向量:令X为某段视频的时空兴趣点集合,< 为第m个VVF第1层的直方图向 量,假设用…表示第m个视觉词汇森林直方图向量, ?F21~是第1层的权重,则多重视觉词汇森林直方图向量2Hx,...,mHx),M为多重 视觉词汇森林中词汇森林的个数;
[0029] 步骤3.2然后将直方图向量转换为PMK核特征;
[0030] 步骤3.3将PMK核特征用于SVM分类,实现对视频行为的识别。
[0031] 所述步骤1.4中时空兴趣点的提取方法是通过线性可分的滤波器对视频序列进行 处理来实现:空域上使用二维Gaussian滤波对图像进行加权平滑处理,目的是为了降噪;在 时域上,使用一维Gabor滤波器捕捉像素在时序上的纹理变化;通过一个响应函数来判断每 一个像素的响应值,响应值高的就可以作为兴趣点,响应函数如下:
[0032] R=(I*g*hev)2+(I*g*h〇d)2
[0033] 公式中I为视频图像,g = g (X,y,σ)为空间维度的2维平滑高斯核函数,hgv和h〇d为 时域中正交的一维Gabor滤波器,分别定义为:
[0034]
[0035]
[0036] 而参数〇和1,对应为高斯滤波的空间尺度和Gabor滤波的时间尺度。
[0037]所述步骤2的具体过程为:在时空立方体上,以时空兴趣点为中心在xy、xt、yt三个 正交平面上等距离取三个切片图像,对每一幅切片图像使用Avg-LBP算法进行描述,将描述 结果进行串联,形成Avg-LBP联合直方图,对立方体每一幅切片图像使用dLBP算法进行描 述,将切描述结果进行串联,形成dLBP联合直方图;接着对立方体中的xt和yt切片图像使用 TLBP算法进行描述并进行串联,形成TLBP联合直方图;最后将切片图像的Avg-LBP直方图、 dLBP直方图和TLBP直方图进行串联,得到联合直方图形成DT-LBPT0P特征。
[0038]本发明与现有技术相比,其显著优点为:(1)特征描述方法采用DT-LBPT0P算法,解 决了邻域之间变化率以及变化方向的问题。(2)另对时域采取针对性的时空纹理描述策略, 对时域邻域像素使用TLBP(Local Binary Pattern)描述子进行描述,反映纹理在时序上的 变化特性。(3)分类模型提出使用多重等规模子集视觉词汇森林,用金字塔匹配核快速计算 高维无序特征间的的相似度,建立了 一种新型分类模型。
【附图说明】
[0039] 图1为人体行为识别模型的一般性框架;
[0040] 图2为本发明DT-LBPT0P算法向量组成示意图;
[0041] 图3为dLBP编码的四个基本方向;
[0042] 图4为dLBP的编码规则;
[0043] 图5为TLBP算法描述示意图。
【具体实施方式】
[0044] 本实施例以公开的人体运动视频数据集KTH数据集进行行为识别。
[0045] 首先对数据集进行特征提取,包括以下步骤:
[0046] 将行为个数设置为对应的六种行为(walk),慢跑(jog),跑(run),挥手(hand wave)和鼓掌(hand clap),每个视频提取的兴趣点数设置为200。将立方体局部时空特征提 取方法的相关参数设置为:空间尺度〇 = 2.4、时间尺度τ = 1.6、响应阈值R-threSh = 2eT4。设 置立方体 LBP 描述子参数 iscuboid = 1,P = 1,R = 8,ExtFLAG = 1,GradFLAG = 1。
[0047] 通过转换程序将原视频数据转换成大小为图像高度*图像宽度*视频帧数的矩阵 数据。
[0048] 通过特征提取程序计算视频数据中的每一个像素点响应值R,如果计算得到的像 素点的响应值R>R-thresh,就提取并保存该像素点的(X,y,t)坐标及响应值R。
[0049]将提取出来的像素点根据其响应值R的大小进行降序排列,选取前ncuboids个像 素点作为时空兴趣点。
[0050]在找到响应值比较高的兴趣点后,就以兴趣点为中心生成时空子区域。
[0051 ] 特征提取之后对特征进行特征描述,包括以下步骤:
[0052] 在时空立方体以后,以时空兴趣点为中心在Xy、Xt、yt三个正交平面上等距离取三 个切片图像,对每一幅切片图像使用Avg-LBP算法进行描述,将描述结果进行串联,形成 Avg-LBP联合直方图,对立方体每一幅切片图像使用dLBP算法进行描述,将切描述结果进行 串联,形成dLBP联合直方图;接着对立方体中的xt和y t切片图像使用TLBP算法进行描述并 进行串联,形成TLBP联合直方图;最后将切片图像的Avg-LBP直方图、dLBP直方图和TLBP直 方图进行串联,得到联合直方图形成DT-LBPT0P特征。
[0053] LBP(Local Binary Patterns)纹理特征算法具有旋转不变性和灰度不变性。其最 初的定义为:在3 X 3的窗口中,把窗口的中心像素灰度值作为阈值,将其邻域的8个相邻像 素点的灰度值与其进行比较,如果邻点像素灰度值大于中心像素灰度值,则标记该像素点 为1,否则为0。这样,将3*3邻域的标记结果串联起来就得到了一个8比特的无符号数,即得 到了该窗口的LBP值,将该无符号数转换为十进制数就得到了该中心像素点的LBP模式值。 LBP算法扩展到三维空间并将其称之为LBP_T0P(LBP three orthogonal planes),原理是 在时空立方体中以兴趣点为中心,取XY、XT、YT三个正交平面面作为视频切片分别计算LBP 编码,从而得到三个切片的描述直方图,然后将三个直方图进行串联,
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1