一种基于视频检索系统的光流方法

文档序号：6437303阅读：225来源：国知局

专利名称：一种基于视频检索系统的光流方法
技术领域：
本发明涉及计算机模式识别处理技术，特别是涉及一种基于视频检索系统的光流方法。
背景技术：
基于内容的视频检索技术一直是多媒体信息研究领域的热点问题。大致的工作流程是把给定的原始视频依据图像帧之间的突变或是渐变方式分割成若干相关的独立单元镜头；然后，对每个被分割出来的镜头提取一定的特征作为该镜头的索引结构；最后，依据所建立的索引结构计算待测镜头与目标镜头之间的相似度，从而使得用户在提交了浏览或查询的请求时匹配出相应的结果。依据提取特征的不同，视频检索的现有方法可以细分为基于颜色特征的方法、基于域空间特征的方法、基于形状特征的方法、基于运动特征的方法寸。基于颜色特征的代表工作首先是由Ferman等人提出来的(参见A. M. Ferman， A. M. Tekalp, and R. Mehrotra. Robust Color HistogramDescriptors for Video Segment Retrieval and Identification. IEEETransaction on Image Processing, Vol.11, No. 5, PP. 497-508,2002).他们综合考虑镜头中所有帧的颜色直方图信息，利用阿尔法裁剪颜色直方图的方法去构造视频的镜头索引结构，对所有帧相应直方图量化分量上的值进行排序，然后根据排序计算出排序的中值，围绕中值选取相应的邻域求取均值，以此作为最后的直方图，当邻域选取为O时，阿尔法裁减平均算子退化为中值，当邻域选取可以覆盖镜头内所有的帧时，该算子退化为均值。然而，基于阿尔法裁剪颜色直方图的方法具有两个缺点首先，它丢弃了帧内的空间信息；第二，对于检索排序而言每一个直方图的系数分量都要进行计算，通常直方图的尺寸较大，这使得检索的过程极为费时。对于一个镜头，我们还可以考虑其帧内的空间频率内容和帧间的统计信息，即域空间特征。空间频率的内容由离散余弦变换(DCT)获得，对于不同的频率系数，基于一定的概率统计模型去描述其在一个镜头内的信息。由于在DCT域中，低频分量具有更大信息。Lee等人提出了基于由粗至精级联结构的快速检索方案(参见H. C. Lee and S.D.Kim. Rate-driven Key FrameSelection Using Temporal Variation of Visual Content. ElectronicsLetters, Vol. 38, No. 5，pp. 217-218，2002)，该方案仅根据首几个低频 DCT 系数便可去除大量的不相似的镜头，仅有少量的镜头就能够传至更精细的下一级进行细检，计算量因此被大大减少。域空间特征的缺点就是很多时候并不能真实反映视频的语义内容，因此就限制了只能在某些特殊的场合使用。镜头的关键帧可以作为镜头内容的重要表示，一旦关键帧选定，研究的对象就从视频转化为图像，利用图像中物体或区域的形状特征是一个有效而重要的手段。现有的基于形状特征的视频检索方法主要有两种，一种是Zhang等人[9]使用的轮廓特征 (参 JAL D. S. Zhang and G. J. Lu. Generic FourierDescriptor for Shape-based Image Retrieval.IEEE InternationalConference on Multimedia and Expo, pp.425—428，2002)，采用物体边界的傅立叶变换作为其形状描述；一种是区域特征，主要用来描述物体上的每一点与其他点之间的联系程度，这方面的代表工作有Li等人使用的形状无关矩(参见 Ζ. M. Li，J. Zhang，Y. J. Liu, and H. Li. The Curve-structureInvariant Moments for Shape Analysis and Recognition. NinthInternational Conference on Computer Aided Design and ComputerGraphics, pp. 163-197，2005)、Cakmakov 等人使用的旋转函数(参 JAL D. Cakmakov and Ε. Celakoska. Shape Matching of Digital Curves. Proceedings of the 4th International Symposium on Image and SignalProcessing and Analysis, pp. 457-461，2005)和 Zhrng 等人使用的小波描述符(参见 H. M. Zhang, Q. H. Wang, Y. X. Kan, J. H. Liu, and Y. W. Gong. Researches on Hi erarchi cal Image Retri eval Model Based on WaveletDescriptor and Indexed by Half-Axes-Angle using R-Tree. InternationalConference on Machine Learning and Cybernetics, pp. 3755-3759, 2006)。注意到合适的形状特征必须满足对变换、旋转和缩放无关，这对形状相似度的计算带来了极大难度，所以无论是基于轮廓特征还是基于区域特征，都有其应用的局限性。运动特征是视频的重要内容。运动特征又可以分为两类，一类是镜头的运动特征，主要是利用MPEG视频中的帧类型、宏块类型、运动矢量这些压缩参数信息建立索引， Haubold 等人(参见 A. Haubold and Μ. Naphade. Classification of Video Events using 4-dimensional time-compressedMotion Features. ACM International Conference on Image and VideoRetrieval, pp. 178-185，2007)和 Wang 等人(参见 F. Wang，Y.G.Jiang， C. W. Ngo. Event-based Semantic Detection Using Motion Relativity andVisual Relatedness. IEEE International Conference on Multimedia，pp. 239-248，2008)在这方面都做出了不错的工作。这些方法具有计算成本低的特点，但此类方法的缺陷也是明显的，因为它们所表示的并不是视频内容中运动物体真实的运动情况，仅仅是镜头间的运动变化情况，而人的视觉系统往往更容易被前者所作用和吸引。视频内容中运动物体的运动特征是第二类重要的特征，Tahayna 等人(参见 B. Tahayna,M. Belkhatir, and S. Alhashmi. Motion Information for Video Retrieval. IEEE international conferenceon Mult imedia and Expo, pp. 870—873，2009)禾口 Feng 等人(参见 B. L. Feng, J. Cao, S. X. Lin, Y.D.Zhang, and K. Tao. Mot ion Region-based TrajectoryAnalysis and Re-ranking for Video Retrieval.IEEE internationalconference on Multimedia and Expo, pp. 378-381,2009)在他们提出的方法中关注于通过视频中运动物体的运动轨迹来检索，实验证明，使用运动轨迹在检索精度上和识别率上远优于使用镜头的运动特征，但运动轨迹的刻画也需要建立相应的模型，由此会比第一类运动特征增加较多的计算成本，花费较多的运行时间。

发明内容
本发明提供一种基于视频检索系统的光流方法，该方法通过对视频镜头的图像帧集合采取捕捉光流特征进行分类，并对每一类构造相应的光流直方图，通过比较不同直方图之间的距离匹配待检索的视频内容。一种基于视频检索系统的光流方法，包括以下步骤1)将视频镜头预处理，将给定的视频镜头进行帧分割，对每帧图像进行卷积平滑，平滑后通过每相邻的两帧图像计算像素点的光流值，进而得到光流的模长与幅角信息；2)利用光流的模长与幅角信息，对视频镜头中的帧图像进行区分，将具有相似模长大小与幅角方向的图像帧归为一类；3)对分好的每一类图像帧构造基于模长与幅角的光流直方图，分别得到基于模长与幅角的视频镜头光流直方图矩阵；4)定义基于光流直方图矩阵的距离函数，从视频数据库中匹配出类似于给定视频镜头的视频镜头，完成检索过程。基于内容的视频检索指的是能自动识别或理解视频序列的重要特征，根据视频和视频对象的内容及上下文联系在大规模视频数据库中检索出用户所需要的视频信息，其应用的现实性是迫切急需的。本发明提出了一种新颖的方法，采用光流特征作为检索的依据，能很好的反映出视频本身的动态内容，快速地找出匹配镜头。本发明方法明确，运行鲁棒，可以植入代理服务器的防火墙，通过管理员设置相应的安全级别，从而对相关视频的信息进行检索识别；还可以运行于主机托管的Web服务器上，通过在Web服务器上加装过滤监控软件，验证防止非法用户上传包含敏感信息视频的有效性。

图1为本发明的技术方案流程图；图2为视频镜头预处理流程图；图3为图像帧分类流程图；图4为构造光流直方图流程图；图5为匹配待检索视频流程图。
具体实施例方式一种基于视频检索系统的光流方法，首先，将给出的视频镜头预处理，将其分割成图像帧，进行卷积平滑，计算相应的光流数据；然后，根据得到的光流信息将图像帧进行分类；接着，对每类图像构造光流的模长与幅角直方图，进而得到整个视频镜头的光流直方图矩阵；最后，基于光流直方图的距离函数，从视频数据库中匹配出类似于给定视频镜头的视频镜头，完成检索过程。具体流程参见图1。下面具体介绍关键的实现细节 1.视频镜头预处理，流程如图2所示；对于一个给定的视频镜头，我们将其分割成N+1个图像帧，图像帧的大小为XX Y，对于每个图像帧ft(x，y)，其中1彡t彡N+1，0彡χ彡X-1，0彡y彡Y-1，使用卷积函数h(x， y)，得到平滑后的图像gt (χ, y)，其中gt(x，y) =h(x，y)*ft(x，y)。(1)任意相邻的gt (χ, y)和 gt+1 (χ, y) (1 彡 t 彡 N)，可算得光流场(ut(x,y), vt (χ, y))。从而我们可以构造出像素点的运动大小因子MOMP和运动方向因子D0MP，即
权利要求
1.一种基于视频检索系统的光流方法，包括以下步骤1)将视频镜头预处理，将给定的视频镜头进行帧分割，对每帧图像进行卷积平滑，平滑后通过每相邻的两帧图像计算像素点的光流值，进而得到光流的模长与幅角信息；2)利用光流的模长与幅角信息，对视频镜头中的帧图像进行区分，将具有相似模长大小与幅角方向的图像帧归为一类；3)对分好的每一类图像帧构造基于模长与幅角的光流直方图，分别得到基于模长与幅角的视频镜头光流直方图矩阵；4)定义基于光流直方图矩阵的距离函数，从视频数据库中匹配出类似于给定视频镜头的视频镜头，完成检索过程。
2.根据权利要求1所述的基于视频检索系统的光流方法，其中，视频镜头预处理包括对于一个给定的视频镜头，将其分割成N+1个图像帧，图像帧的大小为XXY，对于每个图像帧ft(x，y)，其中1≤t≤Ν+1，0<χ<Χ-1，0≤y≤Y-1，使用卷积函数h(x，y)，得到平滑后的图像gt(x，y)，其中 gt(x, y) = h(x, y)*ft (χ, y)任意相邻的gt (x，y)和gt+1 (x，y) (1≤t≤N)，可得光流场(yt(x,y), vt (χ, y))，从而构造出像素点的运动大小因子MOMP和运动方向因子D0MP，即
3.根据权利要求2所述的基于视频检索系统的光流方法，其中，图像帧的分类包括对于每帧图像gt(x，y)，计算它的运动大小函数M(t)与运动方向函数D(t)，
全文摘要
一种基于视频检索系统的光流方法，包括步骤将视频镜头预处理，将给定的视频镜头进行帧分割，对每帧图像进行卷积平滑，平滑后通过每相邻的两帧图像计算像素点的光流值，进而得到光流的模长与幅角信息；利用光流的模长与幅角信息，对视频镜头中的帧图像进行区分，将具有相似模长大小与幅角方向的图像帧归为一类；对分好的每一类图像帧构造基于模长与幅角的光流直方图，分别得到基于模长与幅角的视频镜头光流直方图矩阵；定义基于光流直方图矩阵的距离函数，从视频数据库中匹配出类似于给定视频镜头的视频镜头，完成检索过程。
文档编号G06F17/30GK102436487SQ20111034165
公开日2012年5月2日申请日期2011年11月3日优先权日2011年11月3日
发明者吴偶, 李家, 陈颖申请人:北京电子科技学院

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈颖;吴偶;李家
技术所有人：北京电子科技学院
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。