一种基于多核典型相关分析的视频检索方法

文档序号:6512891阅读:243来源:国知局
一种基于多核典型相关分析的视频检索方法
【专利摘要】基于多核典型相关分析的视频检索方法,从互联网上抓取视频及对应的文本描述后,针对每个视频进行如下操作:首先根据镜头是否突变对视频进行切分,抽取其关键帧,并提取关键帧中的视觉特征和镜头的运动特征构成视频特征向量,针对每个视频的文本描述提取词频特征;然后利用多核典型相关分析方法得到视频特征和词频特征的映射矩阵及其低维表示,使它们在低维空间的相关性最大;最后,当用户输入关键词做视频检索时,根据词频特征的映射矩阵得到关键词词频特征的低维表示,按照其与视频特征低维表示的余弦相似度由大到小依次返回视频检索结果。本方法的优点在于:增强视频内容和检索关键词的相关程度,提高用户的检索精度。
【专利说明】—种基于多核典型相关分析的视频检索方法
【技术领域】
[0001]本发明涉及视频检索的【技术领域】,特别是基于多核典型相关分析的视频检索方法。
【背景技术】
[0002]随着近年来计算机网络多媒体技术通讯技术的飞速发展,人们可以通过互联网上传、观看和下载各类视频信息。互联网已经逐渐成为巨大的视频仓库,如何更加快速有效地检索用户所需视频信息已经日益成为信息检索热点问题。
[0003]传统的视频检索方法是基于文本的,它将视频标签信息作为关键字和视频形成一一匹配关系,之后通过对关键字进行特征提取、预处理等操作进行聚类分类。这种完全依赖于手工标注视频信息的方法效率较低,对视频信息的描述能力不足且需要一定的经验。因此,基于文本的检索方法已不能满足用户日益增长的需求。自20世纪八十年代开始,基于内容的视频检索已逐步为人们所关注,近年来更成为研究热点。该方法可以在没有人工参与的情形下,自动地提取视频特征,而不仅仅是依赖于标签信息。具体说来,该方法在镜头分割和关键帧选取之后提取关键帧的视觉特征和镜头的运动特征,并录入视频检索数据库。用户检索时,将视频按照用户检索关键词的词频特征进行检索,并按照相似度由高到低的顺序将检索结果返回给用户。采用基于内容的视频检索可以更加客观、具体和全面地描述视频信息,降低文本描述信息的主观性和局限性,并大大提高检索的精确度。
[0004]在机器学习领域内,基于内容的视频检索方法尚不是很多,但也取得了一定的成绩,如在高维数据分类中性能优良的联合分类特征最优算法,该方法可以选择与分类最相关的联合特征,还有减少描述子的输入维度下降算法和基于粗糙集的方法对数据进行语义保持的降维检索法等。.
【发明内容】

[0005]为了帮助用户能够快速检索到搜索的视频,以提高观看视频的体验度,本发明提出了一种基于多核典型相关分析的视频检索方法,该方法包括以下步骤:
[0006]1、从互联网抓取视频后,针对每个视频及其文本描述进行以下操作:
[0007]I)根据镜头是否突变对视频进行切分,抽取其关键帧,并提取关键帧中的视觉特征和镜头的运动特征构成视频特征向量,针对每个视频的文本描述提取词频特征;
[0008]2)利用多核典型相关分析方法,分别获取视频特征和词频特征的映射矩阵,从而获得两者对应的低维表示,使它们在低维数据空间的相关性最大;
[0009]3)当用户输入关键词进行视频检索时,根据词频特征的映射矩阵得到关键词词频特征的低维表示,按照其与视频特征低维表示的余弦相似度由大到小依次返回视频检索结
果O
[0010]进一步,步骤I)中所述的处理视频及其对应文本描述的方法,具体是:
[0011]I)视频镜头切割时,采用双比较方法,设Tb为检测镜头突变的阈值,Ts为检测镜头渐变的阈值,用差值度量法检测相邻帧的差值,若差值大于Tb,则属于镜头突变,应进行镜头切分,若差值小于Tb大于Ts,则有可能属于镜头渐变,此时需要将该帧与后续帧进行比较,若帧间差值小于Ts,但相邻帧之间差值累加和大于Tb,则意味着的确属于镜头渐变;
[0012]2)提取关键帧时,首先先将镜头的首尾帧设定为关键帧,因为首帧通常为了吸引观众代表了镜头的主题,尾帧希望观众回味往往用一种特写表示,首尾帧确定后,还要选取变化显著的帧作为关键帧,即将镜头中非关键帧的每一帧依次与关键帧进行比较,如果差异较大,将其作为关键帧,依次比较下去直到比完镜头中所有非关键帧,之后还要根据帧平均法选取关键帧,即在某个指定位置上,计算所有帧像素值的平均值,关键帧为像素值最接近平均值的帧;
[0013]3)关键帧特征提取时,静态图像的视觉特征提取颜色、形状、纹理,镜头运动特性提取镜头运动变化、运动轨迹、运动目标大小,形成视频的视频特征表示;
[0014]4)对视频文本描述进行分词,统计词频,形成其词频特征表示。
[0015]进一步,步骤2)中所述的多核典型相关分析方法,具体是:
[0016]I)将训练样本视频总数设为n,用m维向量Xi来表示第i个视频的视频特征,将η个m维的向量Xi合并成矩阵X,代表视频特征矩阵,同理,用k维向量Yj来表示第j个视频对应的文本描述的词频特征,将η个k维的向量Y」合并成矩阵Y,代表词频特征矩阵;
[0017]2)利用高斯核函数公式
【权利要求】
1.一种基于多核典型相关分析的视频检索方法,该方法的特征在于从互联网抓取视频后,针对每个视频进行以下操作: 1)根据镜头是否突变对视频进行切分,抽取其关键帧,并提取关键帧中的视觉特征和镜头的运动特征构成视频特征向量,针对每个视频的文本描述提取词频特征; 2)利用多核典型相关分析方法,分别获取视频特征和词频特征的映射矩阵,从而获得两者对应的低维表示,使它们在低维数据空间的相关性最大; 3)当用户输入关键词进行视频检索时,根据词频特征的映射矩阵得到关键词词频特征的低维表示,按照其与视频特征低维表示的余弦相似度由大到小依次返回视频检索结果。
2.如权利要求1所述的基于多核典型相关分析的视频检索方法,其特征在于:所述的步骤I)中所述的处理视频及其对应文本描述的方法,具体是: 1)视频镜头切割时,采用双比较方法,设Tb为检测镜头突变的阈值,Ts为检测镜头渐变的阈值,用差值度量法检测相邻帧的差值,若差值大于Tb,则属于镜头突变,应进行镜头切分,若差值小于Tb大于Ts,则有可能属于镜头渐变,此时需要将该帧与后续帧进行比较,若帧间差值小于Ts,但相邻帧之间差值累加和大于Tb,则意味着的确属于镜头渐变; 2)提取关键帧时,首先先将镜头的首尾帧设定为关键帧,因为首帧通常为了吸引观众代表了镜头的主题,尾帧希望观众回味往往用一种特写表示,首尾帧确定后,还要选取变化显著的帧作为关键帧,即将镜头中非关键帧的每一帧依次与关键帧进行比较,如果差异较大,将其作为关键帧,依次比较下去直到比完镜头中所有非关键帧,之后还要根据帧平均法选取关键帧,即在某个指定位置上,计算所有帧像素值的平均值,关键帧为像素值最接近平均值的帧; 3)关键帧特征提取时,静态图像的视觉特征提取颜色、形状、纹理,镜头运动特性提取镜头运动变化、运动轨迹、运动目标大小,形成视频的视频特征表示;` 4)对视频文本描述进行分词,统计词频,形成其词频特征表示。
3.如权利要求2所述的基于多核典型相关分析的视频检索方法,其特征在于:所述的步骤2)中所述的多核典型相关分析方法,具体是: 1)将训练样本视频总数设为n,用m维向量Xi来表示第i个视频的视频特征,将η个m维的向量X i合并成矩阵X,代表视频特征矩阵,同理,用k维向量Yj来表示第j个视频对应的文本描述的词频特征,将η个k维的向量Y」合并成矩阵Y,代表词频特征矩阵; 2)利用高斯核函数公式 KlXi,XJ = exp (-二_:)计算出X的Gram矩阵Kx,其中Kx为η行η列的矩阵,Il.Il2表示向量的I2范数,实数参数σ表示高斯核的带宽,通过设置不同的0,可以得到一组具有不同非线性结构的高斯核,同理,对Y应用二维多项式核函数公式K(YitY1) - (Yi1Y.-- Cj2.计算出Y的Gram矩阵Ky,其中(.)τ表示向量或矩阵的转置,参数C为大于等于O的核函数参数,通过设置不同的C,可以得到一组具有不同非线性结构的多项式核; 3)将进行核函数转化后的Kx,Ky进行归一化处理; 4)基于多核典型相关分析的视频检索方法的目标函数表达式为:
4.如权利要求3所述的基于多核典型相关分析的视频检索方法,其特征在于:所述的步骤3)中所述的检索匹配方法,具体是:1)将根据用户提交的检索关键词转化为关键词词频特征向量y,,对y,应用拉普拉斯核函数公式
【文档编号】G06T7/00GK103559196SQ201310438216
【公开日】2014年2月5日 申请日期:2013年9月23日 优先权日:2013年9月23日
【发明者】卜佳俊, 高珊, 李平, 陈纯, 何占盈, 宋明黎 申请人:浙江大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1