一种基于近邻保持重构的视频关键帧摘要提取方法

文档序号:8365989阅读:306来源:国知局
一种基于近邻保持重构的视频关键帧摘要提取方法
【技术领域】
[0001] 本发明涉及视频关键帧摘要提取方法的技术领域,特别是基于近邻重构的视频关 键帧摘要提取方法。
【背景技术】
[0002] 随着数码相机和摄像机在日常生活中的普及,人们总是淹没在万维网成千上万的 视频数据中。为了帮助用户管理和浏览这些数量庞大的视频,研宄者们通过定义最重要和 最适宜的内容来将整段的视频数据压缩成为视频摘要。一个简单而有效的基于内容的视频 摘要方法是基于关键帧提取的视频摘要,该方法为视频索引、视频浏览和视频检索等应用 提供了合适的抽象摘要。每个视频关键帧是一个能够表示视频无声内容的静态图片,所以 后续可以被其他图片处理算法所分析利用。通过浏览几张最重要的关键帧,用户可以快速 了解整个视频,从而可以花费较少的时间从成千上万个视频中找到自己感兴趣的那一个。 尤其是在今天,各种在线电影都会为用户提供重点时刻的关键帧以方便用户播放影片时可 以跳过不感兴趣的片段同时又不错过重要的内容,为用户提供了方便有效的播放导航功 能。由于电影数据量太过庞大而使得人工标注变得过于费时且不切实际,所以自动关键帧 提取成为了近年来的研宄热门。
[0003]研宄者们已经提出了一些基于关键帧提取的视频摘要方法。然而,他们都面临同 样一个问题,那就是原本充满视频信息流、音频信息流甚至文本信息流的整个视频与几张 静态关键帧图片之间的信息鸿沟问题。传统的基于关键正提取的视频摘要技术主要关注于 关键帧之间的区别并且往往采用聚类的方式得到关键帧。据我们所知,只有很少的研宄从 数据重构的角度考虑视频摘要。而且,视频中的帧流信息能量(informationenergy)总是 呈现波浪状。这是因为随着时间的推移,视频中的重要内容帧和过渡内容帧总是交替出现 导致的。而线性重构则无法体现这一时间上的结构以及视频帧的局部聚集性,所以直接将 线性重构应用于视频摘要无法有效地提取出高质量的关键帧摘要。我们提出了一种全新的 方法,即近邻保持重构,该方法为原视频的每一帧构建一个能够保持其近邻结构重构模型, 并通过最小化整个视频与重构模型之间的误差来找到最优的关键帧集合作为原视频的关 键帧摘要。我们认为从一个视频中选择几个帧图片作为高质量的关键帧摘要的话,这些帧 图片应该要能够最佳重构原视频。因此,原视频与重构模型之间的重构误差天然成为了衡 量关键帧质量的标准,即重构误差越小,关键帧摘要质量越好。从空间的角度考虑,我们提 出的近邻保持重构算法旨在选择出那些能够张成原视频帧空间内部的固有子空间的帧集 合,因此这些帧也能够覆盖原视频的核心信息。

【发明内容】

[0004]本发明要克服现有技术的上述缺点,提出一种基于近邻保持重构的视频关键帧摘 要提取方法,以帮助用户管理和浏览互联网上数量庞大的视频数据。
[0005] 一种基于近邻保持重构的视频关键帧摘要提取方法,包括:
[0006] 1)从视频数据库中获取视频,作为待抽取关键帧摘要的目标视频;
[0007] 2)针对每个目标视频,抽取该视频中的每一张帧图片,作为该视频关键帧摘要的 备选图片库;
[0008] 3)获取备选图片库中每张帧图片的全局特征和局部特征,并以此将每张帧图片表 示为一个向量;
[0009] 4)计算帧图片之间的相似度,并以此得到帧图片之间的近邻关系;
[0010] 5)利用近邻保持重构算法,从备选图片库中挑选出既包含视频主要内容又具有最 小冗余信息的最优关键帧图片;
[0011] 6)将挑选出来的关键帧图片提取出来,组成该目标视频的摘要。
[0012] 步骤3)所述的获取备选图片库中每张帧图片的全局特征和局部特征,并以此将 每张帧图片表不为一个向量,包括:
[0013] 31)提取图片的颜色直方图,得到256维的全局特征;
[0014] 32)提取图片的SIFT特征点,并聚类得到500维的局部特征;
[0015] 33)将两种特征合并得到756维的图片特征向量。
[0016] 步骤4)所述的计算帧图片之间的相似度,包括:
[0017] 41)设第i张帧图片向量为Vi,第j张帧图片向量为vj;
[0018] 42)这两张帧图片之间的相似度^为:
【主权项】
1. 一种基于近邻保持重构的视频关键帧摘要提取方法,包括: 1) 从视频数据库中获取视频,作为待抽取关键帧摘要的目标视频; 2) 针对每个目标视频,抽取该视频中的每一张帧图片,作为该视频关键帧摘要的备选 图片库; 3) 获取备选图片库中每张帧图片的全局特征和局部特征,并以此将每张帧图片表示为 一个向量; 4) 计算帧图片之间的相似度,并以此得到帧图片之间的近邻关系; 5) 利用近邻保持重构算法,从备选图片库中挑选出既包含视频主要内容又具有最小冗 余信息的最优关键帧图片; 6) 将挑选出来的关键帧图片提取出来,组成该目标视频的摘要。
2. 如权利要求1所述的一种基于近邻保持重构的视频关键帧摘要提取方法,其特征在 于:步骤3)所述的获取备选图片库中每张帧图片的全局特征和局部特征,并以此将每张帧 图片表不为一个向量,包括: 31) 提取图片的颜色直方图,得到256维的全局特征; 32) 提取图片的SIFT特征点,并聚类得到500维的局部特征; 33) 将两种特征合并得到756维的图片特征向量。
3. 如权利要求1所述的的一种基于近邻保持重构的视频关键帧摘要提取方法,其特征 在于:步骤4)所述的计算帧图片之间的相似度,包括: 41) 设第i张帧图片向量为Vi,第j张帧图片向量为vj; 42) 这两张帧图片之间的相似度Wij为
4. 如权利要求1所述的一种基于近邻保持重构的视频关键帧摘要提取方法,其特征在 于:步骤4)中所述的帧图片之间的近邻关系,包括: 43) 针对第i张帧图片,找到与其相似度最高的另外40张帧图片作为它的近邻,并记录 第i张帧图片与它的每个近邻的相似度的值; 44) 遍历所有的帧图片,找到它们的近邻并记录相似度的值。
5. 如权利要求1所述的一种基于近邻保持重构的视频关键帧摘要提取方法,其特征在 于:步骤5)中所述的近邻保持重构算法,包括: 51) 若目标视频包含η张帧图片,用{V# = 1,2,···,η}表示,即;要提取的目标摘要包 含m(m < η)张关键帧图片,用{xk|k = S1, S2,…,S1J表示,其中每张关键帧图片都来自目 标视频的原有帧,即分^仏€{¥# = 1乂~71},丨81,82,~,\}是摘要关键帧~^父在 原视频帧图片集合V中的编号; 52) 设原视频帧图片Vi经关键帧摘要图片集重构后为f i (X),其中矩阵X的每一行是一 个xk,则最小化如下近邻保持函数可以保持原视频帧图片之间的近邻结构: Σ J|f"x)-f^x) I I2Wij; 因为构成摘要的这些关键帧图片是从原视频帧图片中选出来的,即X C= 其中矩阵 V的每一行是一个Vi,所以当这些关键帧被选定时,这几张关键帧图片的重构尤其要精确; 为了体现这一点,给定摘要关键帧Xk时,设其对应的重构帧为f k(x),则近邻保持函数修改 如下:
其中λ是控制两个加法因子的权重变量; 根据近邻保持函数,则我们可以得到近邻保持重构的表达式如下: F = λ (L+ λ Mr1MV 其中矩阵F的每一行是一Afi(X);并引入一个大小为ηΧη的对角矩阵M作为标识; 当i e {Sl,S2,…,sm}时,M矩阵的第i个对角元素为1,其余元素都为0;这样的M矩阵可 以用来标识第i个原视频帧图片是否被选择成为摘要关键帧; 经过数学上的等价转换,可以得到原视频V和近邻保持重构F之间的重构误差如下:
53)最小化如上式所示的重构误差,得到最优的M,并根据M的非零对角线元素挑选出 既包含视频主要内容又具有最小冗余信息的最优关键帧图片。
【专利摘要】基于近邻保持重构的视频关键帧摘要提取方法:从视频数据库中获取视频,作为待抽取关键帧摘要的目标视频;针对每个目标视频,抽取该视频中的每一张帧图片,作为该视频关键帧摘要的备选图片库;获取备选图片库中每张帧图片的全局特征和局部特征,并以此将每张帧图片表示为一个向量;计算帧图片之间的相似度,并以此得到帧图片之间的近邻关系;利用近邻保持重构算法,从备选图片库中挑选出既包含视频主要内容又具有最小冗余信息的最优关键帧图片;将挑选出来的关键帧图片提取出来,组成该目标视频的摘要。
【IPC分类】G06F17-30, H04N21-8549
【公开号】CN104683885
【申请号】CN201510058003
【发明人】陈纯, 何占盈, 卜佳俊, 高珊
【申请人】浙江大学
【公开日】2015年6月3日
【申请日】2015年2月4日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1