基于摘要空间特征学习的视频摘要关键帧提取方法
【技术领域】
[0001] 本发明涉及一种视频摘要关键帧提取方法,特别是涉及一种基于摘要空间特征学 习的视频摘要关键帧提取方法。
【背景技术】
[0002] 文献"S.Avila,A.Lopes,A.LuzJr.,andA.Araujo.VSUMM:AMechanismDesigned toProduceStaticVideoSummariesandAnovelEvaluationMethod.Pattern RecognitionLetters, 32(1) :56 - 68, 2011〃公开了一种基于视频帧聚类的关键帧提取算 法。这种算法将视频帧的颜色直方图特征作为输入数据,同时以欧式距离度量视频帧的相 似性,进而利用k-均值聚类的方法将视频帧分配到不同类簇,最后选取每一个类簇中心来 作为关键帧。其中,类簇中心的个数是由视频中镜头的个数决定的,而镜头边界通过相邻帧 之间的欧氏距离的峰值确定,这一步骤适应了视频数据的特点。但该方法假设视频数据分 布在关键帧周围,过分依赖于聚类算法。由于缺乏准确度量视频各帧间相似性的方式,数据 分布的假设很难保证,往往导致聚类效果不佳,进而影响关键帧的质量。
【发明内容】
[0003] 为了克服现有视频摘要关键帧提取方法提取的关键帧质量差的不足,本发明提 供一种基于摘要空间特征学习的视频摘要关键帧提取方法。该方法对视频帧进行均匀采 样,并对采样后的每一帧提取颜色直方图特征,将视频帧的特征矩阵X作为输入数据;利用 Lipschtiz光滑的实函数,将视频帧的特征矩阵X映射到摘要空间S,通过目标函数,对权重 矩阵W进行求解,利用权重矩阵W进行代表帧提取,通过感知哈希算法,获取视频帧的图像 指纹,并计算两个图像指纹的汉明距离,若两个代表帧图像指纹的汉明距离H小于阈值,两 个视频帧就被认定为相似帧,其中一帧将从代表帧集合移出。最终,得到满足代表性和差异 性要求的关键帧集合,将其按时间顺序排列得到视频摘要。由于关键帧代表性和差异性的 度量能够使视频摘要在不存在信息冗余的条件下展现视频内容,可以提高视频摘要关键帧 的质量。
[0004] 本发明解决其技术问题所采用的技术方案是:一种基于摘要空间特征学习的视频 摘要关键帧提取方法,其特点是采用以下步骤:
[0005] 步骤一、对视频帧进行均匀采样,然后对选取的每一个视频帧建立HSV空间的颜 色直方图。其中,H通道16等分,S通道和V通道分别4等分,并将三个通道的统计数据归 一化,得到每一帧的特征向量。最终,得到视频的特征矩阵X=U1,X2, ...,xn},并将其作为 输入数。其中n为均匀采样后视频帧的数目,Xn为第n帧的特征向量。
[0006] 步骤二、利用Lipschtiz光滑的实函数f将特征矩阵X映射到摘要空间S,
[0007]
[0008] 其中,f(X1)是第i帧在摘要空间中的描述子。由于视频数据中存在着很多信息冗 余和数据联系,视频数据并不是均匀的分布在摘要空间S,而是分布在它的一个子空间上, 该子空间记为M。在子空间M上,f由一组锚点的函数值{f(aj)IajGA,j= 1,2,. . .k}的 线性组合近似,
[0010] 其中,锚点集合A定义为k-均值聚类方法得到的聚类中心,固定k的取值为视频 总帧数的1/150。k-均值聚类方法将相似的帧分到同一类别中,不同的类别具有不同的内 容,聚类中心是该类别中所有特征向量的均值向量,故每一个聚类中心作为Lipschtiz映 射的锚点,其函数值可用来代表视频的某一方面内容,并且{f(a,)|a]GA,j=l,2,...k} 完整的代表视频内容。那么,权重Wl]代表了视频第i帧对视频第j方面内容的表达能力。
[0011] 步骤三、利用下面的目标函数优化求解权重矩阵W。
[0013] 显然,由于存在高维诅咒,很难直接对上式进行优化求解。然而,若f是一个 (a,0,p)-Lipschitz实函数,W是锚点上的非负权重矩阵,对于任意的Xi,
[0015] 其中,a,0和p都是可调参数。为了简化问题,让a= 0 =p= 1。式⑷表 明,线性组合的近似残差由(4)式的右侧限制。也就是说,在不知道映射函数f?以及摘要空 间S的情况下求得权重矩阵W,极大地简化了问题。优化函数如下:
[0021] 步骤四、利用学到的权重矩阵W,进行代表帧的挑选。代表帧的挑选原则为:为视 频的每一方面内容选取对其表达能力最强的帧作为一个代表帧。
[0022] 利用下面的公式进行代表帧挑选:
[0023] r^f1 =arg:mpm^., (8)
[0024] 其中,ref;为第j个代表帧。
[0025] 得到了代表帧集合Ref=Iref1,ref2, ? ? ?,refj,可见代表帧的数目和k-均值聚 类中设定的类簇数目相同,代表帧集合Ref可以代表视频的主要内容,但要被选为关键帧, 代表帧集合还要满足差异性。
[0026] 步骤五、关键帧提取。
[0027] 利用感知哈希获得代表帧的图像指纹,步骤如下:
[0028] 1)代表帧被转换为灰度图,并降采样为32*32的小图,不要保持纵横比。
[0029] 2)对降采样之后的帧进行离散余弦变换,只取离散余弦变换矩阵的左上角8*8的 子矩阵;
[0030] 3)去除8*8矩阵左上角的第一个元素,并利用8*8矩阵的另外63个元素计算平均 离散余弦变换值;
[0031] 4)比较8*8矩阵中元素与离散余弦变换均值的大小关系,若大于均值则将其置为 1,若小于均值,则将其置为〇。
[0032] 通过得到的每个视频帧的图像指纹,利用下式计算指纹间的汉明距离,
[0034] 当两个图像指纹的汉明距离H小于8时,去除两个代表帧的其中一个,最终获得关 键帧集合。将关键帧按照时间顺序排列,生成视频摘要。
[0035] 本发明的有益效果是:该方法对视频帧进行均匀采样,并对采样后的每一帧提取 颜色直方图特征,将视频帧的特征矩阵X作为输入数据;利用Lipschtiz光滑的实函数,将 视频帧的特征矩阵X映射到摘要空间S,通过目标函数,对权重矩阵W进行求解,利用权重矩 阵W进行代表帧提取,通过感知哈希算法,获取视频帧的图像指纹,并计算两个图像指纹的 汉明距离,若两个代表帧图像指纹的汉明距离H小于阈值,两个视频帧就被认定为相似帧, 其中一帧将从代表帧集合移出。最终,得到满足代表性和差异性要求的关键帧集合,将其按 时间顺序排列得到视频摘要。由于关键帧代表性和差异性的度量能够使视频摘要在不存在 信息冗余的条件下展现视频内容,对视频摘要关键帧质量提高了 20%以上。
[0036] 下面结合附图和【具体实施方式】对本发明作详细说明。
【附图说明】
[0037] 图1是本发明基于摘要空间特征学习的视频摘要关键帧提取方法的流程图。
[0038] 图2是本发明方法与【背景技术】方法生成的视频摘要结果对照图。
【具体实施方式】
[0039] 参照图1-2。本发明基于摘要空间特征学习的视频摘要关键帧提取方法具体步骤 如下:
[0040] 步骤1,视频数据预处理。
[0041] 为了减少视频数据的冗余,首先对视频帧进行均匀采样,具体为每一秒钟取一个 视频帧进行分析。然后对选取的每一个视频帧建立HSV空间的颜色直方图。其中,H通道 16等分,S通道和V通道分别4等分,并将三个通道的统计数据归一化,进而得到每一帧的 特征向量。最终,得到视频的特征矩阵X=Ix1,x2, ...,xn},并将其作为输入数。其中n为 均匀采样后视频帧的数目,Xn为第n帧的特征向量。
[0042] 步骤2,将视频数据映射到高维空间。
[0043] 为了更好地研究视频数据的性质,利用Lipschtiz光滑的实函数f将特征矩阵X 映射到摘要空间S,
[0044]
[0045] 其中,f(X1)是第i帧在摘要空间中的描述子。由于视频数据中存在着很多信息冗 余和数据联系,视频数据并不是均匀的分布在摘要空间S,而是分布在它的一个子空间上, 该子空间记为M。在M上,f可由一组锚点的函数值{f(a)IA,j= 1,2,. . .k}的线性 组合近似,
[0047] 其中锚点集合A定义为k-均值聚类方法得到的聚类中心,固定k的取值为视频总 帧数的1/150。k-均值聚类方法将相似的帧分到同一类别中,不同的类别具有不同的内容, 聚类中心是该类别中所有特征向量的均值向量,故每一个聚类中心作为Lipschtiz映射的 锚点,其函数值可用来代表视频的某一方面内容,并且{f(a])|a]GA,j=l,2,...k}可以 完整的代表视频内容。那么,权重W1,代表了视频第i帧对视频第j方面内容的表达能力。
[0048] 步骤3,优化求解权重矩阵W。
[0049] W可以利用下面的目标函数进行优化求解,
[0051] 显然,由于存在高维诅咒,很难直接对上式进行优化求解。然而,若f是一个 (a,0,p)-Lipschitz实函数,W是锚点上的非负权重矩阵,对于任意的Xi,
[0053] 其中,a,0和p都是可调参数。为了简化问题,让a= 0 =p= 1。式⑷表 明,线性组合的近似残差可以由(4)式的右侧限制。也就是说,在不知道映射函数f以及摘 要空间S的情况下求得权重矩阵W,这极大地简化了问题。优化函数如下:
[0058] 为了简化问题,用||I-WC来代替IIX-WAl|F,优化函数变为:
[0060] 步骤4,代表帧提取。
[0061] 利用学到的权重矩阵W,进行代表帧的挑选。代表帧的挑选