一种电视节目内部自动生成主要人物摘要的方法

文档序号:6372187阅读:290来源:国知局
专利名称:一种电视节目内部自动生成主要人物摘要的方法
技术领域
本发明属于多媒体信息处理与检索领域,利用对视频中图像的人物人脸特征的提取和分析,关于电视内容主要人物摘要的一种方法。应用此发明方法可以自动生成人物的摘要,并能标记出采访者和受访者,是一种计算自动的、鲁棒性强的以及算法复杂度低的电视节目视频内容处理方法。
背景技术
现如今,随着广播电视以及互联网的迅速传播和蓬勃发展,多媒体信息作为其中数据的一面也得到了长足的增长,这些海量的数据催生出许多新兴的应用数字电视、网络电视、视频网站等,用户浏览体验和观赏感受等需求也相应的提高,能够在网络端和移动设备端上提供更好的服务成为迫切的要求。 对电视节目内容进行分析,一般预处理的方法是先进行宏分割,切分为多个内部段落。相应的处理方法分为人工标注分割和机器自动分割。人工标注分割耗时耗力,面对海量的视频数据,人工的方法将会变得棘手,而机器自动分割正是适应了这样的条件。机器自动分割的方法有很多种,例如基于主持人场景的自动分割、基于重复片段的自动分割等,而越来越多的电视节目在播放过程中会使用电台标志或者节目特有标志(统称为标志),这一举措主要注重知识产权的保护,其实对于结构化的宏分割来说,提供了更充足的分割依据在电视节目内部非独有产权的段落(如电影简介集锦、商业广告等),将不会加载标志;而播报和采访等享有知识产权的部分,将加载标志,这些标志在时间上不连续,为结构性的分割提供依据。在分割内容后,基于分割为了提供更加具有观赏体验的服务,在每个段落上需进行分析。以往,我们在一些网络或者移动端所能看到的电视节目视频能够提供关键帧的预览(例如视频网站优酷、土豆等),而能提供主要人物摘要的预览的电视节目少之甚少,人物摘要预览比关键帧预览带来的有用信息更多,能够去除很多的冗余(例如冗杂的背景),并且服务体验感更强,能够预览某段落节目内容主要的人物对于用户来说更加实用且更加具有吸引力。同样,面对海量的视频数据,人工标注的方法将不再适用,所以需要提出自动(无人工标注)处理且快速(算法复杂度低)的方法。本方法正是适应了这样的条件要求。另外,对于一段节目视频,无法得知一些先验知识,例如访谈出现的人物信息,所以只能运用无监督学习的方法来提取出人物信息,并且无先验知识得知提取出多少人物,而是自适应提取出主要人物,这样的算法具有普适性、鲁棒性,能够很方便的应用到更多的电视节目中。

发明内容
为设计一个电视节目视频主要人物自动摘要系统,有效且快速的实现主要人物提取,并准确的标记采访者已经受访者,本发明提出了一个基于有标志镜头段落的节目视频主要人物摘要生成的方法。该方法首先对每个单独的有标志的镜头段落按时间均匀间隔地提取关键帧,并做人脸提取、特征提取,基于特征做线性聚类,然后再通过基于图论的聚类方法将人脸图像聚类,再通过自适应的方法对聚类结果处理,过滤出每个段落的主要人物类别。在此基础上,将每个段落的主要人物类别聚集起来,再次进行基于图论的聚类算法,进行一次全部标志段落的人脸图像聚类,通过判断准则得分,选出采访者和受访者,并分别标记,然后返回至各个段落并生成主要人物摘要。本发明提出的方法可以通过文本或者图片形式表示出每个有标志段落主要人物摘要的结果。能够自适应的选取出每个标志段落的主要人物,而不是依据先验信息,并且在此后对于第二次应用基于图论聚类算法来说,滤除(减少)了一些初始类别,也等效于降低了聚类时间,提高了效率。


图I为本发明的系统总框2为区域重叠度计算框图 图3为电视节目结构示例4为电视节目展现以及人物摘要预览例图
具体实施例方式下面结合附图具体来对本发明做进一步详细的描述。如图3所示,视频节目内容分为有标志的镜头段落和无标志的镜头段落,并且分布在整个视频的各个时间段落里,本发明通过对有标志镜头段落的分析,对每个有标志镜头段落进行主要人物摘要。对于如何得到有标志镜头段落的时间位置信息,已经有很多方法和发明已经描述过,例如,将固定位置的特有的标志从关键帧中提取出来,得到正负样本,使用支持向量机(SVM)训练出判别是否为标志的模板,对待处理的节目视频提取出的关键帧使用模板,决策是否为有标志镜头段落的关键帧,从而整合这些关键帧的时间信息,得到有标志的镜头段落。如图I所示,基于有标志镜头段落,本发明方案分为以下几个步骤(I).关键帧提取以及人脸检测;(2).人脸图像特征提取、线性聚类以及基于图论的聚类;(3).自适应主要人物选取;(4).融合各段落主要人物、基于图论聚类;(5).基于规则来评分标记采访者和受访者并生成人物摘要。接下来对以上各步骤做详细的说明一.关键帧提取及人脸检测对每个单独的有标志的镜头段落按时间T均匀间隔地提取关键帧,用以代表镜头段落的信息,并对关键帧图像进行人脸检测,提取出其中的人脸得到人物人脸图像。本系统中T为0. 4s。二.人脸图像特征提取、线性聚类以及基于图论的聚类(一) 提取人脸图像特征人脸特征主要分为两个方面I.区域重叠度
通常来说,人脸的位置在视频段落中是比较稳定的,因此,可以利用人脸位置区域的重叠度来计算不同人脸图像的相似距离,重叠度越高相似性越强。如图2所示,计算重叠度Oi,」规则如下,对于人脸i位置向量(Xi, yi; Wi, 以及人脸j位置向量(Xj, yj; Wj, hj)来说,其中分别代表人脸i的横坐标、纵坐标、宽度、长度,人脸j位置向量表示依然如此(I) 如果满足 Xi > Xj+Wj I I Xj > X^wi Iyi > yj+hj I Yj > Y^hi,即无重叠区域Oijj = 0(2) 否则
权利要求
1.一种电视节目内部自动生成主要人物摘要的方法,包括对电视节目视频进行镜头切害I]、关键帧提取、判别有标志的镜头段落和无标志的镜头段落,其特征在于,该方法还包括以下步骤 步骤一,对每个单独的有标志的镜头段落按时间均匀间隔地提取关键帧,对关键帧图像进行人脸检测得到人物人脸图像; 步骤二,对人脸图像进行特征提取,再通过基于线性聚类的算法以及基于图论的聚类算法进行人物聚类; 步骤三,基于聚类的结果自适应地进行主要人物选取; 步骤四,融合上述所有各个单独的有标志镜头段落的主要人物类别,再进行一次基于图论的聚类算法进行人物再聚类; 步骤五,对聚类结果中人物类别进行评分,选取出采访者,对采访者和受访者作标记并生成主要人物摘要。
2.根据权利要求I所述的方法,其特征在于对人脸图像进行特征提取,再通过基于线性聚类的算法以及基于图论的聚类算法进行人物聚类包括 步骤一,对提取出来的时间连续的人脸计算空间位置区域重叠度,并提取Gabor特征后计算人脸间的Gabor距离,综合重叠度和Gabor距离将时间连续的相似人脸聚类; 步骤二,基于线性聚类的结果,再进行一次基于图论的聚类,把所有线性聚类得到的每个人物类别作为图的结点,构建一个无向图,根据阈值对图的最小生成树进行剪枝,结果为多棵子树,即为多个人物类别。
3.根据权利要求I所述的方法,其特征在于基于聚类结果自适应地进行主要人物选取包括计算每一类人物的持续时间,对这些时间值进行模糊二均值聚类,比较小的类别中心作为选取的阈值,大于阈值的类别被选取为主要人物。
4.根据权利要求I所述的方法,其特征在于对聚类结果中人物类别进行评分,选取出采访者,对采访者和受访者作标记并生成主要人物摘要包括 步骤一,计算每个类别的持续时间; 步骤二,计算每个类别的时间方差; 步骤三,融合持续时间和时间方差信息,计算每个类别的得分; 步骤四,选出得分最高的作为采访者类别,标记采访者和受访者。
5.根据权利要求4所述的方法,其特征在于,融合持续时间和时间方差信息并计算每个类别的得分为 第k类别得分的算法为得分向量Sk = (Ska, Sk,2),式子中& = L2/,部)’,sk,2 = ^2/mf K2),持续时间Tk,时间方差4。
6.根据权利要求4所述的方法,其特征在于,选出得分最高的作为采访者类别,并标记采访者和受访者包括 步骤一,最高得分的算法为l = argmaX(| Sk| 12),I类别标记为采访者,其余类别都标记为受访者,其中I I I I2代表2-范数,argmaX(_)代表使范数满足最大值时参数k的值;步骤二,无论是采访者还是受访者,都选取出每个有标志镜头段落中尺寸最大的人脸图像作为此段落摘要图像。
全文摘要
本发明提出一种电视节目内部自动生成主要人物摘要的方法。该法结合视频中图像特征和无监督聚类方法,实现对节目视频主要人物的提取、采访者和受访者的标记,并生成主要人物摘要预览,提升用户体验感。首先基于有标志的视频段落,均匀时间间隔提取关键帧并做人脸检测、特征提取,基于特征对人脸图像进行线性聚类,利用人脸图像的时间信息和空间信息得到粗略的人物类别,再通过基于图论的聚类得到精细的聚类结果,使用自适应的方法过滤出单独段落的主要人物类别,最后综合所有段落过滤结果,二次应用基于图论的聚类,基于规则判断出采访者与受访者,标记并生成各段落主要人物摘要。本发明基于无监督聚类方法,结构简单、易于实现,具有较强的普适性和鲁棒性。
文档编号G06F17/30GK102799637SQ20121021595
公开日2012年11月28日 申请日期2012年6月27日 优先权日2012年6月27日
发明者董远, 秦钢 申请人:北京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1