一种基于搜索匹配的角色标注方法

文档序号:6547352阅读:228来源:国知局
一种基于搜索匹配的角色标注方法
【专利摘要】本发明公开了一种基于搜索匹配的影视剧角色标注方法,该方法包括步骤:根据待标注对象列表,得到标注场景的待标注对象集合及所有待标注对象信息;为每位待标注对象构造文本关键词,利用图像搜索引擎获得相应的图像集合;在搜索结果图像上进行人脸检测和视觉属性分析,去除其中的噪声,得到待标注对象与标注场景密切相关的角色人脸集合;对标注场景进行人脸检测和跟踪,得到其中所有的人脸序列;基于人脸序列之间的视觉相似度,以及人脸序列与待标注对象角色人脸的视觉相似度分析,对标注场景进行角色标注。本发明利用互联网中关于影视剧角色的人脸图像进行影视剧角色标注,其有益效果在于:标注过程全自动、标注精度高、方法扩展性和普适性强。
【专利说明】—种基于搜索匹配的角色标注方法
【技术领域】
[0001]本发明涉及视频智能分析【技术领域】,更具体的说,涉及一种基于搜索匹配的角色标注方法。
【背景技术】
[0002]随着电影电视剧产业的蓬勃发展,每年有大量影视剧节目被制作出来并极大丰富了人民群众的娱乐生活。绝大部分影视剧的故事主体是人物角色。这些角色由真实演员扮演,影视剧情节也随着角色的出现和交互不断发展和深入。因此,对影视剧进行角色标注,为影视剧中出现的人脸加上相应的角色名,建立人脸一角色名之间的映射关系,从而得到人物角色在影视剧中具体出现的时间片段和空间区域信息,成为一个有着广泛应用价值的重要课题。当前,影视剧角色标注已成为大规模影视剧数据的智能化和个性化管理、浏览和检索等服务中的基础支撑技术。在以角色为中心的影视剧浏览、智能视频摘要、面向特定角色的视频检索等应用中扮演着核心模块的角色。
[0003]目前已经有一些影视剧角色标注的方法被提出来,它们可大致地分为基于人脸模型的方法和基于剧本的方法。基于人脸模型的方法为每个角色收集一定数量的人脸作为训练样本,并利用这些样本为每个角色构造各自的人脸模型,基于这些模型,影视剧中人脸的角色标注则根据它和不同角色人脸模型的相似度实现。这类方法虽然在不少系统中已经得到成功应用。但是,它需要人工收集训练样本,通常会耗费一定的时间和精力。而且上述训练得到的人脸模型一般也较难应用到其它影视剧。因为即使是同一个演员,她/他们在不同影视剧中的视觉表观也可能存在较大的差异,导致基于人脸模型的方法难以扩展到大规模影视剧的处理和分析上来。另一方面,基于剧本的方法则通过挖掘影视剧文本和视觉信息模态在时间上的一致性实现角色标注。一般地,这类方法首先从外部渠道例如互联网上获得影视剧节目的剧本和字幕文本,通过对齐剧本和字幕,得到特定角色在特定时间点在说话的信息。同时根据影视剧中所检测人脸的时间点,初步建立人脸与角色名的映射关系,进而利用人脸间的视觉相似性,对这一关系予以精化使之更准确。基于剧本的方法优势在于标注过程是自动的(无需人工干预)。然而,并不是所有影视剧的剧本和字幕信息都是易于获得的。不少影视剧没有公开它的剧本,或者剧本与字幕并非完全对应,不少译制片也没有中文剧本和字幕,这些因素限制了基于剧本的方法的普适性。
[0004]除上述方法外,近期也有一些基于搜索的名人图像标注方法被提出来。这些方法首先利用搜索引擎收集名人人脸图像构造名人库。然后对待标注图像,通过计算该图像与名人库中图像的视觉相似度,得到少量高度相似的图像,进而根据这些图像所属的名人信息,实现对待标注图像的名人标注。但是,这类方法的有效性尚只在仅包含数百个名人的库上得到证实,此外,这一工作是针对图像域而不是视频域的,无法利用视频结构等可用来辅助标注的有价值线索。
[0005]互联网的繁荣使得大量的人物图像出现在网络上。对具有一定知名度的演员来说,用她/他的真实姓名作为查询,通过图像搜索引擎即可检索到很多她/他的人脸图像。这些人脸通常具有如下特点:1)检索结果图像包含该演员在不同影视剧,以及生活中的形象,人脸也因此有一定的视觉表观变化;2)人脸图像中通常含有一定噪声,例如图像中出现的是其它人的人脸;3)检索结果中排序靠前的图像的正确比例通常比排序靠后的高。另一方面,用影视剧名加上影视剧中演员所扮演的角色名作为查询,由于查询较为严格,通过图像搜索引擎检索到的人脸图像的特点则不同于前者。一般地,当所查询角色是影视剧中的主要角色时,检索结果中排序靠前的图像大部分是该角色在该影视剧中的人脸图像,但当该角色不是主要角色时,排序靠前的检索结果的噪声比例通常会高一些,结果中也会有较高的概率出现一些该影视剧中其它主要角色的人脸图像。
[0006]影视剧角色搜索得到的人脸图像及其上述特点显然可以被用来更好的实现角色标注。但是,现有技术并没有很好的利用这些信息,特别是在挖掘不同查询检索得到的结果图像的特点这一方面。本发明正是基于这一认识提出来。具体地,本发明利用影视剧名加角色名检索得到的图像中通常包含该角色在该影视剧中出现的人脸图像。因此,采用基于视觉匹配的方法即可获得很好的角色标注效果。但是,这样检索得到的图像集合中也可能存在少数甚至较多的噪声,如何鉴别噪声并去除它的影响成为一个难点。为此,本发明创新性的利用真实姓名检索得到的图像集合噪声比例通常较低这一特点,通过挖掘“真实姓名”的人脸集合得到演员的视觉属性,进而利用这些视觉属性对“影视剧名加角色名”的人脸集合进行去噪,从而得到演员的角色人脸集合。基于此,再利用角色人脸与影视剧中人脸的视觉相似性,以及影视剧中人脸之间的视觉相似性,实现影视剧角色的高精度标注。与传统基于人脸模型的方法相比,本发明的标注过程是自动的无需人工干预,且角色人脸图像随影视剧自适应确定,具有良好的扩展性。与基于剧本的方法相比,本发明只需要有影视剧的演员表即可进行,相比于获取剧本和字幕,获取演员表是相对容易很多的任务。退一步说,即使得不到演员表,人工总结一个也是一个远比人工总结剧本和字幕文本容易的任务。因此本发明具有更强的普适性,能够应用到更多影视剧中。此外,基于搜索的名人图像标注方法仅利用人名收集人脸图像,本发明则充分挖掘了不同查询得到的人脸图像间的相关性,并依此实现极具针对性的影视剧角色人脸收集。不仅如此,本发明还通过挖掘视频的结构信息更好地实现角色标注,因而在技术上更加先进标注精度更高。以上可参考申请号为201210215951.1,发明名称为“一种电视节目内部自动生成主要人物摘要的方法”的发明专利;以及申请号为201110406765.1,发明名称为“一种基于角色的电视剧视频分析方法”的发明专利。

【发明内容】

[0007]本发明的目的在于充分挖掘和有效利用互联网中关于影视剧角色的人脸图像,提供一种自动、可扩展、普适性强、高精度的角色标注方法,为海量影视剧数据的智能化和个性化管理、浏览和检索等服务提供基础支撑技术。
[0008]为实现上述目的,本发明提供一种基于搜索匹配的角色标注方法,该方法包括以下步骤:
[0009]S1、根据待标注对象列表,得到标注场景的待标注对象集合及所有待标注对象的信息;
[0010]S2、为每位待标注对象构造文本关键词,利用图像搜索引擎获得相应的搜索结果图像集合;
[0011]S3、在所获得的搜索结果图像上进行人脸检测和视觉属性分析,利用人脸视觉属性的一致性去除其中的噪声,得到待标注对象与标注场景密切相关的角色人脸集合;
[0012]S4、对所述标注场景进行人脸检测和跟踪,得到其中所有的人脸序列;S5、基于人脸序列之间的视觉相似度,以及人脸序列与待标注对象角色人脸的视觉相似度分析,对所述标注场景进行角色标注。
[0013]根据本发明,提出了一种基于搜索匹配的影视剧角色标注方法。该方法通过挖掘不同查询检索得到的人脸图像的关系,得到与影视剧密切相关的角色人脸图像,进而根据所获角色人脸图像与影视剧中人脸序列的视觉相似性,以及影视剧中人脸序列之间的视觉相似性实现角色标注。该方法具有标注过程全自动无需人工干预,标注精度高,适用于大规模影视剧数据处理,扩展性强,适用于多种类型的影视剧,普适性强的优点。该方法还可作为大规模影视剧数据的智能化和个性化管理、浏览和检索服务中的重要基础支撑技术,在以角色为中心的影视剧浏览、智能视频摘要、面向特定角色的视频检索等应用中起到核心模块的作用。
【专利附图】

【附图说明】
[0014]图1为依照本发明一实施例的基于搜索匹配的角色标注方法的流程图。
【具体实施方式】
[0015]为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
[0016]如图1所示,本发明的基于搜索匹配的角色标注方法包括以下步骤:
[0017]S1、根据演员表等待标注对象列表,得到标注场景的待标注对象集合及所有待标注对象的信息:真实姓名和角色名;
[0018]S2、为每位演员构造文本关键词,利用图像搜索引擎获得相应的搜索结果图像集合;
[0019]S3、在所获得的搜索结果图像集合上进行人脸检测和视觉属性分析,利用人脸视觉属性的一致性去除其中的噪声,得到演员与该影视剧密切相关的角色人脸集合;
[0020]S4、对影视剧进行人脸检测和跟踪,得到影视剧中所有的人脸序列;
[0021]S5、基于人脸序列之间的视觉相似度,以及人脸序列与演员角色人脸的视觉相似度分析,实现对影视剧的角色标注。
[0022]根据本发明的优选实施例,根据演员表等待标注对象列表,取得所有待标注对象的真实姓名和角色名的具体过程为:
[0023]步骤11、访问爱演员网(http: //www.ayanyuan.com/)、IMDB (http: //www.1mdb.com/)等专业针对影视剧演员表、剧情介绍的网站,利用影视剧名查询得到该影视剧,即与所述标注场景相关的网页;
[0024]步骤12、根据该网页的页面布局,抓取得到演员表部分,获得该影视剧的演员集合,以及每个演员的真实姓名,角色名等信息。
[0025]根据本发明的优选实施例,对步骤12得到的演员集合,为每位演员构造真实姓名和影视剧名加角色名两组文本关键词,利用图像搜索引擎获得搜索结果图像的具体过程如下:
[0026]步骤21、为步骤12得到的演员集合中的每位演员构造两个文本关键词,一个是演员的真实姓名,另一个是影视剧全名加上演员所扮演角色的名字的组合;
[0027]步骤22、文本关键词构造完毕后,利用图像搜索引擎,比如调用Google提供的应用程序接口,依次将这两个文本关键词提交到Google图像搜索引擎,并设置搜索参数为检索包含人脸的图像,返回多幅与该演员对应的搜索结果图像,比如检索得到的结果图像数量为64,该设置下,Google图像搜索引擎会将检索结果排序在前64位的人脸图像的统一资源定位符(即URL地址)返回到检索端,检索端进而根据该地址下载相应图像。也就是说,在所有图像都可以正常下载的理想情况下,这一步骤可以得到64个搜索结果图像。实际应用中,每个关键词可以下载到的图像通常在50到64之间。用真实姓名和影视剧名加角色名下载得到的图像集合分别被称为“真实姓名”和“影视剧名加角色名”图像集合。
[0028]对演员集合中的每位演员重复上述过程,即得到每个演员的“真实姓名”和“影视剧名加角色名”图像集合。
[0029]根据本发明的优选实施例,对步骤2得到的“真实姓名”和“影视剧名加角色名”图像集合进行人脸检测和视觉属性分析,利用人脸视觉属性的一致性去除其中的噪声,得到演员与该影视剧密切相关的角色人脸集合的具体过程如下:
[0030]步骤31、调用人脸识别云服务 Face++(http://www.faceplusplus.com.cn/)的人脸检测接口等工具,对“真实姓名”和“影视剧名加角色名”图像集合进行人脸检测,并根据检测结果将图像集合表示为相应的“真实姓名”和“影视剧名加角色名”人脸集合;同时提取每个待标注对象人脸的视觉属性,在本发明一实施例中,所述视觉属性包括性别、年龄和人种三种,并定位人脸的M个面部关键区域,在本发明一实施例中,所述面部关键区域包括九个,分别为:两个眼睛的左右角,鼻子的左下沿、中下沿和右下沿,嘴巴的左右角。在每个面部关键区域提取N维特征向量(比如128维的SIFT特征向量),并将这9个128维的特征向量拼接为1152维的人脸面部视觉特征描述子。对演员集合中的每位演员重复上述过程,得到每个演员的“真实姓名”和“影视剧名加角色名”人脸集合,每个人脸的上述三种视觉属性和面部关键区域位置;
[0031]步骤32、在每位演员的“真实姓名”人脸集合上,分别生成上述三种视觉属性的统计直方图,比如:为性别属性生成一个2维直方图,2维分别对应男性和女性;为年龄属性生成一个8维直方图,其中第I维和第8维分别对应10岁以下和70岁以上的人脸,年龄落在区间[10*(1-l),10*i)的人脸对应直方图的第i维;为人种属性生成一个3维直方图,3维分别对应“亚洲人”、“白人”和“黑人”。根据人脸三种视觉属性的出现情况对所述统计直方图的相应维度进行投票。当该演员“真实姓名”人脸集合中所有人脸均已投票完时,计算直方图得票数最多的维度与人脸数量的比值,若该比值超过设定的阈值,比如0.5,则认为该视觉属性在“真实姓名”人脸集合上是显著的。一个演员被定义为可识别的当且仅当她/他的上述三种视觉属性都是显著的。这三种显著属性也被定义为该演员的人物属性。在所有演员的“真实姓名”人脸集合上重复上述过程,得到所有的可识别演员和她/他们的人物属性。对于那些未被定义为可识别的演员,由于从网络人脸图像中无法鉴别出她/他们的人物属性,在后续的角色标注中将不会被考虑;[0032]步骤33、对步骤32得到的每位可识别演员,在其“影视剧名加角色名”人脸集合上(不失一般性,演员角色名和“影视剧名加角色名”人脸集合分别定义为Peri和CFi),基于步骤31得到的1152维人脸面部视觉特征描述子进行人脸聚类,在本发明一实施例中,采用仿射传播(Affinity Propagation)算法进行人脸聚类,该聚类算法需要计算人脸的相似度矩阵S = [Si,j]TXT,其中,元素&为人脸A和fj的视觉相似度,当i关j时,为人脸A和fj描述子的余弦距离,当i = j时,为该集合中所有人脸相似度的平均值,T为集合CFi中的人脸数量。根据该聚类过程,可将CFi表示为公式(I)的形式
【权利要求】
1.一种基于搜索匹配的角色标注方法,其特征在于,该方法包括以下步骤: S1、根据待标注对象列表,得到标注场景的待标注对象集合及所有待标注对象的信息; S2、为每位待标注对象构造文本关键词,利用图像搜索引擎获得相应的搜索结果图像集合; S3、在所获得的搜索结果图像上进行人脸检测和视觉属性分析,利用人脸视觉属性的一致性去除其中的噪声,得到待标注对象与标注场景密切相关的角色人脸集合; S4、对所述标注场景进行人脸检测和跟踪,得到其中所有的人脸序列; S5、基于人脸序列之间的视觉相似度,以及人脸序列与待标注对象角色人脸的视觉相似度分析,对所述标注场景进行角色标注。
2.根据权利要求1所述的方法,其特征在于,所述步骤I包括以下步骤: 步骤11、检索得到与所述标注场景相关的网页; 步骤12、根据检索得到的网页,得到所述标注场景的待标注对象集合,以及每个待标注对象的信息。
3.根据权利要求2所述的方法,其特征在于,所述待标注对象的信息包括真实姓名和角色名。
4.根据权利要求1所述的方法,其特征在于,所述步骤2包括以下步骤: 步骤21、为所述待标注对象集合中的每个待标注对象构造文本关键词; 步骤22、基于所述文本关键词,利用图像搜索引擎检索得到每个待标注对象的、多幅与所述文本关键词对应的搜索结果图像集合。
5.根据权利要求4所述的方法,其特征在于,所述文本关键词包括标注场景名称与待标注对象对应角色名字的组合,以及待标注对象的真实姓名,与待标注对象的真实姓名对应的搜索结果图像集合记为Peri,与标注场景名称与待标注对象对应角色名字的组合对应的搜索结果图像集合记为CFitl
6.根据权利要求1所述的方法,其特征在于,所述步骤3包括以下步骤: 步骤31、对所述搜索结果图像集合进行人脸检测,提取每个待标注对象人脸的视觉属性,并定位人脸的M个面部关键区域,在每个面部关键区域提取N维特征向量,得到MXN维的人脸面部视觉特征描述子; 步骤32、对于每个待标注对象的图像集合Peri,分别生成对应于所述视觉属性的统计直方图,并根据每个视觉属性的出现情况对所述统计直方图的相应维度进行投票,根据投票结果判断每个视觉属性的显著性,当且仅当某个待标注对象的所有视觉属性均为显著时,该待标注对象被认为是可识别的,并将对应的视觉属性作为该待标注对象的人物属性; 步骤33、对每个可识别的待标注对象,在其对应的图像集合CFi上,基于所述人脸面部视觉特征描述子进行人脸聚类,根据所述人物属性在每个聚类结果类别中的出现比率,得到相应待标注对象的候选角色人脸集合; 步骤34、对于待标注对象的候选角色人脸集合进行图像去重; 步骤35、利用人脸平均视觉相似度,对于图像去重后的候选角色人脸集合进行人脸去重。
7.根据权利要求6所述的方法,其特征在于,所述视觉属性包括性别、年龄和人种。
8.根据权利要求1所述的方法,其特征在于,所述步骤4包括以下步骤: 步骤41、对所述标注场景进行镜头边界检测,并根据检测结果将所述标注场景分解为s个镜头; 步骤42、对于s个镜头中的每一个镜头进行人脸检测和跟踪,得到所述标注场景中所有的人脸序列。
9.根据权利要求1所述的方法,其特征在于,所述步骤5包括以下步骤: 步骤51、对每个人脸序列中的所有人脸提取颜色直方图特征,并基于这一特征进行聚类; 步骤52、根据聚类结果以及人脸序列出现时间的重叠情况,生成冲突矩阵C ; 步骤53、计算人脸序列之间的视觉相似度,得到人脸序列相似度的概率传播矩阵P ;步骤54、计算角色与人脸序列的匹配置信度矩阵S,其中,矩阵S的元素为人脸序列与角色人脸集合之间的相似度; 步骤55、利用所述冲突矩阵C更新所述匹配置信度矩阵S,避免为出现时间重叠的人脸序列同时赋予高匹配置信度; 步骤56、利用更新后的匹配置信度矩阵S、相似阈值Vl和不相似阈值,生成初始标注矩阵 L(0); 步骤57、基于所述概率传播矩阵P和初始标注矩阵Lw,通过标签传播算法更新所述初始标注矩阵Lftl)中的不确定元素,直至算法收敛; 步骤58、令1^为算法收敛后的标注矩阵,更新L,中元素的标注置信度,以融合人脸序列之间的相似度和人脸序列与角色人脸的匹配置信度; 步骤59、依次从更新后的标注矩阵L,中查找值最大且满足一定条件的元素(6.,并更新所述标注矩阵L,,重复上述过程直至所述标注矩阵L,中不再存在满足所述条件的元素,然后对当前置信度最高的人脸序列和角色名组合进行标注。
10.根据权利要求9所述的方法,其特征在于,所述步骤59中的一定条件为:
【文档编号】G06F17/30GK103984738SQ201410218854
【公开日】2014年8月13日 申请日期:2014年5月22日 优先权日:2014年5月22日
【发明者】陈智能, 冯柏岚, 徐波 申请人:中国科学院自动化研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1