专利名称:面向跨媒体新闻检索的人脸-人名对齐方法及系统的制作方法
技术领域:
本发明属于跨媒体信息检索技术领域,具体涉及一种特定媒体一多模态新闻跨媒体检索方法及系统。
背景技术:
随着网络的普及和图像设备的大众化, 迅速增强的数字采集技术与存储交付能力导致在线和离线的图像数据呈爆炸性扩增,尤其是那些带有文本标注的新闻图像资源。正因为此类信息的来源越来越丰富,使得针对新闻图像资源实施更加有效的检索、组织和分析变得非常重要[1]。一方面,由于新闻图像及其对应的文本标注通常是以人为主题进行描述,因此这使得用户通过使用一个完善有效的检索系统来查询一个特定人的相关新闻图像成为更为紧迫的一种需求3]。而当前仅仅主要利用文本检索方式进行相应处理,即简单利用伴随新闻图像一同出现的文本标注信息与查询人名的字符匹配情况进行人脸图像返回,其所返回的检索结果中通常包含很多与该查询人名无关的人脸图像,其检索性能并不理想[4]。因此,为尽可能检索出关于某个特定人对应的正确新闻图像资源,有必要从文本语义级别深层次分析包含该特定检索人名的文本标注的语义信息,并融合与该文本标注相对应图像的视觉信息(特别是人脸视觉信息)来提高检索性能。另一方面,由于此类多模态新闻图像信息已经越来越广泛地被应用到各种研究和工程中,利用具有明确语义信息的图像数据作为数据分析源及用于其它相关用途,因此很有必要将多模态信息所对应的底层视觉特征与高层语义特征相关联,挖掘出二者之间的相互关联关系。而当前主要通过人工标注的方式来定义和描述具有特定底层视觉特征的图像数据所对应的相关语义信息,但人工标注的方式需要耗费非常大的时间代价。同时,由于标注过程带有明显的人为主观性,可能在一定程度上导致视觉特征和语义特征之间的关联性并不是十分紧密。为更充分和高效地挖掘多模态新闻信息的底层视觉特征与高层语义特征之间的相互关联性,实现更为精确有效的跨模态人脸-人名对齐是一项十分有意义且具有挑战性的工作。而跨模态人脸-人名对齐,即将图像中具有相同或相近语义的人脸和人名进行匹配,并非一项新的工作[5’ 6’ 7’ 8]。传统上,将人脸和人名进行关联的处理主要考虑以下两种方式,即对图像标注采用面向原始文本信息的查询操作% U' 12' 13' 14],或者通过人脸检测工具对返回图像进行排序或过滤[15’ % 17]。但仅仅通过简单的人名查询和图像标注匹配,很有可能产生许多错误结果。另一方面,当前大多数的人脸识别方法都仅仅应用在受限数据集中,而对于新闻图像而言,其中的人脸姿态和表情都有很大变化,还有低劣的图像分辨率和图像质量等原因,同时也没有足够可用和可信赖的训练集用于通过学习获得人脸分类器,这些诸多因素使得很难对新闻图像中的人脸获得令人满意的人脸识别性能和效果[18’
19,20]
O同时,当前越来越多的研究注意到当充分利用一种媒体中的信息时,将可能会对另一种媒体中的信息处理和分析十分有帮助,尤其是在同时考虑图像以及与它相关联的文本信息这两种媒体信息时。当文本信息(如图像对应的文本标注)伴随着视觉显示信息(如新闻图像)一同出现时,会对人脸与人名之间的关联性获取起到非常重要的作用。文本和图像信息两者之间的相互作用影响已成为跨模态人脸与人名对齐中的一个热点研究,在对齐过程中融合充分的文本分析将会对图像集的整体检索性能带来明显提升当前,对于跨模态人脸和人名对齐的研究越来越多地考虑将文本信息和图像信息相结合,以此来获得更好的检索与分析性能% 21' 22' 23]。近年来,有许多实例是利用那些伴随图像一起出现的文本信息来进行跨模态人脸和人名的对齐处理,从整体上可分为以下两种相关处理方式
(I)首先,利用文本信息进行相关检索过程,然后直接从图像的视觉特征出发,进行人脸图像的分析与识别。即,首先通过文本检索方式得到一个特定人的人脸图像候选集,之后对当前候选集中的人脸图像进行相似性评估和度量。目前主要采用一种基于图的方法来获得当前人脸候选集的一个最紧密人脸图像子集,此子集中人脸图像之间互相更加相似紧密,所得到的这些人脸图像也就是所检索的当前特定人对应的人脸图像结果集合。在此方法基础上,Ozkan等提出一种同时利用视觉和文本特征获得最紧密子图的方法来检索属于一个特定人的人脸图像[22]。该方法基于这样一种理念,即某个人的人脸图像经常会在新闻中随着他/她的人名一同出现,尽管其中伴随着属于其他人的人脸图像或一些由所使用的人脸检测方法错误检测所带来的一些非人脸图像。Guillaumin等考虑对带有文本标注的新闻图像数据集中的两种人脸命名情况,即查找属于一个特定人的人脸图像和对数据集中所有人脸图像分配指定人名[23]。他们首先利用初始的基于文本搜索的过程,将可能分配指定给一张人脸图像的人名限制在出现在文本标注中的人名集中,然后将分析人脸图像的视觉特征作为下一步处理。(2)同时将文本特征信息和图像视觉信息相互结合,来共同完成人脸与人名的对齐过程。即,首先通过对人脸图像进行分析处理,生成人脸图像的判别空间,并以此得到一个基于人脸图像特征的视觉模型。然后,考虑文本中的上下文信息,利用此上下文信息构造一个文本分析模型。最后,将所得到的视觉模型和文本分析模型相结合,在以成对形式出现的人名和人脸基础上,用统计模型方法进行聚类,找出属于一个确定人名的所有人脸图像,将其进行正确命名。即,同时充分考虑一个人名在对应文本上下文中所具有的可视化概率情况下,寻找算法对人脸图像进行聚类分析,获得最终的人脸人名间的对齐结果。在此方法基础上,Yang等提出一种通过探索各种线索的方法在广播新闻影片中寻找特定的人。这些线索包括出现在字幕中的人名、人脸信息、新闻主播画面与最重要字幕中的人名、及影片中人物出现的时序模式线索[13]。该任务通过利用视频中的脚本,视频结构及视觉特征等多模态信息来实现。Everingham等解决在电视或电影材料中自动标注出现人名的问题,并证明可通过同时结合视觉和文本这些多模态信息而获得较高精确率[21]。他们通过结合监督信息和互补的线索来将电视中的人名和人脸进行对齐。这些互补线索包括电视中的字幕、对事件的描述、及对当前正在讲话的人的识别。Pham等描述他们对新闻网站中所获得的图像和文本标注中存在的人脸和人名进行对齐的实验,所提出的将人脸和人名进行关联的方法在检索或挖掘多媒体资料中非常有价值,同时也利用视觉模型和文本模型之间的对称性进行详细的对称实验[7]。最重要的是,他们研究通过利用文本和视觉结构信息的通用方法来预测另一种模态信息中相对应实体的存在性。在这里,特别有必要提到由Berg等所进行的研究,主要通过核主成分分析方法(Kernel Principal ComponentAnalysis, KPCA)和线性判别分析方法(Linear Discriminant Analysis, LDA)所得到一种简单的视觉模型和基于上下文所得到的语言模型进行结合17' 24]。在以成对形式出现的人名和人脸基础上,他们利用期望最大化(Expectation Maximization, EM)算法进行聚类,找出属于一个确定人名的所有人脸图像。在充分考虑一个人名在对应文本上下文中所具有的可视化概率情况下,他们对利用EM算法和最大似然估计(Maximum Estimation, ME)算法进行聚类的效果分别进行评估,并充分显示将视觉模型和语言模型结合起来会比仅用视觉模型产生更好的实验结果。由以上分析可看出,当前已有的仅考虑人脸视觉特征或者同时结合文本特征与人脸视觉特征的人脸-人名对齐方法比较多,同时部分方法也已取得较好效果。然而,所有这些方法均仍未充分考虑以下四个方面所带来的影响
(I)大多数现有的跨媒体对齐方法都将重点放在利用同一新闻图像中的每个人名与每张人脸之间的相互关联信息。然而,一幅新闻图像所对应的文本标注可能包含多个人名,而给定的新闻图像的文本标注中的一些人名可能不会在此图像中具有对应的人脸,这些人名只是作为图像的辅助描述。如果没有对人名重要性的足够分析,这些人名可能会形成对齐系统中的“噪声”信息,这些信息会降低人名与人脸之间的对齐准确性并带来二义性。尽管一些研究人员已考虑利用文本标注中的文本信息来度量人名在相应文本中的可视化概率,但只是简单地利用每个人名对应的上下文信息,这对有效和精准地评估人名的可视化概率远不足够。(2)当前有关大多数查找特定人所对应人脸图像的研究,通常基于文本标注进行文本检索(如人名与标注进行字符串匹配)时返回检索人脸图像集。这些方法都是以一个先决条件为基础建立,即进行人名检索所返回的人脸图像集中包含属于当前检索人名的较多高度相似的人脸图像和少量属于其他人的人脸图像。但存在一种特殊情形,所返回的人脸集只包含少数几张甚至仅仅一张人脸图像,则不能满足之前的先决条件,即缺少足够可用来进行分析处理的多模态信息而无法很好地进行处理,也使得人脸-人名对齐过程在这种情况下变得受限和不可行。(3)人脸与人名的对齐过程其实就是在满足一定的约束条件下,将人脸分别分配给相应的人名,增添到该人名所对应的检索人脸集中。每种全局分配对准都能获得该分配方式下所有人名各自所对应的检索人脸集。然后,从人脸视觉特征出发,通过评估检索人脸集中所有人脸之间内在的相似性,以此来衡量各个检索人脸集与其所对应人名之间的相关性。但是,属于同一个人的不同新闻人脸图像,由于光照强度、遮挡程度、人脸角度等诸多因素可能会存在很大不同。因此,仅通过直接度量这些人脸视觉特征之间的相似性,以此来衡量各检索人脸集的整体相关性并不足够。(4)由于对整个数据集中的人脸和人名进行对齐不同于查找某个特定人所对应的人脸图像,归因于随着数据集的增大会使得所求解的问题变得愈加复杂。一些文本标注包 含多个人名且一些图像包含多张人脸,随着数据集的不断扩大,对其中所有人脸和人名之间进行对齐而获得最优解则非常可能演变为属于^难问题[25’ 26’ 27]。因此,当前大多数对于此问题的研究都更倾向于寻求一种近似于全局最优解的最佳近似解,通过一些基于概率统计模型的算法(如EM算法)来计算人脸与人名在各种对齐方式下的整体似然函数值,以此来尽可能地寻求到较好的近似解。然而,这些方法在其各自的迭代计算过程中,很有可能使求解过程陷入局部最优。虽然可通过将一些算法进行有效结合,在一定程度上避免求解过程陷入局部最优,但这将以更慢的求解收敛速度作为代价。因此,这些方法在很大程度上不能保证能够在比较满意的时间代价内,获得较为满意的最终解。因此,非常有必要借鉴当前已有的相关成熟技术,同时从各方面考虑以上问题,更全面地分析与优化人脸-人名对齐方法。本发明基于上述思考,从局部到整体,设计一种新颖的技术框架(包括四个主要算法),使用相关的人脸特征处理及文本语义分析方法,结合具有问题针对性的组合优化算法,建立有效的人脸一人名对齐机制,进而对跨媒体新闻检索性能进行改进。
发明内容
本发明的目的在于提出一种跨媒体新闻检索中进行有效且准确的人脸与人名对齐的方法及系统,以提高跨媒体新闻检索性能。本发明提出的人脸与人名对齐方法,采用一种新颖的整体框架,在大规模带有标注文本的新闻图像中,实现更加精确且有效的自动人脸-人名对齐。该框架将人脸-人名对齐作为一种双媒体语义映射的问题进行处理,在双媒体(人脸图像与人名)的语义表达之间建立相应的关联分布,通过评估这种双媒体语义表达之间的相似关联性,进而最终衡量人脸与人名各种对齐方式的相对好坏。本发明方法的具体步骤为
(I)图像与文本预处理(Preprocessing for Image and Text),针对原始新闻图像信息,进行人脸与人名的检测和提取,并对检测和提取出来的人脸图像进行预处理与相似性度量;
(2)人名重要性评估(NameSalience Identification),对新闻图像带有的文本标注进行多层次的文本分析,利用各个人名在对应文本标注中出现的频率、句法分析树中的深度、句法分析树中的广度遍历顺序三个要素,对从文本标注中检测提取出来的所有人名度量各自的相对重要性;
(3)基于Web挖掘的多模态信息发现(MultimodalInformation Discovery based onWeb Mining),将一些在当前新闻图像集中出现仅一次或少数几次的人名作为查询文本,通过主流的图像搜索网站对其进行图像检索,并对所有的信息检索结果进行评估,衡量这些检索结果与当前查询人名的相关性,以此实现对这些特殊人名获得更为充分的附加多模态信息资源;
(4)人脸集内聚度度量(CohesionMeasure for Face Set),在人脸与人名的对齐过程中,对任意一种全局对齐方式利用A近邻算法计算各个人名对应的人脸集中所有人脸的紧密度分值,以此获得各个人脸集的内聚度,进而对当前人脸-人名对齐方式进行有效评估;
(5)多模态对齐组合优化(MultimodalAlignment Optimization),利用各人脸集的内聚度,设定全局目标函数,并按照人脸-人名对齐分配的处理机制,设立全局约束条件,建立整数规划模型,采用改进的自适应遗传算法进行问题求解,同时结合模拟退火算法,以此能够同时具有较好的全局解与局部解的寻优能力,进而最终能够更好的对人脸-人名对齐问题进行求解。
较之于当前已有的相关人脸-人名对齐方法而言,本发明所提出的方法在跨媒体新闻检索中存在两大优势,即相关性高、适用性强。其相关性高体现在一方面通过对新闻标注的深层次分析,能够很好的对文本标注中的各个人名进行相关性评估,评估哪些人名在相应的图像中具有对应人脸图像的可能性很低,进而将这些相关性比较低的人名进行过滤,从而使得相应的人脸图像与这些被过滤掉的人名不再具有关联。另一方面通过具体人脸图像和过滤后人名之间的对齐处理,能够将 人脸图像和相关性评估过滤后文本中所保留的人名进行一一对齐,有效地将人名分配给实际属于该人的人脸图像,并在完成对齐过程后将未分配到对应人脸图像的人名进行再次过滤。这样便能够从多方面有效地保证对于任意查询人名的人脸图像检索结果,其中所包含的人脸图像与所查询人名能够具有较高相关性,而不像当前一般的人脸图像检索机制一样,让用户感觉到查询结果与查询人名十分不相关。而其适用性强体现在本发明所提出的人脸-人名对齐方法,比当前已有相关方法能够更好地适用于大规模和小规模的新闻图像数据信息。当前一些方法针对比较大规模和比较小规模的新闻图像数据,由于不能够很好地进行整体相关性分析与相关处理,从而使得用户所获得的反馈结果不是很理想。而本发明并不受数据量规模大小的限制,所提出的算法框架能够对这两种情况下的人脸与人名进行有效对齐,均能够取得较好效果。同时,本发明也能够很好地适用于常用人名和非常用人名的跨媒体新闻检索过程,利用网络信息挖掘模块,通过对当前主流的图像搜索网站关于这些非常用人名的图像检索结果,进行相关性分析以及排序,进而获得属于这些非常用人名的额外相关多模态信息资源。在非常用人名与相应人脸进行对齐的过程中,这些补充信息起到很好的辅助作用,进而能够使这些非常用人名的检索结果也具有比较理想的相关性。相应于上述方法,本发明系统包括5个模块,其结构框架见图I所示。这5个模块分别是(一)为图像和文本预处理模块;(二)为人名重要性评估模块;(三)为基于Web挖掘的多模态信息发现模块;(四)为人脸集内聚度度量模块;(五)为多模态对齐组合优化模块。其中,第二、第三、第四、第五的模块分别对应于本发明方法中步骤(2)、步骤(3)、步骤(4)、步骤(5)的四个算法人名重要性评估算法,基于Web挖掘的多模态信息发现算法,人脸集内聚度度量算法,多模态对齐组合优化算法。其中人名重要性评估和基于Web挖掘的多模态信息发现这两个算法,用于在进行人脸-人名对齐过程之前,对人名进行有效的“预处理”,以及对数据集进行充分的补充。人脸集内聚度度量算法和多模态对齐组合优化这两个算法,用于对人脸-人名对齐方式的有效评估,进而完成最终的人脸-人名对齐。下面详细介绍本发明在针对跨媒体新闻检索所进行的人脸-人名对齐的整体流程框架及四个核心算法。(I)图像与文本预处理,针对初始的包含图像和文本的新闻图像数据,预处理的主要任务包括文本中人名的检测提取、图像中人脸的检测提取以及对所提取出的人脸进行特征表示和相似性度量。首先,关于人名检测提取,先利用条件随机场在文本中对人名实体检测,然后分析文本中各个名词实体间的内在关联性及它们各自所表现出的文本字符特性来进一步验证各个名词实体是人名实体的可能性。其次,关于人脸检测提取,先把图像转为灰度图,再进行直方图均衡化以去除光照影响,然后利用Viola-Jones Detector进行人脸检测,利用其输出边框来提取出图像中存在的人脸。然后,关于人脸特征表示及相似性度量,先通过利用差分高斯滤波器弥补低频率的光照变化和抑制噪声,以此来对提取出的人脸进行归一化预处理,然后采用脸部特征点定位方法定位出人脸的9个脸部特征点(每只眼睛的左右角、嘴巴的左右角、鼻子的左右鼻孔以及鼻尖),并额外增添4个脸部特征点(两只眼睛的各自中心、嘴巴的中心、两只眼睛之间的中点)来更大程度上覆盖整个人脸区间。最后,从归一化处理后的人脸中分别为这13个脸部特征点在同一尺度中计算Sift算子,最终将每张人脸表示为13*128=1,664维的特征向量,并利用两张人脸对应的13个人脸特征点的Sift算子间的平均欧式距离作为此两张人脸在该特征空间下的距离度量方式。
(2)人名重要性评估,文本标注中各人名的相对重要性,反映各人名在所属文本相对应的图像中,是否具有属于该人人脸图像的可能性,可通过对文本进行多层次文本分析来对人名重要性进行评估。首先,同一个人名在文本标注中出现的次数越多,则说明与该文本相对应的新闻图像具有更大可能性来描述该人,则该人具有更大的可能性在图像中具有自己的人脸图像。其次,对于一段文本而言,其语义结构一般都象征着文本中所包含的语义信息分布。在大多数情况下,一个名词在句法分析树中的深度越浅,则该名词在句法分析树中的语义重要性更大。因此,通过句法分析树来分析文本中各个人名名词的相对重要性,计算各个人名名词在句法分析树中的深度,进而用以衡量各个人名名词的可视化概率。最后,因为对于已经构造句法分析树中的同一层结点,越优先被遍历的结点,则相对于同一层中的其他结点一般也更为重要。例如,一个句子中主语的重要性一般都比宾语的重要性更大,而该主语和谓语分别位于同一个父亲结点的左边和右边,进行广度优先遍历时,位于左边的主语将更早被访问。因此,将各人名出现次数、位于句法分析树中的深度及遍历顺序作为三个要素,分别设置相应权值,建立整体评估函数,进而能够有效和直接地评估各个人名在相应文本中的相对重要性。(3)基于Web挖掘的多模态信息发现,对于在新闻图像数据中仅出现少数几次甚至一次的人名而言,与这些人名相关的多模态信息(图像和文本)则非常少。而随着用于描述具体人的网络新闻图像资源的不断扩大,并且这些网络新闻图像也大都带有超文本标注,所以这些网络信息成为可用知识库,能够带来更多更完全的多模态信息。首先,拟通过自制网络爬虫,将这些人名作为查询人名,通过谷歌、雅虎等图像搜索引擎自动检索相应的图像信息及文本信息,动态获得与这些人名的多模态信息。其次,对这些初步获得的人脸图像及标注文本,利用人名重要性评估算法来评估查询人名与这些多模态信息之间的相关性,最终保留较为相关的人脸图像及文本信息。(4)人脸集内聚度度量,在人脸-人名对齐过程中,对于任意一种全局对齐方式,都会得到各个人名所对应的对齐关联人脸集。由于不同条件下属于同一个人的人脸图像在特征空间中会相对更紧密,因此拟对于已经特征表示的人脸图像,在各个人脸集中计算其每张人脸的A近邻兄弟,利用人脸与其A近邻兄弟的平均相似性,获得每张人脸位于当前人脸集中的紧密度分值。紧密度分值越大,则说明人脸与该人脸集对应人名的相关性越大。任一人脸集中所有人脸的紧密度分值之和越大,则说明该人脸集中的人脸图像之间越为关联,也即该人脸集的内聚程度越大。由此,可对当前各个人脸集的内聚度进行度量,进而有效衡量当前全局对齐方式的好坏。(5)多模态对齐组合优化,人脸-人名的对齐问题实际上就是一种组合匹配问题,可根据问题的本身特点来分析其全局关联性及局部限制性,利用人脸集内聚度度量算法设立全局目标函数,并制定该问题所需要满足的各种约束条件,建立一种整数规划模型,从组合优化的角度出发将对齐问题最终转化为具有特定结构特点的整数规划问题。最后,采用改进的自适应模拟退火遗传算法,有效地对该整数规划问题进行求解,获得较优的最终解,进而有效完成人脸-人名对齐过程。
图I为基于图像特征和文本语义的人脸-人名对齐方法的流程图示。图2为人名重要性评估算法示例。图3为人脸-人名对齐算法最终效果不例。
具体实施例方式(一)人名重要性评估算法
人名重要性评估算法的创意基于以下设想在新闻图像对应的文本标注中,并非所有人名都同样重要,每个人名的重要性程度相对不同。在一般情况下,对于重要性更高的人名,其相对应的人脸图像则具有较高的可能性出现在该文本相关的新闻图像中。此外,一些出现在文本标注中的人名,在相应的新闻图像中可能没有相对应的人脸。因此,非常有必要在同一文本标注中,为该文本所包含的每个人名评估各自的重要性程度,以此来判断哪些人名更有可能是与其相对应的人脸图像一同出现。作为新闻图像的唯一补充文本信息,该有限文本标注需要通过多层次分析,才能够获得有效的文本特征,进而才能有效区分与度量各个人名的重要性程度。因此,本发明对每个人名在文本标注中的重要程度度量,是以文本标注信息的多层次分析为基础构建。现在描述如何设计通过文本标注的多层次分析来进行有效人名重要性评估的算法。对于经过文本预处理从文本标注中检测提取出的所有人名,这些人名仅是通过从词法分析是否为人名实体,并没有特定的相关重要性信息。而由于文本的句法结构通常能够表示该文本中的多项信息分布,因此能够通过分析这些人名实体在其所属文本对应句法分析树中的角色位置以及各人名实体在该句法分析树中的树结构关系,来衡量各个人名在该文本中的相对重要性。从而,拟将人名实体在对应句法分析树中的深度以及在该树中的广度优先遍历顺序作为两个重要的句法分析要素。另外,从统计方面而言,在大多数情况下一个人名实体在对应的文本标注中出现的次数越多,则在很大程度上说明该人名越相对重要,因此人名出现的次数也作为一个关键分析要素。(I)句法分析树深度(Syntactic Parse Tree Depth, SPTD),这一要素表示某个人名类在对应文本句法分析树中的深度值,其值为该人名类包含的所有人名对应的最小深度值。对于一个特定新闻图像的文本标注,其句法分析层次结构通过层次分布情况体现其中每个实体的相对重要性。作为文本标注的关键元素,人名实体可能在相应句法分析树中扮演重要角色,而它们在分析树中的深度值可被视为一个代表其相对重要性的指示之一。在大多数情况下,如果一个人名实体在句法分析树中的深度比较浅,则其在相应文本中具有更高的重要性。因此,对于每个文本标注中的每个人名类,计算其包含的所有人名的深度值,而其中的最小深度值则被用来描述该人名类及其类中所有人名的相对重要性。假定一条新闻图像标注中包含#个不同的人名。每个人名都具有其各自的人名类AC;.,每个人名类中包含一个或多个人名名称,这些人名名称均指向同一个人。用表示人名类m中第j个人名。因此,任一人名类的句法分析树深度值可定义为
权利要求
1.ー种跨媒体新闻检索中基于图像特征和文本语义的人脸-人名对齐方法,其特征在于具体步骤如下 (1)图像与文本预处理,针对原始新闻图像信息,进行人脸与人名的检测和提取,并对检测和提取出来的人脸图像进行预处理与相似性度量; (2)人名重要性评估,对新闻图像带有的文本标注进行多层次的文本分析,利用各个人名在对应文本标注中出现的频率、句法分析树中的深度、句法分析树中的广度遍历顺序三个要素,对从文本标注中检测提取出来的所有人名度量各自的相对重要性; (3)基于Web挖掘的多模态信息发现,将ー些在当前新闻图像集中出现仅一次或少数几次的人名作为查询文本,通过主流的图像搜索网站对其进行图像检索,并对所有的信息检索结果进行评估,衡量这些检索结果与当前查询人名的相关性,以此实现针对这些特殊人名获得更为充分的附加多模态信息资源; (4)人脸集内聚度度量,在人脸与人名的对齐过程中,对任意ー种全局对齐方式利用k近邻算法计算各个人名对应的人脸集中所有人脸的紧密度分值,以此获得各个人脸集的内聚度,进而对当前人脸-人名对齐方式进行有效评估; (5)多模态对齐组合优化,利用各人脸集的内聚度,设定全局目标函数,并按照人脸-人名对齐分配的处理机制,设立全局约束条件,建立整数规划模型,采用改进的自适应遗传算法进行问题求解,同时结合模拟退火算法,以此能够同时具有较好的全局解与局部解的寻优能力,进而最終能够更好地对人脸-人名对齐问题进行求解。
2.根据权利要求I所述的方法,其特征在于在人名重要性评估步骤中,对人名所属的文本标注进行深层次分析,对文本构造其相应的句法分析树,将人名实体在对应句法分析树中的深度以及在该树中的广度优先遍历顺序作为两个句法分析要素;另外,从统计方面出发,将人名在文本中出现的次数也作为ー个句法分析要素;最終,以这三个要素共同评估人名重要性; 假定一条新闻图像标注中包含#个不同的人名,每个人名都具有其各自的人名类%.,每个人名类中包含ー个或多个人名名称,这些人名名称均指向同一个人,并用表示人名类中第プ个人名,则任一人名类燃的句法分析树深度定义如下 SPTD(NO) = mmjT[NC,} {SPT Depih(NOi)) ⑴ 其中,5AT0VC;.)表示人名类ATi的大小,即该人名类中所包含的具有内联性并指向同一个人的不同人名形式个数.,SPLD^thiNCi)表示在相应句法分析树中的深度值; 同时,任一人名类的句法分析树遍历顺序定义如下 SPTTO(NG) = minSfl>0) {SPT BFT- Order(NQ)] ⑵ 其中,SPT_BFT-Order (JVCjj)表示人名NCij在相应句法分析树中的遍历顺序; 最后,每个人名类的相对重要性可由以上两个要素以及在相应文本中出现的次数SM共同来决定,并给这三个要素分配不同的权值系数,通过它们的线性组合进行计算,则相对重要性定义如下
3.根据权利要求2所述的方法,其特征在于所述的基于Web挖掘的多模态信息发现步骤中,对于在整个新闻图像数据集中的罕见人名,补充更多其相应的多模态信息;假定当前的罕见人名为/&V,获得该ノ #对应的补充多模态信息过程如下 (1)将7&V作为查询人名,通过网络爬虫,从谷歌图像检索、Bing图像检索以及YahooNews图像检索等图像搜索引擎,获取对应于查询人名/&V的图像检索集及每幅图像所附有的文本标注; (2)利用人脸检测工具对图像检索集中的每幅图像进行人脸检测,将未检测到人脸的图像进行删除过滤; (3)针对经过过滤操作后的图像检索集,利用人名重要性评估算法,对过滤后的检索集中每幅图像所附有的文本标注首先进行人名检测,然后对检测出来的所有人名进行相对重要性评估; (4)在得到每幅图像对应文本标注包含的所有人名相对重要性之后,对RN的检索图像集进行排序操作,以^的相对重要性M值作为排序依据,将图像集中所有图像进行由高到低的排序; (5)对排序好的检索图像集进行Tb/7操作,只保留前#幅M值最大的图像,作为最终7&V的检索图像集;其中,ガ是ー个变化的整数值,与/&V对应的最初始图像检索集大小成正比; (6)对获得的最终ノ&V的检索图像集中的每幅图像进行人脸提取,将所有检测提取出来的人脸图像及伴随这些图像共同出现的标注文本信息,作为^所补充的多模态信息。
4.根据权利要求3所述的方法,其特征在于所述的人脸内聚度度量步骤中,首先,采用两张人脸的A最近邻兄弟的共有兄弟结点数目来进行人脸相似性度量,进而避免高维空间中人脸之间的同一性;假设在当前的全局人脸-人名对齐方式下,人名^相对应的人脸集^FS-NwKMlFi和人脸巧是此人脸集中的两张人脸,则巧和/^之间的相似度可进ー步定义如下
5.根据权利要求4所述的方法,其特征在于所述的多模态对齐组合优化步骤中,将人脸与人名对齐作为ー种组合匹配问题,分析其全局关联性与局部限制性,制定该问题所需要满足的各种约束条件,建立ー种整数规划模型,并同时结合使用改进的自适应模拟退火遗传算法,对该受约束的整数规划模型进行求解,进而有效地完成人脸-人名的对齐过程;具体过程如下 (一)建立整数规划数学模型 假设当前共有/7个图像-文本对,每个图像-文本对都包含一定数量的不同人脸及不同人名,而不同的图像-文本对之间可能包含相同的人名,这P条图像-文本对共包含/^长人脸和#个人名; 首先,自定义如下參数和变量 PS~表示所有/7个图像-文本对集合; FS——表示/7个图像-文本对中包含的所有人脸集合; NS——表示/7个图像-文本对中包含的所有人名集合; WJPij——表示人脸ろ是否存在于图像-文本对ろ中,/e PS, Fj g FS, i=l,…,|W|,j=l,…,|/^|,#_/^7定义为满足如下条件的布尔变量
6.ー种基于权利要求5所述方法的系统,其特征在于系统包括5个模块(一)为图像和文本预处理模块;(ニ)为人名重要性评估算法模块;(三)为基于Web挖掘的多模态信息发现算法模块;(四)为人脸集内聚度度量算法模块;(五)为多模态对齐组合优化算法模块;第二、第三、第四、第五的模块分别对应于方法中步骤(2)、步骤(3)、步骤(4)、步骤(5)的四个算法人名重要性评估算法,基于Web挖掘的多模态信息发现算法,人脸集内聚度度量算法,多模态对齐组合优化算法;其中,人名重要性评估算法和基于Web挖掘的多模态信息发现算法,用于在进行人脸-人名对齐过程之前,对人名进行有效的“预处理”,以及对数据集进行充分的补充;人脸集内聚度度量算法和多模态对齐组合优化算法,用于对人脸-人名对齐方式的有效评估,进而完成最終的人脸-人名对齐。
全文摘要
本发明属于跨媒体信息检索技术领域,具体为跨媒体新闻检索中基于图像特征和文本语义的人脸-人名对齐方法与系统。本发明包括四个主要算法人名重要性评估算法、基于Web挖掘的多模态信息发现算法、人脸集内聚度度量算法和多模态对齐组合优化算法。本发明使用相关的图像特征和文本语义处理方法,同时建立相关数学模型,对新闻图像搜索进行优化,包括通过多级别深层次的文本语义分析,有效的人脸-人名对齐评估机制,具有问题针对性的组合优化。本发明对于在大规模且多样性新闻图像基础上,考虑图像高层语义信息而进行高效图像检索具有非常重要的意义,能够提高检索相关性,增强用户体验,在跨媒体信息检索领域具有广泛的应用价值。
文档编号G06N3/12GK102629275SQ201210076089
公开日2012年8月8日 申请日期2012年3月21日 优先权日2012年3月21日
发明者吴伟, 张玥杰, 薛向阳, 金城 申请人:复旦大学