对搜索引擎返回的网页图片进行实体聚类的系统的制作方法
【专利摘要】一种对搜索引擎返回的网页图片进行实体聚类的系统,包括离线系统和在线系统,离线系统用于对所有图片所在的源网页进行预处理,在线系统用于接收查询,提交到搜索引擎并接收返回的多页图片结果,对于每一个页的返回结果,找到源网页的概念化元数据和文本,并在概念化的文本中抽取查询上下文以及图片上下文,在线系统分别利用元数据,上下文,以及对上下文进行概念扩展后的扩展上下文进行三层聚类,并为每一个类别自动标注相关的描述性概念,以了解每一个类别的实体。本系统的三层聚类算法与一般的层次聚类算法具有相同的时间复杂度,而对于特征的细分使得每一层的输入即前一层的输出更加精确,能有效提升聚类效果,并且给出准确的描述概念。
【专利说明】对搜索引擎返回的网页图片进行实体聚类的系统
【技术领域】
[0001] 本发明涉及计算机【技术领域】的自然语言处理,文本挖掘,具体地,涉及对搜索引擎 返回的网页图片进行实体聚类的系统。
【背景技术】
[0002] 随着互联网的普及以及网页图片日益增长,网页图片搜索逐渐成为互联网用户的 一大日常应用。目前的图片搜索引擎主要返回跟查询关键词相关的图片。而这些图片往往 包含多个同名的实体。用户需要从搜索结果中找到所要的图片,需要浏览查看每张返回的 图片。为了提高搜索结果的可读性,按照不同实体区分搜索结果成为了图像搜索引擎的一 个改良反向。
[0003] 图像聚类是自动区分不同实体的方法。在过去的研究中,D.Cai(参见 Cai, D. , He, X. , Ma, ff. Y. , Wen, J. R. , Zhang, H. : Organizing www images based on the analysis of page layout and web link structure. ICME 2004)利用基于视觉的分 块的方式抽取网页图片的上下文,并且利用该上下文和网页链接信息进行聚类。然而 由于视觉分块的不稳定,以及上下文中的噪声数据,聚类的精度有很大的限制;Z. Fu(参 见 Fu, Z.,Ip, H. H. S.,Lu, H.,Lu, Z. :Multi-modal constraint propagation for heterogeneous image clustering. MultiMedia 2011)提供了一种结合照图像的标签和图 像的视觉特征等多个模块的框架,在多个图上通过传递类的约束来实现图像聚类。目前视 觉特征的抽取精度的不足,该框架会传播视觉特征所包含的错误。而且,该方法需要在多个 图中进行约束传递,导致聚类效率低下,不适合于对在线图片搜索结果的聚类。目前的图像 聚类方法并不能提供描述性的概念去给每一个类进行标注。
【发明内容】
[0004] 本发明针对现有技术中的不足,提供了一个对搜索引擎返回的网页图片进行实体 聚类的系统,使得图片搜索结果更好地按照不同实体组织起来,并且每个实体类具有高精 度,不同实体之间具有明显的区分度。本发明把整个框架分成了在线和离线两个部分,大大 减小了在线聚类的时间开销。
[0005] 为达到上述目的,本发明所采用的技术方案如下:
[0006] -种对搜索引擎返回的网页图片进行实体聚类的系统,包括离线系统和在线系统 两部分,其中:
[0007] 离线系统,用于对所有图片所在的源网页进行预处理,包括抽取网页元数据,把原 网页文本和元数据概念化成一组带权概念的集合(概念向量)。概念化后的元数据和网页 内容供在线系统查询使用。
[0008] 在线系统,用于接收查询,提交到搜索引擎并接收返回的多页图片结果,对于每一 个页的返回结果,找到源网页的概念化元数据和文本,并在概念化的文本中抽取查询关键 词的上下文(查询上下文)以及图片上下文,在线系统分别利用元数据,上下文,以及通过 维基百科对上下文进行概念扩展后的扩展上下文进行三层聚类,并为每一个类别自动标注 相关的描述性概念,以了解每一个类别的实体。
[0009] 所述离线系统进行元数据抽取,包括对URL中有效词条的抽取,图片ALT属性,对 URL有效词条的抽取,利用二类分类器对有效和无效词条进行分类,并返回有效词条。图片 ALT属性可以直接从HTML源代码获得。
[0010] 所述离线系统包括概念化模块,包括对元数据和图片原网页文本的概念化,概念 化通过把元数据和文本中的词映射到维基百科的概念上,使元数据和文本转化成带权概念 的集合,以计算相似度,供聚类算法使用,每个概念的权值为该概念对图片的重要性,其定 义如下:
[0011]
【权利要求】
1. 一种对搜索引擎返回的网页图片进行实体聚类的系统,其特征在于,包括离线系统 和在线系统,其中: 离线系统,用于对所有图片所在的源网页进行预处理,包括抽取网页元数据,把原网页 文本和元数据概念化成一组带权概念的集合,即,概念向量,概念化后的元数据和网页内容 供在线系统查询使用; 在线系统,用于接收查询,提交到搜索引擎并接收返回的多页图片结果,对于每一个页 的返回结果,找到源网页的概念化元数据和文本,并在概念化的文本中抽取查询关键词的 上下文以及图片上下文,在线系统分别利用元数据,上下文,以及对上下文进行概念扩展后 的扩展上下文进行三层聚类,并为每一个类别自动标注相关的描述性概念,以了解每一个 类别的实体。
2. 根据权利要求1所述的对搜索引擎返回的网页图片进行实体聚类的系统,其特征在 于,所述离线系统进行元数据抽取,包括对URL中有效词条的抽取,图片ALT属性,其中对 URL有效词条的抽取,是利用二类分类器对有效和无效词条进行分类,并返回有效词条。
3. 根据权利要求1所述的对搜索引擎返回的网页图片进行实体聚类的系统,其特征在 于,所述离线系统包括概念化模块,用于对上下文进行概念扩展,文本通过概念化模块,转 换成带权概念的集合,每个概念的权值为该概念对图片的重要性,其定义如下: |D| CF-IDF(c,d) =CF(c,d)x\og-^-^ 其中,CF-IDF(c,d)为概念c对图片d的重要性,包括两部分的乘积:概念在图片上下 文出现的频率CF(c,d),以及反向上下文频率,其中反向上下文频率反比于概念出现过的上 下文的数量DF(C),D为所有图片的上下文的集合。
4. 根据权利要求1所述的对搜索引擎返回的网页图片进行实体聚类的系统,其特征在 于,在线系统包括文本上下文抽取模块,用于对所输入的查询关键词,抽取其概念化查询上 下文和图片上下文。
5. 根据权利要求4所述的对搜索引擎返回的网页图片进行实体聚类的系统,其特征在 于,所述在线系统包含三层聚类算法模块,该模块根据抽取的元数据,上下文,以及扩展的 上下文三类特征从置信度最高的元数据,到上下文,到扩展上下文进行三个层次的聚类,其 中: 第一层聚类,通过元数据概念化后的概念向量进行聚合层次聚类,获得类内精度高的 聚类结果,并且合并每个类里所有图片的概念向量作为类的概念向量; 第二层聚类,向每个图片的概念向量中加入概念化上下文的概念向量,更新所有第一 层聚类后得到的类的概念向量,并进一步对这些得到的类进行聚合层次聚类; 第三层聚类,把每个图片的向量替换成扩展的概念向量,更新所有第二层聚类后得到 的类的概念向量,并进一步对这些概念向量进行聚合层次聚类。
6. 根据权利要求5所述的对搜索引擎返回的网页图片进行实体聚类的系统,其特征在 于,所使用的聚合层次聚类算法利用类的概念化进行类的相似度计算,类的概念化通过把 类中的图片的概念向量进行相加,并且去除向量中值比较低的概念,得到高精度的类概念, 类的概念化用如下公式定义:
其中,C为概念,C为类,d为类中图片,CF-IDF(c,d)为概念对图片的重要性。
7. 根据权利要求5所述的对搜索引擎返回的网页图片进行实体聚类的系统,其特征在 于,第三层聚类通过维基百科进行上下文的扩展,把图片的概念向量替换成扩展的概念向 量,并目1更新毎个类的概念向量,更新定义为如下公式:
其中,CF-IDF〇,dCi)为概念c对概念Ci的维基百科描述页面的重要性,V。为当前类 概念向量所有概念的集合,Ci为当前类概念向量中的概念,上下文扩展过程通过选取值最 大的前k个概念对噪声数据进行过滤。
8. 根据权利要求1所述的对搜索引擎返回的网页图片进行实体聚类的系统,其特征在 于,利用所述三层聚类后得出的类概念向量给每个图片类标注相关的描述概念,选取每个 类的概念向量中值最高的前几个概念用于描述该类所代表的实体。
【文档编号】G06F17/30GK104317867SQ201410554684
【公开日】2015年1月28日 申请日期:2014年10月17日 优先权日:2014年10月17日
【发明者】朱其立, 赵凯祺, 蔡智源, 隋清宇, 魏恩勋 申请人:上海交通大学