对搜索引擎返回的网页图片进行实体聚类的系统的制作方法

文档序号：6630765阅读：399来源：国知局

对搜索引擎返回的网页图片进行实体聚类的系统的制作方法
【专利摘要】一种对搜索引擎返回的网页图片进行实体聚类的系统，包括离线系统和在线系统，离线系统用于对所有图片所在的源网页进行预处理，在线系统用于接收查询，提交到搜索引擎并接收返回的多页图片结果，对于每一个页的返回结果，找到源网页的概念化元数据和文本，并在概念化的文本中抽取查询上下文以及图片上下文，在线系统分别利用元数据，上下文，以及对上下文进行概念扩展后的扩展上下文进行三层聚类，并为每一个类别自动标注相关的描述性概念，以了解每一个类别的实体。本系统的三层聚类算法与一般的层次聚类算法具有相同的时间复杂度，而对于特征的细分使得每一层的输入即前一层的输出更加精确，能有效提升聚类效果，并且给出准确的描述概念。
【专利说明】对搜索引擎返回的网页图片进行实体聚类的系统

【技术领域】
[0001] 本发明涉及计算机【技术领域】的自然语言处理，文本挖掘，具体地，涉及对搜索引擎返回的网页图片进行实体聚类的系统。

【背景技术】
[0002] 随着互联网的普及以及网页图片日益增长，网页图片搜索逐渐成为互联网用户的一大日常应用。目前的图片搜索引擎主要返回跟查询关键词相关的图片。而这些图片往往包含多个同名的实体。用户需要从搜索结果中找到所要的图片，需要浏览查看每张返回的图片。为了提高搜索结果的可读性，按照不同实体区分搜索结果成为了图像搜索引擎的一个改良反向。
[0003] 图像聚类是自动区分不同实体的方法。在过去的研究中，D.Cai(参见 Cai, D. , He, X. , Ma, ff. Y. , Wen, J. R. , Zhang, H. : Organizing www images based on the analysis of page layout and web link structure. ICME 2004)利用基于视觉的分块的方式抽取网页图片的上下文，并且利用该上下文和网页链接信息进行聚类。然而由于视觉分块的不稳定，以及上下文中的噪声数据，聚类的精度有很大的限制；Z. Fu(参见 Fu, Z.，Ip, H. H. S.，Lu, H.，Lu, Z. :Multi-modal constraint propagation for heterogeneous image clustering. MultiMedia 2011)提供了一种结合照图像的标签和图像的视觉特征等多个模块的框架，在多个图上通过传递类的约束来实现图像聚类。目前视觉特征的抽取精度的不足，该框架会传播视觉特征所包含的错误。而且，该方法需要在多个图中进行约束传递，导致聚类效率低下，不适合于对在线图片搜索结果的聚类。目前的图像聚类方法并不能提供描述性的概念去给每一个类进行标注。

【发明内容】

[0004] 本发明针对现有技术中的不足，提供了一个对搜索引擎返回的网页图片进行实体聚类的系统，使得图片搜索结果更好地按照不同实体组织起来，并且每个实体类具有高精度，不同实体之间具有明显的区分度。本发明把整个框架分成了在线和离线两个部分，大大减小了在线聚类的时间开销。
[0005] 为达到上述目的，本发明所采用的技术方案如下：
[0006] -种对搜索引擎返回的网页图片进行实体聚类的系统，包括离线系统和在线系统两部分，其中：
[0007] 离线系统，用于对所有图片所在的源网页进行预处理，包括抽取网页元数据，把原网页文本和元数据概念化成一组带权概念的集合（概念向量）。概念化后的元数据和网页内容供在线系统查询使用。
[0008] 在线系统，用于接收查询，提交到搜索引擎并接收返回的多页图片结果，对于每一个页的返回结果，找到源网页的概念化元数据和文本，并在概念化的文本中抽取查询关键词的上下文（查询上下文）以及图片上下文，在线系统分别利用元数据，上下文，以及通过维基百科对上下文进行概念扩展后的扩展上下文进行三层聚类，并为每一个类别自动标注相关的描述性概念，以了解每一个类别的实体。
[0009] 所述离线系统进行元数据抽取，包括对URL中有效词条的抽取，图片ALT属性，对 URL有效词条的抽取，利用二类分类器对有效和无效词条进行分类，并返回有效词条。图片 ALT属性可以直接从HTML源代码获得。
[0010] 所述离线系统包括概念化模块，包括对元数据和图片原网页文本的概念化，概念化通过把元数据和文本中的词映射到维基百科的概念上，使元数据和文本转化成带权概念的集合，以计算相似度，供聚类算法使用，每个概念的权值为该概念对图片的重要性，其定义如下：
[0011]

【权利要求】
1. 一种对搜索引擎返回的网页图片进行实体聚类的系统，其特征在于，包括离线系统和在线系统，其中：离线系统，用于对所有图片所在的源网页进行预处理，包括抽取网页元数据，把原网页文本和元数据概念化成一组带权概念的集合，即，概念向量，概念化后的元数据和网页内容供在线系统查询使用；在线系统，用于接收查询，提交到搜索引擎并接收返回的多页图片结果，对于每一个页的返回结果，找到源网页的概念化元数据和文本，并在概念化的文本中抽取查询关键词的上下文以及图片上下文，在线系统分别利用元数据，上下文，以及对上下文进行概念扩展后的扩展上下文进行三层聚类，并为每一个类别自动标注相关的描述性概念，以了解每一个类别的实体。
2. 根据权利要求1所述的对搜索引擎返回的网页图片进行实体聚类的系统，其特征在于，所述离线系统进行元数据抽取，包括对URL中有效词条的抽取，图片ALT属性，其中对 URL有效词条的抽取，是利用二类分类器对有效和无效词条进行分类，并返回有效词条。
3. 根据权利要求1所述的对搜索引擎返回的网页图片进行实体聚类的系统，其特征在于，所述离线系统包括概念化模块，用于对上下文进行概念扩展，文本通过概念化模块，转换成带权概念的集合，每个概念的权值为该概念对图片的重要性，其定义如下： |D| CF-IDF(c,d) =CF(c,d)x\og-^-^ 其中，CF-IDF(c，d)为概念c对图片d的重要性，包括两部分的乘积：概念在图片上下文出现的频率CF(c，d)，以及反向上下文频率，其中反向上下文频率反比于概念出现过的上下文的数量DF(C)，D为所有图片的上下文的集合。
4. 根据权利要求1所述的对搜索引擎返回的网页图片进行实体聚类的系统，其特征在于，在线系统包括文本上下文抽取模块，用于对所输入的查询关键词，抽取其概念化查询上下文和图片上下文。
5. 根据权利要求4所述的对搜索引擎返回的网页图片进行实体聚类的系统，其特征在于，所述在线系统包含三层聚类算法模块，该模块根据抽取的元数据，上下文，以及扩展的上下文三类特征从置信度最高的元数据，到上下文，到扩展上下文进行三个层次的聚类，其中：第一层聚类，通过元数据概念化后的概念向量进行聚合层次聚类，获得类内精度高的聚类结果，并且合并每个类里所有图片的概念向量作为类的概念向量；第二层聚类，向每个图片的概念向量中加入概念化上下文的概念向量，更新所有第一层聚类后得到的类的概念向量，并进一步对这些得到的类进行聚合层次聚类；第三层聚类，把每个图片的向量替换成扩展的概念向量，更新所有第二层聚类后得到的类的概念向量，并进一步对这些概念向量进行聚合层次聚类。
6. 根据权利要求5所述的对搜索引擎返回的网页图片进行实体聚类的系统，其特征在于，所使用的聚合层次聚类算法利用类的概念化进行类的相似度计算，类的概念化通过把类中的图片的概念向量进行相加，并且去除向量中值比较低的概念，得到高精度的类概念，类的概念化用如下公式定义：
其中，C为概念，C为类，d为类中图片，CF-IDF(c，d)为概念对图片的重要性。
7. 根据权利要求5所述的对搜索引擎返回的网页图片进行实体聚类的系统，其特征在于，第三层聚类通过维基百科进行上下文的扩展，把图片的概念向量替换成扩展的概念向量，并目1更新毎个类的概念向量，更新定义为如下公式：
其中，CF-IDF〇,dCi)为概念c对概念Ci的维基百科描述页面的重要性，V。为当前类概念向量所有概念的集合，Ci为当前类概念向量中的概念，上下文扩展过程通过选取值最大的前k个概念对噪声数据进行过滤。
8. 根据权利要求1所述的对搜索引擎返回的网页图片进行实体聚类的系统，其特征在于，利用所述三层聚类后得出的类概念向量给每个图片类标注相关的描述概念，选取每个类的概念向量中值最高的前几个概念用于描述该类所代表的实体。
【文档编号】G06F17/30GK104317867SQ201410554684
【公开日】2015年1月28日申请日期:2014年10月17日优先权日:2014年10月17日
【发明者】朱其立, 赵凯祺, 蔡智源, 隋清宇, 魏恩勋申请人:上海交通大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：朱其立;赵凯祺;蔡智源;隋清宇;魏恩勋
技术所有人：上海交通大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。