对异质信息网络包含的对象进行排序的方法
【专利摘要】本发明实施例公开一种对异质信息网络中对象排序的方法,该方法包括:获取包含N个对象类型的异质信息网络,其中N>1;依次选取N个对象类型中的一个作为中枢类型,将所述异质信息网络映射成N个子网,每一个所述子网由一个所述中枢类型、相对于所述中枢类型的支持类型及所述中枢类型与所述支持类型之间的链接构成;将所述N个子网组成一个子网序列环;从所述子网序列环中任意选取一个所述子网作为当前子网;对所述当前子网中的对象进行排序;判断排序结果是否稳定;如果所述排序结果稳定,输出所述排序结果。与现有技术相比,本发明实施例对异质信息网络中的对象进行排序时利用了对象类型等语义信息,从而使得排序结果相对准确。
【专利说明】对异质信息网络包含的对象进行排序的方法
【技术领域】
[0001]本发明涉及信息【技术领域】,尤其涉及对异质信息网络包含的对象进行排序的方法。
【背景技术】
[0002]信息网络是指由对象与对象之间的链接组成的网络。信息网络一般可以分成同质信息网络和异质信息网络。其中,同质信息网络是指由同一类型的对象及对象之间的链接组成的网络,异质信息网络指的是由不同类型的对象及对象之间的链接组成的网络。在异质信息网络中,不同的对象可以属于不同的类型,不同对象之间的链接也可以表示不同的关系。异质信息网络不但普遍存在,而且已经成为现代信息基础体系的不可缺少的一部分。例如,文献网络即为一类常见的异质信息网络。在文献网络中,类型包括作者,论文,会议,关键词等;对象之间的链接可以表示作者之间的合作关系、作者与论文间的写作关系、论文与会议间的发布关系、论文与论文间的引用关系等不同的关系。
[0003]随着搜索引擎技术的发展,用户的搜索需求也越来越多样化。用户在对某信息网络所包含的信息进行检索时,不但希望检索结果准确,而且通常希望检索结果能够按照重要性进行呈现。例如,人们检索某个作者的论文时,不但希望检索到该作者的所有论文,而且通常该作者的所有论文能够按照其重要性排序后再进行显示。因此,按照对象的重要性对异质信息网络中的同一类型的对象进行排序就成为一项重要的任务。
[0004]现有排序方法,通常都是基于同质网络进行排序。在对异质信息网络中的对象进行排序时,通常不考虑对象和关系间的异质性,首先从异质信息网络中抽取出同质网络,然后基于同质网络上完成对象的排序。由于同质网络通常是从异质信息网络中抽取出来的一部分内容,所以这种同质网络会大量失去异质信息网络所包含的关系和语义信息。因此,基于同质网络对异质网络中的对象进行排序,会使得混合排序结果会明显地偏向于具有较多链接的对象,造成排序结果与对象的实际重要性顺序之间存在较大误差。
【发明内容】
[0005]本发明实施例提供了一种对异质信息网络包含的对象进行排序的方法,以解决现有排序方法会造成异质信息网络所包含的关系和语义信息大量丢失,排序结果不准确,无法满足人们检索信息的需求的问题。
[0006]一方面,本发明实施例提供了一种对异质信息网络包含的对象进行排序的方法,该方法包括:获取包含N个对象类型的异质信息网络,其中N > I ;依次选取N个对象类型中的一个作为中枢类型,将所述异质信息网络映射成N个子网,每一个所述子网由一个所述中枢类型、相对于所述中枢类型的支持类型及所述中枢类型与所述支持类型之间的链接构成;将所述N个子网组成一个子网序列环;从所述子网序列环中任意选取一个所述子网作为当前子网;对所述当前子网中的对象进行排序;判断排序结果是否稳定;如果所述排序结果稳定,输出所述排序结果。[0007]结合一方面,在第一种可能的实现方式中,所述方法还包括:如果所述排序结果不稳定,选择所述子网序列环中当前子网的下一个子网,并将所述下一个子网作为当前子网,返回对所述当前子网中的对象进行排序步骤。
[0008]结合一方面或第一种可能的实现方式,在第二种可能的实现方式中,所述判断排序结果是否稳定,包括:判断排序次数是否达到预设值,或者判断排序结果是否不再变化。
[0009]结合一方面、第一种可能的实现方式或第二种可能的实现方式,在第三种可能的实现方式中,所述对所述当前子网中的对象进行排序,包括:生成当前子网的聚类信息;根据所述聚类信息对所述当前子网中的对象进行排序。
[0010]结合第三种可能的实现方式,在第四种可能的实现方式中,如果所述当前子网为从所述子网序列环中任意选取的所述子网,所述生成聚类信息包括:将所述当前子网中的对象随机分配到K个聚簇中生成当前子网的聚类信息,所述对象包括中枢对象与支持对象。
[0011]结合第三种可能的实现方式,在第五种可能的实现方式中,如果所述当前子网为所述排序结果不稳定时选择的所述子网,所述生成聚类信息包括:将所述当前子网中的对象随机分配到K个聚簇中生成第一子信息,所述对象包括中枢对象与支持对象;获取从所述当前子网的上一个子网继承的第二子信息;将所述第一子信息与所述第二子信息进行整合生成当前子网的聚类信息。
[0012]结合第四种可能的实现方式或第五种可能的实现方式,在第六种可能的实现方式中,所述根据所述聚类信息对所述当前子网中的对象进行排序包括:采用随机游走方式生成每个所述聚簇中所述支持对象的可达概率;根据所述可达概率计算所述聚簇中所述中枢对象的异质概率;采用随机游走方式生成所述聚簇中所述中枢对象的同质概率;根据所述异质概率与所述同质概率生成所述中枢对象的存在概率;根据所述存在概率生成中枢对象的后验概率;根据所述中枢对象的后验概率计算支持对象的后验概率;根据所述后验概率对所述当前子网中的对象进行排序。
[0013]结合第六种可能的实现方式,在第七种可能的实现方式中,在根据所述后验概率对所述当前子网中的对象进行排序之前,还包括:获取所述当前子网中每一个所述对象的额外重要性度量;所述以所述后验概率为排序依据对当前子网中的对象进行排序,包括:根据所述后验概率与所述额外重要性度量的乘积,对当前子网中的对象进行排序。
[0014]从上述实施例可以看出获取包含N个对象类型的异质信息网络,其中N > I ;依次选取N个对象类型中的一个作为中枢类型,将所述异质信息网络映射成N个子网,每一个所述子网由一个所述中枢类型、相对于所述中枢类型的支持类型及所述中枢类型与所述支持类型之间的链接构成;将所述N个子网组成一个子网序列环;从所述子网序列环中任意选取一个所述子网作为当前子网;对所述当前子网中的对象进行排序;判断排序结果是否稳定;如果所述排序结果稳定,输出所述排序结果。与现有技术相比,本发明排序过程中使用了异质信息网络所包含的所有关系及语义等信息,排序结果相对准确。
【专利附图】
【附图说明】
[0015]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。通过附图所示,本发明的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图,重点在于示出本发明的主旨。
[0016]图1为本发明对异质网络包含的对象进行排序的方法一个实施例的流程图;
[0017]图2为一个异质网络结构示意图;
[0018]图3为一个二分网络结构示意图;
[0019]图4为一个星形网络结构示意图;
[0020]图5为异质网络一个子网结构示意图;
[0021]图6为异质网络另一个子网结构示意图;
[0022]图7为异质网络另一个子网结构示意图;
[0023]图8为异质网络映射示意图;
[0024]图9为对当前子网排序的流程图;
[0025]图10为本发明对异质网络包含的对象进行排序的方法另一个实施例的流程图。【具体实施方式】
[0026]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0027]其次,本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示装置结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
[0028]参见图1,为本发明对异质信息网络中的对象排序的方法一个实施例的流程图,该方法包括如下步骤:
[0029]步骤101,获取包含N个对象类型的异质信息网络,其中N > I。
[0030]在对信息网络中的对象进行排序时,需要根据对象的语义或特征将所有对象分成N类,每一类对象对应一个对象类型。一个信息网络所对应的图(GRAPH)可以用A=(T,R)表示,其中,T= {T}是对象类型集合。R= {R}是关系类型集合。一个一般的信息网络定义为图G= (X,E),其中对象类型的映射函数T:X —T,链接类型映射函数P: f —R。每个对象X e X属于一个特定的对象类型T (x) G T。每个链接e G E属于一个特定的关系类型<p(r) eR。当对象类型的类型数|t|>1或者关系类型的类型数|r|>i,这种网络就叫做异质信息网络;否则就是个同质信息网络。异质信息网络又简称为异质信息网络,同质信息网络又简称为同质信息网络。其中,对象的类型数|t|即为n的值。
[0031]一个一般异质信息网络可能具有任意的模式。它可以只包含异质关系,也可以既包含同质关系又包含异质关系。它也可以只包含一个中枢节点,也可以包含多重中枢节点,其中,中枢节点是指和两个或两个以上的节点存在链接的节点。以SLAP数据网络为例。SLAP数据网络包括基因(G,GENE),基因本体(GO,GENE-0NT0L0GY),化合物(C,CHEMICALCOMPOUND),组织(T,TISSUE),副作用(SI,SIDE EFFECT),子结构(SUB,SUBSTRUCTURE) 6 种类型的对象。其中,G类型包含323个基因,C类型包括38,116种化合物,SI类型包括672种副作用,SUB类型包括212种子结构,T类型包括170种组织,GO类型包括948种基因本体。6种类型的对象及对象间存在的105,387个链接构成了 SLAP数据网络。SLAP数据网络对应的异质信息网络如图2所示,其中T、G、G0、S1、C、Sub均指对象类型,箭头表示对象类型之间的链接。其中,对象G具有异质的关系,例如,G — GO和G — C,同时也具有同质关系,例如G — G。显然,如图3所示的二分图及如图4所示的星形网络都是一般异质信息网络的特殊例子,其中A、P、T、V均指对象类型,箭头表示不同对象类型之间的连接。并且,图2展现的异质信息网络因为具有多重中枢节点,因而比如图4所示的星形网络要更加复杂。
[0032]步骤102,依次选取N个对象类型中的一个作为中枢类型,将所述异质信息网络映射成N个子网,每一个所述子网由一个所述中枢类型、相对于所述中枢类型的支持类型及所述中枢类型与所述支持类型之间的链接构成。
[0033]对于一般异质信息网络,我们可以从N个对象类型中选择一个对象类型作为中枢类型,与该中枢类型之间存在链接的其他类型作为支持类型。这些类型和它们之间的链接构成了原先异质信息网络的映射子网,其中链接由对象类型所包含的对象之间的关系构成,所述链接通常具有一定的语义。如果一个异质信息网络具有模式A= (T,R),它的映射子网具有模式a’=(t’,r’),其中
【权利要求】
1.一种对异质信息网络中的对象排序的方法,其特征在于,包括: 获取包含N个对象类型的异质信息网络,其中N > I ; 依次选取N个对象类型中的一个作为中枢类型,将所述异质信息网络映射成N个子网,每一个所述子网由一个所述中枢类型、相对于所述中枢类型的支持类型及所述中枢类型与所述支持类型之间的链接构成; 将所述N个子网组成一个子网序列环; 从所述子网序列环中任意选取一个所述子网作为当前子网; 对所述当前子网中的对象进行排序; 判断排序结果是否稳定; 如果所述排序结果稳定,输出所述排序结果。
2.如权利要求1所述的方法,其特征在于,所述方法还包括: 如果所述排序结果不稳定,选择所述子网序列环中当前子网的下一个子网,并将所述下一个子网作为当前子网,返回对所述当前子网中的对象进行排序步骤。
3.如权利要求1或2所述的方法,其特征在于,所述判断排序结果是否稳定,包括: 判断排序次数是否达到预设值,或者 判断排序结果是否不再变化。
4.如权利要求1至3任意一项权利要求所述的方法,其特征在于,所述对所述当前子网中的对象进行排序,包括: 生成当前子网的聚类信息; 根据所述聚类信息对所述当前子网中的对象进行排序。
5.如权利要求4所述的方法,其特征在于,如果所述当前子网为从所述子网序列环中任意选取的所述子网,所述生成聚类信息包括: 将所述当前子网中的对象随机分配到K个聚簇中生成当前子网的聚类信息,所述对象包括中枢对象与支持对象。
6.如权利要求4所述的方法,其特征在于,如果所述当前子网为所述排序结果不稳定时选择的所述子网,所述生成聚类信息包括: 将所述当前子网中的对象随机分配到K个聚簇中生成第一子信息,所述对象包括中枢对象与支持对象; 获取从所述当前子网的上一个子网继承的第二子信息; 将所述第一子信息与所述第二子信息进行整合生成当前子网的聚类信息。
7.如权利要求5或6所述的方法,其特征在于,所述根据所述聚类信息对所述当前子网中的对象进行排序包括: 采用随机游走方式生成每个所述聚簇中所述支持对象的可达概率; 根据所述可达概率计算所述聚簇中所述中枢对象的异质概率; 采用随机游走方式生成所述聚簇中所述中枢对象的同质概率; 根据所述异质概率与所述同质概率生成所述中枢对象的存在概率; 根据所述存在概率生成中枢对象的后验概率; 根据所述中枢对象的后验概率计算支持对象的后验概率; 根据所述后验概率对所述当前子网中的对象进行排序。
8.如权利要求7所述的方法,其特征在于,在根据所述后验概率对所述当前子网中的对象进行排序之前,还包括: 获取所述当前子网中每一个所述对象的额外重要性度量; 所述以所述后验概率为排序依据对当前子网中的对象进行排序,包括: 根据所述后验概率与所述额外重`要性度量的乘积,对当前子网中的对象进行排序。
【文档编号】G06F17/30GK103559318SQ201310595047
【公开日】2014年2月5日 申请日期:2013年11月21日 优先权日:2013年11月21日
【发明者】石川, 王然, 吴玲玲, 吴斌 申请人:北京邮电大学