一种聚簇图集合中的子图检索方法

文档序号:6552064阅读:605来源:国知局
一种聚簇图集合中的子图检索方法
【专利摘要】本发明公开了一种聚簇图集合中的子图检索方法,包括:索引建立步骤,根据聚簇图的结构信息和结点属性计算聚簇图集合中各聚簇图之间的相似性,根据各聚簇图之间的相似性采用层次聚类算法将相近的聚簇图聚类,直到剩下一个聚簇图;子图检索步骤;根据用户发起查询图的结构以及顶点属性,对聚簇图索引树采用树的自顶向下的方式进行查询图的同构匹配。本发明通过在数据集合中建立树形索引,尽早过滤不包含查询图的数据项,进行加快查询速度,提高查询效率。
【专利说明】一种聚簇图集合中的子图检索方法

【技术领域】
[0001] 本发明属于图形数据检索【技术领域】,更具体地,涉及一种聚簇图集合中的子图检 索方法。

【背景技术】
[0002] 图形数据被广泛作为社交应用的数学模型,为了防止恶意攻击者根据用户特有的 好友关系还原用户并获取用户的敏感信息,科技工作者设计了各种各样的匿名方法。聚簇 化是将属性和结构相近的用户组合到一起,对外呈现同一属性和结构的方式。聚簇化后,数 据拥有者将数据发布到开放的数据共享平台以供科技工作者利用社交应用的数据进行相 关的研究工作。但是,由于聚簇化后的图数据匹配中,结点之间存在一对多的映射关系,目 前尚未存在有效子图检索技术用于解决该类型数据集合中的子图检索问题。


【发明内容】

[0003] 针对现有技术的以上缺陷或改进需求,本发明的目的是提供一种聚簇图集合中的 子图检索方法,其通过为聚簇图集合建立树形索引,尽早过滤掉不符合查询约束的聚簇图 数据项,缩小查询空间,进而提高检索效率。
[0004] 为实现上述目的,本发明提供了一种聚簇图集合中的子图检索方法,所述包括以 下步骤:
[0005] (1)索引建立步骤:根据聚簇图的结构信息和结点属性计算聚簇图集合中各聚簇 图之间的相似性,根据各聚簇图之间的相似性采用层次聚类算法将相近的聚簇图聚类,直 到剩下一个聚簇图,从而将聚簇图集合转化成聚簇图索引树;
[0006] (2)子图检索步骤:根据用户发起查询图的结构以及顶点属性,对聚簇图索引树 采用树的自顶向下的方式进行查询图的同构匹配;若某中间聚簇图不包含查询图,则其子 孙节点代表的聚簇图不需要进行匹配,因此将该中间聚簇图及其子孙过滤掉;若某节点代 表的聚簇图包含查询图,若该聚簇图不是数据图,则将其孩子节点表示的聚簇图加入待检 测队列,若该聚簇图是数据图,则将其加入结果集;最终将结果集合返回给用户。
[0007] 本发明的一个实施例中,所述步骤(1)中根据聚簇图的结构信息和结点属性计算 聚簇图集合中各聚簇图之间的相似性具体根据下式计算:

【权利要求】
1. 一种聚簇图集合中的子图检索方法,其特征在于,所述方法包括以下步骤: (1) 索引建立步骤:根据聚簇图的结构信息和结点属性计算聚簇图集合中各聚簇图之 间的相似性,根据各聚簇图之间的相似性采用层次聚类算法将相近的聚簇图聚类,直到剩 下一个聚簇图,从而将聚簇图集合转化成聚簇图索引树; (2) 子图检索步骤:根据用户发起查询图的结构以及顶点属性,对聚簇图索引树采用 树的自顶向下的方式进行查询图的同构匹配;若某中间聚簇图不包含查询图,则其子孙节 点代表的聚簇图不需要进行匹配,因此将该中间聚簇图及其子孙过滤掉;若某节点代表的 聚簇图包含查询图,若该聚簇图不是数据图,则将其孩子节点表示的聚簇图加入待检测队 列,若该聚簇图是数据图,则将其加入结果集;最终将结果集合返回给用户。
2. 根据权利要求1所述方法,其特征在于,所述步骤(1)中根据聚簇图的结构信息和结 点属性计算聚簇图集合中各聚簇图之间的相似性具体根据下式计算: 任意两个聚簇图h和G2之间的相似性为
甘由·
信息损失
用于计算属性信息损失,(1-?)((:
I用于 计算结构信息损失;ω为权重参数,用于调节信息损失中属性信息损失和结构信息损失之 间的权重;L表示顶点属性的个数,|_|表示顶点u所在结点的第1个属性的范围或等级, 卜表示顶点u所在结点联合之后相应属性的范围;Pd。表示图形联合后,内部两个结 点之间被连接的概率,POTi表示联合前的相应概_
用于表示联合后结点内的结构信 息损失;deg (u)表示顶点u所在结点的好友个数,deg (V。)表示顶点u所在结点联合后相应 结点的好友个数,用于计算联合时结点间的信息损失;联合一个结点时,结点内所有顶点的 息损失是相同的;
用于计算联合后得到的图闭包closure中结点V。的信息损 失,|VC|表示联合后图中结点内包含的顶点个数,IL(u)表示联合后图结点内某顶点的信 息损失,联合后的息损失由联合如的所有顶点息损失的平均值表不;
3于根据两个聚簇图联合时的结点信息损失计算两项 图联合的信息损失,其中,Gc是Gi和G2的closure, Gc = Closure (Gp G2),f是两个图进行 联合时的映射,公式= m/U
I示两项聚簇图联合时,结点联合的信息损 失的最小值表示联合两项图的信息损失,取得该最小值的映射称为最优映射,该最小值可 作为图集合聚类的度量。
3. 根据权利要求1或2所述方法,其特征在于,所述步骤⑴中根据各聚簇图之间的相 似性采用层次聚类算法将相近的聚簇图聚类,直到剩下一个聚簇图,具体包括: (2-1)选择相似性最大的两个聚簇图; (2-2)根据计算两个聚簇图信息损失时得到的最优映射,联合两个聚簇图,泛化相应匹 配结点的属性,组合结点内部的顶点数和边数,以及结点之间的边数; (2-3)将步骤(2-2)中所得的联合后的聚簇图作为普通聚簇图,若该聚簇图并非只有 一个聚簇图,则计算该聚簇图与其他聚簇图之间的相似性,跳到步骤(2-1); (2-4)否则,将该聚簇图即为树形检索结构的根节点,该聚簇图即为检索入口,索引建 立步骤结束。
4. 根据权利要求1或2所述方法,其特征在于,所述步骤(2)具体包括: (4-1)初始化遍历队列,并将索引树的根节点加入队列; (4-2)检测遍历队列是否为空; (4-3)若为空,则跳转步骤(4-9); (4-4)若不为空,取遍历队列的队首节点,检测其是否满足查询要求; (4-5)若该节点不满足查询要求,则跳转步骤(4-2); (4-6)检测该节点是否为数据集合中的数据图, (4-7)若该节点不是数据集合中的数据图,则将其子孙节点加入遍历队列,跳转步骤 (4-2); (4-8)否则,将该节点加入结果集; (4-9)返回结果集。
【文档编号】G06F17/30GK104102699SQ201410313170
【公开日】2014年10月15日 申请日期:2014年7月1日 优先权日:2014年7月1日
【发明者】丁晓锋, 金海 , 贾建红, 徐慧 申请人:华中科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1