一种基于子图的符号链路预测方法及系统

文档序号:37431286发布日期:2024-03-25 19:24阅读:16来源:国知局
一种基于子图的符号链路预测方法及系统

本发明涉及图数据挖掘领域,具体涉及一种基于子图的符号链路预测方法及系统。


背景技术:

1、符号网络是指边具有正或负符号属性的网络,其中正边和负边分别表示积极的关系和消极的关系。具体而言,符号网络中的正边可以表示朋友、信任、喜欢、支持等积极关系,使用正号标识;而负边通常用于表示敌人、不信任、讨厌、反对等消极关系,使用负号标识。现实生活中许多领域都存在符号网络,例如社交网站用户间的朋友与敌人关系、在线游戏玩家间的协作与竞争关系、生物领域神经元间的促进与抑制关系等。符号网络的相关研究主要专注于其结构及演化分析,其中的一个热点领域就是符号链接预测。它通过分析观测到的网络结构,能预测不相连的两节点间是否存在潜在链接或建立未来链接的可能性。符号链接预测能够揭示链接产生的行为模式,帮助分析数据缺失的网络并认识隐含的进化机制,使其为社会网络的结构及演化模型的分析提供理论依据。

2、目前,符号链路预测的主要范式是基于图表示学习的。这类方法学习符号网络上节点的低维嵌入向量(即节点表示),然后将两个目标表示聚合为链接表示来预测符号。现有方法可分为符号网络表征和符号图神经网络两种方法。符号网络表征方法采用专门设计的随机游走策略或概率估计模型来学习符号网络的结构信息,因此能够将网络结构和符号信息嵌入到低维向量中。近年来,图神经网络越来越受到广泛的关注,其目的是聚集邻居的信息进行节点表示学习。因此,研究人员已经开始利用图神经网络进行符号图的表示学习,这类方法称作符号图神经网络技术。例如,有国外学者将著名的社会心理学理论——平衡理论融合进图卷积神经网络、图注意力神经网络的消息传播层,以将符号网络上的邻居信息进行聚合。

3、虽然这些方法都取得了一定的进展,但它们都有一个共同的缺点。现有方法独立学习两个目标节点的表示,并根据表示之间的相似性预测目标节点对的符号。然而,这种范式是以节点为中心的,无法捕获所要预测的节点对之间的隐式关系,从而无法区分具有明显不同上下文的节点对。对于以节点对为中心的符号预测任务,这些方法将产生令人不满意的性能。因此,现有的符号网络图表示学习方法仍然需要改进,以取得更好的符号链路预测效果。


技术实现思路

1、本发明的目的是针对现有符号链路预测方法的不足,提出了一种基于子图的符号链路预测方法及系统,该方法学习以节点对为中心的表示,利用子图显式地对目标节点对周围的邻域进行建模,之后利用该子图表示作为节点对的最终表示来进行符号链路预测。

2、为实现上述目的,本发明采用的技术方案如下:

3、一种基于子图的符号链路预测方法,包括以下步骤:

4、对图数据进行预处理操作,得到符号图的邻接矩阵;

5、构建基于重要性的子图提取模块,所述子图提取模块对全局邻居节点进行选取,针对网络中的每一个目标节点对提取子图;

6、构建符号感知的节点标记模块,所述节点标记模块以目标节点为中心,采用相对距离编码对子图的图结构进行编码,得到表示结构的特征向量,实现邻居信息的知识嵌入;

7、构建自平衡的符号分类模块,所述符号分类模块将编码的子图输入图神经网络,利用图卷积和图池化操作对子图信息进行特征提取,得到子图表示,通过焦点损失和自剪枝对比损失实现链路的平衡分类;

8、对所述子图提取模块、所述节点标记模块和所述符号分类模块进行训练;

9、利用训练完成的所述子图提取模块、所述节点标记模块和所述符号分类模块进行符号链路预测。

10、进一步地,所述子图提取模块采用个性化pagerank算法计算全局邻居节点的重要性分数,根据重要性分数对目标节点进行子图采样,针对网络中的每一个目标节点对组成一个提供丰富且关键的图结构知识的子图并根据链路的符号将子图分为正子图和负子图

11、进一步地,所述节点标记模块采用相对距离标记策略定位提取的子图中每个节点的位置;所述相对距离标记策略聚焦于目标节点v0,计算其他节点vi与v0的最短距离d(vi,v0),其中d(v0,v0)=0,之后将d(vi,v0)转换为独热向量形式,作为初始结构属性;根据与目标节点对的相对距离,对正子图和负子图采用所述相对距离标记策略分别获得具有正、负性质的节点标签,然后节点标签的独热编码作为节点特征输入到下游的图神经网络gnn中。

12、进一步地,所述符号分类模块使用关系图卷积网络作为gnn来学习链路表示h,然后将h输入到链路分类器中,使用焦点损失进行符号预测;同时,通过网络剪枝操作创建另一个rgcn,得到另一个链路表示通过对比h和采用自剪枝对比损失隐式地增加负链路的权重,获得更平衡的链路表示用于符号链路预测任务。

13、进一步地,所述关系图卷积网络包含多个图卷积层以及最终的图池化层;所述图卷积层旨在对子图中的所有节点执行邻居聚合以及消息传播操作;所述图池化层旨在学习整个子图的综合表示,以更好地对目标节点进行表征。

14、进一步地,所述图池化层计算子图中所有节点特征表示的平均输出,将其与目标节点对的特征表示进行拼接,得到目标节点对(vi,vj)的最终节点表示hi,j:

15、

16、其中,表示子图的所有节点集合,hi和hj分别为目标节点vi和vj经过图卷积与残差连接后的特征表示。

17、进一步地,所述自剪枝对比损失定义为:

18、

19、其中,s(·)表示相似度度量函数,表示指示函数,hi和分别代表h矩阵和矩阵中第i个链路的表示,ε表示链路训练集合。

20、一种基于子图的符号链路预测系统,其包括:

21、预处理模块,用于对图数据进行预处理操作,得到符号图的邻接矩阵;

22、基于重要性的子图提取模块,用于对全局邻居节点进行选取,针对网络中的每一个目标节点对提取子图;

23、符号感知的节点标记模块,用于以目标节点为中心,采用相对距离编码对子图的图结构进行编码,得到表示结构的特征向量,实现邻居信息的知识嵌入;

24、自平衡的符号分类模块,用于将编码的子图输入图神经网络,利用图卷积和图池化操作对子图信息进行特征提取,得到子图表示,通过焦点损失和自剪枝对比损失实现链路的平衡分类;

25、链路预测模块,用于对所述子图提取模块、所述节点标记模块和所述符号分类模块进行训练,利用训练完成的所述子图提取模块、所述节点标记模块和所述符号分类模块进行符号链路预测。

26、与现有技术相比,本发明的积极效果为:

27、1.本发明针对目前的符号链路预测方法无法独立地学习两个目标节点的表示,从而无法捕获所要预测的节点对之间的隐式关系的问题,提出了基于子图的符号链路预测方法。该方法的主要思路是为每个目标节点对提取子图,并使用该子图的表示作为链路表示进行符号预测,更适用于链路级别的任务。

28、2.本发明针对目前的符号链路预测方法中无法处理高度不平衡的链路分类问题(正链路远大于负链路),提出了自剪枝对比损失,以隐式地增加负链路的权重,从而获得更平衡的链路表示。

29、3.本发明针对目前的图数据挖掘方法中无法对符号图的结构以及符号信息进行同时建模的问题,提出了一种有效的编码策略。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1