本发明涉及图对比学习及图神经网络领域,特别涉及一种基于图对比学习的跨网络节点分类方法、装置、设备及介质。
背景技术:
1、节点分类一直是图机器学习领域备受关注的研究课题,已被广泛应用于社交网络、生物医学、和电子商务等领域。现有的节点分类算法普遍专注于单个网络的应用场景,即假设训练节点和测试节点均从单个网络中采样。而在实际应用中,节点分类可以跨不同的网络进行,即训练节点和测试节点采样于不同数据分布的网络。跨网络节点分类具有多种真实的应用场景。例如,在跨网络影响力最大化问题中,一个较小的源网络中所有节点都有反映其影响力的标签,而一个较大的目标网络中所有节点都缺乏标签,为了使目标网络的影响力最大化,我们可以把从源网络中学到的知识迁移到目标网络中,以帮助目标网络选择最具影响力的节点。在跨域蛋白质功能预测问题中,给定一个具有丰富蛋白质功能标签的蛋白质-蛋白质相互作用源网络,和一个缺乏蛋白质功能标签的蛋白质-蛋白质相互作用目标网络,我们可以迁移从源网络中学习的知识来帮助目标网络预测蛋白质功能。在跨域推荐任务中,给定一个拥有丰富用户兴趣标签的源社交网络,和一个缺乏用户兴趣标签的目标社交网络,我们可以迁移由源网络中学习的知识来帮助目标网络预测用户的兴趣。现有的跨网络节点分类算法普遍采取结合图神经网络和域适应的方式,一方面,解决了图神经网络缺乏考虑域间分布差异的缺陷,另一方面,解决了域适应算法缺乏考虑网络拓扑结构的缺陷。然而,现有的跨网络节点分类算法仍存在以下不足:(1)现有的跨网络节点分类算法普遍采用固定边权重的图神经网络模型,对网络结构噪声的抵抗力较低。(2)现有的跨网络节点分类算法大多仅关注于匹配源网络和目标网络的边缘分布,而无法保证不同网络的类条件分布的匹配,即无法保证相同类别的节点在不同网络中具有相似的表征。在图数据分析中,标签通常很昂贵、有限甚至不可用。为了利用大量未标记的图数据,近期,图对比学习提供了一种有前途的范式,通过将图神经网络与对比学习相结合,可在不依赖标签信息的条件下无监督地学习图表征。尽管图对比学习在单个网络的无监督图表示学习问题上已展现了优越的性能,但将图对比学习应用于跨网络节点分类问题仍未为探索。
2、由上可见,如何提高跨网络节点分类的稳定性,增强对网络结构噪声的抵抗力,实现匹配源网络和目标网络的类别条件分布是本领域有待解决的问题。
技术实现思路
1、有鉴于此,本发明的目的在于提供一种基于图对比学习的跨网络节点分类方法、装置、设备及介质,能够提高跨网络节点分类的稳定性,增强对网络结构噪声的抵抗力,实现匹配源网络和目标网络的类别条件分布。其具体方案如下:
2、第一方面,本技术公开了一种基于图对比学习的跨网络节点分类方法,应用于magcl模型,包括:
3、分别获取源网络历史节点和目标网络待分类节点,对所述源网络历史节点和所述目标网络待分类节点分别进行自适应边权重计算,以得到源网络历史节点特征和目标网络待分类节点特征,并确定出所述源网络历史节点的标签预测概率;
4、确定出所述源网络历史节点的真实标签,基于所述标签预测概率和所述真实标签构建出节点分类损失函数,确定出所述源网络历史节点和所述目标网络待分类节点的真实域标签,基于所述真实域标签、所述源网络历史节点特征以及所述目标网络待分类节点特征构建出域分类损失函数;
5、为所述源网络历史节点和所述目标网络待分类节点生成正负样本对,基于所述正负样本对构建出特定网络图对比损失函数和跨网络图对比损失函数;
6、基于所述节点分类损失函数、所述域分类损失函数、所述特定网络图对比损失函数以及所述跨网络图对比损失函数构建出目标函数,并利用所述目标函数对本地的可学习参数进行优化,以得到优化后可学习参数;
7、判断所述目标函数是否符合预设的收敛条件,若所述目标函数符合预设的收敛条件,则利用所述优化后可学习参数对所述目标网络待分类节点进行节点标签预测,以得到各目标网络待分类节点标签,以便目标网络根据各所述目标网络待分类节点标签对所述目标网络待分类节点进行分类。
8、可选的,所述确定出所述源网络历史节点的真实标签,基于所述标签预测概率和所述真实标签构建出节点分类损失函数,包括:
9、确定出所述源网络历史节点的真实标签,并为所述源网络历史节点特征构建节点分类器;
10、利用所述节点分类器确定出所述源网络历史节点的标签预测概率,基于所述标签预测概率和所述真实标签构建出节点分类损失函数。
11、可选的,所述确定出所述源网络历史节点和所述目标网络待分类节点的真实域标签,基于所述真实域标签、所述源网络历史节点特征以及所述目标网络待分类节点特征构建出域分类损失函数,包括:
12、确定出所述源网络历史节点和所述目标网络待分类节点的真实域标签,采用多层感知器为所述目标网络待分类节点构建域鉴别器;
13、基于所述源网络历史节点特征和所述目标网络待分类节点特征并利用所述域鉴别器分别确定出所述源网络历史节点的预测域概率和所述目标网络待分类节点的预测域概率;
14、基于所述源网络历史节点的预测域概率、所述目标网络待分类节点的预测域概率以及所述真实域标签构建出域分类损失函数。
15、可选的,所述为所述源网络历史节点和所述目标网络待分类节点生成正负样本对,基于所述正负样本对构建出特定网络图对比损失函数和跨网络图对比损失函数,包括:
16、利用本地的图编码器为源网络和目标网络生成各可学习增强视图,并为所述源网络历史节点和所述目标网络待分类节点生成正负样本对,将所述源网络历史节点特征和所述目标网络待分类节点特征作为均值聚类算法的输入,以得到簇标,并将所述簇标作为所述目标网络的伪标签;
17、基于所述正负样本对构建出特定网络图对比损失函数,基于所述正负样本对、所述真实标签以及所述伪标签构建出跨网络图对比损失函数。
18、可选的,所述分别获取源网络历史节点和目标网络待分类节点之前,还包括:
19、采用多层的多头图注意力网络构建图编码器,采用单层的多头图注意力网络构建节点分类器,采用多层感知机构建域鉴别器;其中,域自适应的图神经网络包括图编码器、节点分类器以及域鉴别器;
20、基于所述图神经网络、特定网络的图对比学习模块以及类别感知的跨网络图对比学习模块构建出所述magcl模型。
21、可选的,所述判断所述目标函数是否符合预设的收敛条件之前,还包括:
22、在本地的所述图编码器和所述域鉴别器之间插入梯度反转层,利用所述梯度反转层以反转域分类损失对图编码器可学习参数的梯度,以便在反向传播时,对所述图编码器和所述域鉴别器进行更新。
23、可选的,所述利用所述目标函数对本地的可学习参数进行优化,以得到优化后可学习参数,包括:
24、利用所述目标函数对所述图神经网络中所述图编码器的可学习参数、所述节点分类器的可学习参数以及所述域鉴别器的可学习参数分别进行更新,以得到第一参数、第二参数以及第三参数;
25、从所述第一参数、所述第二参数以及所述第三参数中筛选出各参数,以得到所述优化参数。
26、第二方面,本技术公开了一种基于图对比学习的跨网络节点分类装置,包括:
27、节点特征确定模块,用于分别获取源网络历史节点和目标网络待分类节点,对所述源网络历史节点和所述目标网络待分类节点分别进行自适应边权重计算,以得到源网络历史节点特征和目标网络待分类节点特征,并确定出所述源网络历史节点的标签预测概率;
28、分类损失函数构建模块,用于确定出所述源网络历史节点的真实标签,基于所述标签预测概率和所述真实标签构建出节点分类损失函数,确定出所述源网络历史节点和所述目标网络待分类节点的真实域标签,基于所述真实域标签、所述源网络历史节点特征以及所述目标网络待分类节点特征构建出域分类损失函数;
29、图对比损失函数构建模块,用于为所述源网络历史节点和所述目标网络待分类节点生成正负样本对,基于所述正负样本对构建出特定网络图对比损失函数和跨网络图对比损失函数;
30、目标函数构建模块,用于基于所述节点分类损失函数、所述域分类损失函数、所述特定网络图对比损失函数以及所述跨网络图对比损失函数构建出目标函数,并利用所述目标函数对本地的可学习参数进行优化,以得到优化后可学习参数;
31、节点分类模块,用于判断所述目标函数是否符合预设的收敛条件,若所述目标函数符合预设的收敛条件,则利用所述优化后可学习参数对所述目标网络待分类节点进行节点标签预测,以得到各目标网络待分类节点标签,以便目标网络根据各所述目标网络待分类节点标签对所述目标网络待分类节点进行分类。
32、第三方面,本技术公开了一种电子设备,包括:
33、存储器,用于保存计算机程序;
34、处理器,用于执行所述计算机程序,以实现前述的基于图对比学习的跨网络节点分类方法。
35、第四方面,本技术公开了一种计算机存储介质,用于保存计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的基于图对比学习的跨网络节点分类方法的步骤。
36、可见,本技术提供了一种基于图对比学习的跨网络节点分类方法,包括分别获取源网络历史节点和目标网络待分类节点,对所述源网络历史节点和所述目标网络待分类节点分别进行自适应边权重计算,以得到源网络历史节点特征和目标网络待分类节点特征,并确定出所述源网络历史节点的标签预测概率;确定出所述源网络历史节点的真实标签,基于所述标签预测概率和所述真实标签构建出节点分类损失函数,确定出所述源网络历史节点和所述目标网络待分类节点的真实域标签,基于所述真实域标签、所述源网络历史节点特征以及所述目标网络待分类节点特征构建出域分类损失函数;为所述源网络历史节点和所述目标网络待分类节点生成正负样本对,基于所述正负样本对构建出特定网络图对比损失函数和跨网络图对比损失函数;基于所述节点分类损失函数、所述域分类损失函数、所述特定网络图对比损失函数以及所述跨网络图对比损失函数构建出目标函数,并利用所述目标函数对本地的可学习参数进行优化,以得到优化后可学习参数;判断所述目标函数是否符合预设的收敛条件,若所述目标函数符合预设的收敛条件,则利用所述优化后可学习参数对所述目标网络待分类节点进行节点标签预测,以得到各目标网络待分类节点标签,以便目标网络根据各所述目标网络待分类节点标签对所述目标网络待分类节点进行分类。本技术应用于新的跨网络节点分类模型,即基于多头注意力的图对比学习模型magcl(multi-head attention empowered graph contrastive learning,基于多头注意力的图对比学习模型),magcl模型采用图注意力网络作为图编码器,可自动学习自适应的边权重,从而对网络结构噪声具有更强的抵抗力,通过最小化类别感知的跨网络图对比损失,使得图编码器为不同网络同一类别的节点学习相似的特征,而为不同网络不同类别的节点学习不同的特征,从而匹配源网络和目标网络的类别条件分布。