本发明涉及跨网络节点分类,特别是涉及一种多源跨网络节点分类方法、设备及介质。
背景技术:
1、跨网络节点分类的目标是利用一个具有丰富节点标签的源网络中学习的知识,来预测另一个缺乏标签的目标网络中的节点标签。跨网络节点分类已被广泛应用于引文网络、社交网络、生物医学和电子商务等领域。现有的跨网络节点分类方法主要应用单个源网络,过度依赖于单个源网络的特征和标签,限制了对目标网络的泛化能力,进而阻碍了对具有多个源网络的跨网络节点分类场景的有效处理。
2、在相关技术方案中,跨网络节点分类方法扩展到多源网络场景时,普遍使用的方法是将所有源网络数据合并作为一个整体来处理,或者在与目标网络对齐时平等对待每个源网络。由于各个源网络和目标网络之间的适应度不同,平等对待每个源网络可能会导致在下游任务中获得次优结果,并且只是进行类无关的域对齐,降低了节点分类结果的准确性。
技术实现思路
1、本发明的目的是提供一种多源跨网络节点分类方法、设备及介质,可以控制不同源网络对目标网络的影响程度,减轻类内域差异,扩大类间域差异,预测结果更为准确,提高节点分类性能。
2、为了解决上述技术问题,本发明提供一种多源跨网络节点分类方法,所述方法包括:
3、构建多源跨网络节点分类模型;所述多源跨网络节点分类模型包含采用多层的多头图注意力网络形成的图编码器以及与源网络一一对应且采用单层的多头图注意力网络形成的节点分类器;
4、将具有节点标签的多个源网络图结构数据和缺乏节点标签的目标网络图结构数据均输入至所述图编码器,生成各个源网络和目标网络的节点特征;
5、将各个源网络和目标网络的节点特征输入至对应的节点分类器,得到每个目标节点的标签预测值,并根据标签预测值的熵的倒数,计算各个源网络对目标网络的适应度,以确定各个源网络的可转移性权重;
6、将各个源网络上的节点分类损失和所有节点分类器分别采用确定的可转移性权重加权处理,得到整体节点分类损失和每个目标节点的最终标签预测结果;
7、根据所述最终标签预测结果为目标节点生成伪标签,在点-点层面和原型-原型层面上对每个源网络和目标网络之间进行对比域适应,得到点-点总体图对比损失和原型-原型总体图对比损失,并计算总体伪标签损失;
8、根据所述整体节点分类损失,所述点-点总体图对比损失,所述原型-原型总体图对比损失以及所述总体伪标签损失,得到总体目标函数;
9、更新所述图编码器和节点分类器的可学习参数,当所述总体目标函数达到收敛条件后,得到训练好的多源跨网络节点分类模型;
10、将待测网络图结构数据输入至训练好的多源跨网络节点分类模型,预测出所述待测网络中所有节点的类别标签结果。
11、第一方面,在本发明提供的上述多源跨网络节点分类方法中,生成各个源网络和目标网络的节点特征,包括:
12、从各个源网络和目标网络中随机抽取多个节点并组成一个批次;
13、根据节点属性和反应图拓扑结构的邻接矩阵,利用多头图注意力网络中的图注意力头为批次中的每一对相连的节点学习自适应边权重;
14、根据所述自适应边权重,聚合邻居信息来更新节点特征;
15、拼接多个图注意力头学习到的节点特征,生成最终的节点特征。
16、另一方面,在本发明提供的上述多源跨网络节点分类方法中,采用下述公式学习自适应边权重:
17、;
18、其中,和表示节点的索引,表示第个节点,表示的节点属性,和表示在批次中节点的所有一阶邻居节点的集合,代表第个图注意力头对相连的节点学习的自适应边权重,是图编码器中第个图注意力头的可学习权重矩阵,代表拼接操作,是图编码器中第个注意力头的可学习权重向量,表示转置操作,表示leakyrelu激活函数;
19、采用下述公式更新节点特征:
20、;
21、其中,表示图注意力头的索引,是从第个注意力头学习到的节点的特征向量,表示elu激活函数,表示的节点属性;
22、采用下述公式生成最终的节点特征:
23、;
24、其中,是图编码器为学到的最终的节点特征向量,表示图注意力头的个数,表示平均操作。
25、另一方面,在本发明提供的上述多源跨网络节点分类方法中,采用下述公式构建节点分类器:
26、;
27、其中,是节点的输出标签概率向量,是第k个节点分类器的可学习权重矩阵,是节点的最终的节点特征向量,是第k个源网络的第i个节点,表示softmax函数,表示第k个节点分类器的注意力系数矩阵,表示在第k个源网络中抽取的批次,表示在中第i个节点的邻接节点。
28、另一方面,在本发明提供的上述多源跨网络节点分类方法中,基于源网络的已知节点标签和节点分类器预测的标签概率,采用下述公式计算节点分类损失函数:
29、;
30、其中,是节点分类损失函数,表示节点被标记为类别的预测概率,表示节点关于类别的真实标签;若节点属于第类,;若节点不属于第类,;表示源网络取样的小批量中节点的个数,是不同的类别的总数;
31、采用下述公式得到整体节点分类损失:
32、;
33、其中,是整体节点分类损失,是各个源网络的可转移性权重,是节点分类器的总个数。
34、另一方面,在本发明提供的上述多源跨网络节点分类方法中,采用下述公式得到点-点总体图对比损失:
35、;
36、;
37、其中,是点-点总体图对比损失,表示第k个源网络和目标网络的点-点图对比损失,分别表示第k个源网络和目标网络,表示与锚点关联的点-点图对比损失,表示与锚点关联的点-点图对比损失;
38、采用下述公式得到原型-原型总体图对比损失:
39、;
40、;
41、其中,是原型-原型总体图对比损失,表示第k个源网络和目标网络的原型-原型图对比损失,表示与锚点关联的原型-原型图对比损失,表示与锚点关联的原型-原型图对比损失。
42、另一方面,在本发明提供的上述多源跨网络节点分类方法中,采用下述公式计算总体伪标签损失:
43、;
44、;
45、;
46、;
47、;
48、其中,是总体伪标签损失,表示第k个节点分类器对目标网络所有节点的预测结果,表示正伪标签学习损失,表示负伪标签学习损失,是正伪标签的置信度阈值,是指示函数,当条件为真时返回1,否则返回0;是中节点类别为的置信概率大于正伪标签学习阈值且的正伪标签子集;是负伪标签的置信度阈值,表示是中节点类别为的置信概率小于负伪标签学习阈值的负伪标签子集。
49、另一方面,在本发明提供的上述多源跨网络节点分类方法中,采用下述公式得到总体目标函数:
50、;
51、其中,为总体目标函数,、和是权衡参数,和分别是图编码器和节点分类器的可学习参数。
52、为了解决上述技术问题,本发明还提供一种多源跨网络节点分类设备,所述设备包括:
53、存储器,用于存储计算机程序;
54、处理器,用于执行所述计算机程序时实现上述的多源跨网络节点分类方法的步骤。
55、为了解决上述技术问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的多源跨网络节点分类方法的步骤。
56、从上述技术方案可以看出,本发明所提供的一种多源跨网络节点分类方法,该方法包括:构建多源跨网络节点分类模型;多源跨网络节点分类模型包含采用多层的多头图注意力网络形成的图编码器以及与源网络一一对应且采用单层的多头图注意力网络形成的节点分类器;将具有节点标签的多个源网络图结构数据和缺乏节点标签的目标网络图结构数据均输入至图编码器,生成各个源网络和目标网络的节点特征;将各个源网络和目标网络的节点特征输入至对应的节点分类器,得到每个目标节点的标签预测值,并根据标签预测值的熵的倒数,计算各个源网络对目标网络的适应度,以确定各个源网络的可转移性权重;将各个源网络上的节点分类损失和所有节点分类器分别采用确定的可转移性权重加权处理,得到整体节点分类损失和每个目标节点的最终标签预测结果;根据最终标签预测结果为目标节点生成伪标签,在点-点层面和原型-原型层面上对每个源网络和目标网络之间进行对比域适应,得到点-点总体图对比损失和原型-原型总体图对比损失,并计算总体伪标签损失;根据整体节点分类损失,点-点总体图对比损失,原型-原型总体图对比损失以及总体伪标签损失,得到总体目标函数;更新图编码器和节点分类器的可学习参数,当总体目标函数达到收敛条件后,得到训练好的多源跨网络节点分类模型;将待测网络图结构数据输入至训练好的多源跨网络节点分类模型,预测出待测网络中所有节点的类别标签结果。
57、本发明的有益效果在于,本发明提供的上述多源跨网络节点分类方法,构建多源跨网络节点分类模型,该模型中采用多层的多头图注意力网络来形成图编码器,可自动学习自适应的边权重,从而对网络结构噪声具有更强的抵抗力。并且,该模型中根据每个源网络对应的节点分类器输出的标签预测值的熵来确定每个源网络的可转移性权重,能够控制不同的源网络对目标网络的影响程度,解决了传统跨网络节点分类方法在多源网络场景中普遍平等对待各个源网络,而无法根据源网络和目标网络之间的适应度对源网络和目标网络进行对齐的问题。另外,本发明在点-点和原型-原型级别上对每个源网络和目标网络之间进行对比域适应,点-点层面的对比域适应可以最大限度地提高不同网络中属于同一类别的节点嵌入之间的一致性,原型-原型层面的对比域适应中目标是最大化网络中同类原型嵌入之间的互信息,这样在点-点和原型-原型级别上能够减轻类内域差异,并扩大类间域差异。本发明在根据整体节点分类损失,点-点总体图对比损失,原型-原型总体图对比损失以及总体伪标签损失来得到总体目标函数,基于该总体目标函数来训练模型,后续通过训练好的模型进行预测,可以减少目标网络对单一源网络的过度依赖,使用多源域自适应从多个源网络中迁移知识,得到更为准确的节点类别标签结果,提高在目标网络中的节点分类性能。
58、此外,本发明还针对多源跨网络节点分类方法提供了相应的多源跨网络节点分类设备及计算机可读存储介质,与上述提到的多源跨网络节点分类方法具有相同或相对应的技术特征,效果同上。