一种基于监督对比学习与结构推断的图分类训练方法

文档序号:32601482发布日期:2022-12-17 16:09阅读:来源:国知局

技术特征:
1.一种基于监督对比学习与结构推断的图分类训练方法,其特征在于,包括以下步骤:步骤一,数据获取:基于mutag、ptc、proteins及imdbbinary等数据集,获取图分类所需要的基本数据,即邻接矩阵a与节点特征x;步骤二,生成模拟时间序列:基于步骤一种获取的基本数据,对每个图的邻接矩阵a生成相应的模拟时间序列集合c;步骤三,结构推断:根据每张图的时间序列集合c通过后验计算各个边的邻接概率,并应用于,并应用阈值k产生增强图步骤四,构建正负例样本:将获取的和x根据图标签进行划分为正负例样本g
p
和g
n
;步骤五,产生子图嵌入:对正负例样本g
p
和g
n
,在每个节点上采用宽度优先搜索产生相应的子图划分,并在相应的子图上应用子图神经网络产生子图嵌入;步骤六,产生图嵌入:将子图嵌入进行评分和采样构建能够代表当前图数据的一维嵌入,并利用该嵌入生成相应的图分类标签p;步骤七,监督对比学习:将正负样本的图嵌入和相应的监督标签通过对比学习函数计算损失,图分类标签p和真实标签计算一般分类损失,将二者结合构成最终的分类损失;步骤八,模型根据分类损失进行迭代更新,待收敛后采用最终的图分类标签p'作为最终的图分类模型输出。2.根据权利要求1所述的一种基于监督对比学习与结构推断的图分类训练方法,其特征在于,步骤一中,mutag和ptc数据集是化合物分子数据集,每个图代表了一个化合分子;imdbbinary是互联网电影数据库,每个节点代表一个演员,而边代表两个演员出现在同一个电影中;proteins则是蛋白质分子数据集,其拓扑结构表示了相应蛋白质分子在空间中的拓扑形状;对上述数据集中的每个图,均表示为g=(v,e),其中v表示节点集合,e表示边的集合;对一个属性图而言,表达为g=(x,a)|x∈r
n
×
d
,a∈r
n
×
n
,其中x是各节点属性的集合,a是邻接矩阵表现了图的拓扑结构,n是每个时间序列中节点的数量,d则是节点特征维度的最大值。3.根据权利要求1所述的一种基于监督对比学习与结构推断的图分类训练方法,其特征在于,步骤二中,采用融合节点度的仿真感染程序针对数据集中的每个图产生数据模拟序列;首先选取图内的节点,之后根据其度数和相邻节点度数的差值生成各个邻居的感染概率;根据该感染概率计算相应的感染时间和感染节点,并进行相应的标记;在限定时间内重复过程得到一条节点的时间感染序列;对于每个图,生成1000条时间感染序列以进行结构推断。4.根据权利要求1所述的一种基于监督对比学习与结构推断的图分类训练方法,其特征在于,步骤三中,根据每张图的时间序列进行后验计算各个边的连接概率,并应用阈值ξ产生增强图a';对于每个图的时间序列集合c:(c1,

,c
q
)∈r
q
×
n
,其中q是时间序列的数量,n是每个时间序列中节点的数量,c1,

,c
q
为时间序列的各个元素;根据集合c计算相应的邻接矩阵m就是要最大化概率函数φ(c;m);在时间窗口[0,t]内,感染过程从节点v
i
到节点v
j
的转移方程f(t
j
∣t
i
;m
i,j
)为:
其中t
i
为节点v
i
的感染时间,t
j
为节点v
j
的感染时间,t
i
,t
j
≤t,e为自然底数,m
i,j
为邻接矩阵m第(i,j)项;则由节点v
i
到节点v
j
的转移概率方程φ()可以定义为:其中t
k
为时间t
i
至t
j
之间的所有时刻,将所有满足v
i
(t
i
<t
j
)条件的概率相加即可得到在t
j
时刻满足当前时间感染序列的邻接矩阵m的概率分布:对于每个时间序列的所有时刻t,将相应的概率分布相乘可以得到该时间序列c条件下,任意时刻t的邻接矩阵m的后验概率分布:该根据该概率分布和条件独立性假设,时刻t的可能性邻接矩阵m及相应的时间序列c的概率密度如下所示:由于(5)式仅表达了单个时间序列c的概率分布,对于集合c则需要求解f(c;m)=π
c∈c
f(c;m),最终对于m的求解可以得到如下形式:max
m≥0

c∈c
log f(c;m)
ꢀꢀꢀꢀꢀꢀ
(6)在采用阈值ξ过滤噪音后得的m,并通过a'=a

m产生增强图a'作为数据的增强邻接矩阵。5.根据权利要求1所述的一种基于监督对比学习与结构推断的图分类训练方法,其特征在于,步骤四中,对每个标签的每个样本而言,采用其本身和相应的标签为正例,采用其他标签中样本的抽样作为负例;针对数据集中的每个样本,根据标签划分成属于当前标签的样本和不属于当前标签的样本;在不属于当前标签的集合中随机选择一个样本作为当前样本的负例,和原本的样本共同构成正负例对。6.根据权利要求1所述的一种基于监督对比学习与结构推断的图分类训练方法,其特征在于,步骤五)产生子图嵌入:对每个节点采用宽度优先搜索产生相应的子图划分,并在相应的子图上应用子图神经网络产生子图嵌入;对图上的每个节点v
i
应用宽度优先搜索bfs和搜索上限阈值β产生相应的子图g
i
和相应的节点集合s
bfs
(v
i
);在该集合上应用子图神经网络产生初始化的节点特征过程如下:经网络产生初始化的节点特征过程如下:其中,x是节点的初始特征,h
(0)
是节点v
i
用于图神经网络的初始化特征,aggeregate是
用于聚合邻居特征的聚合函数,combine则是计算邻居特征和当前节点特征的函数;通过式(7)和式(8),计算得到整个图的初始特征h
(0)
。7.根据权利要求1所述的一种基于监督对比学习与结构推断的图分类训练方法,其特征在于,步骤六中,将子图嵌入进行评分和采样构建能够代表当前图数据的一维嵌入;在子图嵌入h
(0)
的基础上采用多个邻域聚合层构成深度图神经网络,其中每层的特征更新函数如下:其中l≥1代表了当前聚合的层号,表示节点v
i
的邻域节点的集合,γ为相应的加权参数mlp则是用于学习聚合方法的多层感知机;在若干层学习后,整个图的节点特征表示可以用表示,其中d
n
是第l层的节点特征维度;为了将图中若干个节点的特征表示融合成一个单一的表示整个图的嵌入,首先应用可学习的top
k
函数选择k个重要节点:其中,idx表示选择的节点编号,表示可学习的参数向量;对于选择好的节点应用下列公式可以计算得到最终的图嵌入r:应用下列公式可以计算得到最终的图嵌入r:其中,是权重矩阵,d
s
是超节点的维度数量,是整个图的嵌入表达,p为本次学习的图标签预测。8.根据权利要求1所述的一种基于监督对比学习与结构推断的图分类训练方法,其特征在于,步骤七中,将正负样本的图嵌入和相应的监督标签通过对比学习函数计算损失并和一般分类损失组合,构成最终的分类损失;采用交叉熵损失作为一般分类损失:其中y为各个图的真实标签信息;采用引入标签信息后的对比学习损失表示为如下形式:其中ω={1,

,2m}代表了当前批数据中所有的样本的下标,φ(.)表示了当前批数据中所有正例样本的下标,对于每个正例样本i存在相应的负例样本p,τ是相应的温度控制超参数,γ(i)为除了样本i以外的所有样本的集合;通过提前根据标签构建正负例样本对的方法,在公式(14)中隐含了标签信息从而提升对比学习在图分类任务中的指导质量;最终损失如下:其中λ是控制监督对比学习部分占比的超参数。

技术总结
本发明公开了一种基于监督对比学习与结构推断的图分类训练方法,首先,该模型通过结构推断充分挖掘图数据本身的拓扑信息作为原本图数据的增强图。然后通过标签进行随机采样构建样本正负例对,并使用层次化的图神经网络分别对正负例样本进行学习以提取整图嵌入。最后,通过普通分类损失和监督对比学习损失共同指导层次化图神经网络的学习过程,提升嵌入的分类性能。本发明融合结构推断和标签信息,基于结构推断的数据增强方式不需要先验知识,增广了模型使用范围,加速了模型学习速度。将图数据上的自监督对比学习扩展为标签监督下的对比学习,增强了其对比学习能力。本发明提升图分类性能,在广义图分类数据上具有较好的可推广性。推广性。推广性。


技术研发人员:冀俊忠 贾浩 雷名龙
受保护的技术使用者:北京工业大学
技术研发日:2022.09.11
技术公布日:2022/12/16
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1