本发明属于分子性质的预测和图神经网络,更为具体地讲,该发明涉及一种基于多视图的图神经网络的分子性质预测方法。
背景技术:
1、在药物发现和开发领域,准确预测化学分子的特性是至关重要的。这不仅加速了新药物的发现,而且有助于筛选出最有前景的候选药物。候选药物需要在多个方面进行评估,包括与目标结合的亲和力、水溶性、副作用等。
2、早期的药物发现过程主要依赖于组合化学和高通量筛选等传统方法。这些方法虽然能够创造出大量的分子结构,但由于化学空间的广泛性,其效率较低,计算量大。此外,在传统的分子性质预测任务中,研究人员通常依赖于经验和手工特征工程来指导分子预测工作,这可能导致分子表征带有领域专家的偏见。
3、近年来,随着人工智能技术的发展,尤其是深度学习的进步,药物分子性质的预测方法发生了根本性的变化。深度学习方法,特别是多层神经网络,能够从分子结构或原始信息丰富的分子描述符中自动提取低维稠密的向量表示,从而克服了传统特征工程的限制。这些基于深度学习的模型能够自动从数据中学习规律,减轻研究人员的工作负担,并提高预测的准确性和效率。
4、图神经网络作为深度学习的一个分支,近年来在化学分子性质预测领域取得了显著的进展。图神经网络能够自然地表示化学分子中原子的连接结构,适合处理图结构数据。与传统机器学习方法相比表现出更高的效果。因此,图神经网络逐渐成为分子性质预测领域的热门深度学习方法之一。但是现有的图分类方法无法保证扰动图和原始图之间的语义一致性,当图稍有改动或扰动时,模型可能会给扰动图分配与原始图不同的分类。例如,对于一个分子以原子为节点,键为边的图来表示,即使图中有细微的变化,但并不改变分子的实际结构(如键的长度或角度有细微差别,但结果仍然是相同的分子结构),鲁棒的模型也应该以相同的方式对分子进行分类。
技术实现思路
1、本发明的目的在于克服现有技术的不足,提出一种基于多视图的图神经网络的分子性质预测方法,在现有的技术基础上充分利用数据内在知识,可以显著提升分子分类准确性和模型的鲁棒性。
2、为实现上述发明目的,本发明基于多视图的图神经网络的分子性质预测方法,其特征在于,具体包括以下步骤:
3、(1)、将化学分子图建模成图和节点嵌入。确定从各个化学数据集中获取的各个原子和各个化学键,将其分别作为构建拓扑图的节点和边,将化学分子图表示成拓扑图。将所有节点的特征向量来构成特征矩阵。
4、(2)、将生成的图进行随机扰动。其中将原图进行扰动来获得不同的图嵌入。其中扰动的过程公式为:
5、
6、其中,hk表示第k个扰动后获得的节点表示集,为原始图。
7、(3)、节点级的表示学习。节点级的表示学习主要分为两块,首先是在每个扰动后的图嵌入上应用独立的自注意力图卷积,以更新原子级别的节点嵌入。其中注意力分数的公式为:
8、
9、其中,αij是节点vi对邻居vj的注意力,ni是节点vi的邻居集合,,eij表示通过非线性激活函数计算得到的中间向量,a和w表示注意力机制权重参数。
10、其中更新节点嵌入的公式为:
11、
12、其中,是节点i在融合了领域信息后的新特征。σ是激活函数,w是可学习参数。
13、然后多粒度对比学习技术,通过最大化锚点和正节点表示之间的语义一致性,同时最小化锚点和负节点表示之间的语义一致性。其中,节点级的一致性表征学习损失公式为:
14、
15、其中,代表节点级的损失,neg代表负样本,是指示函数,n是节点个数,k是扰动个数,代表第k个扰动后获得的节点表示集中的第n个节点的表示,s(,)是衡量不同节点表征之间语义相似性的度量函数,τ1是温度参数。
16、(4)、图级的表示学习。首先将之前获得的节点表示,通过readout函数来获得图表征,通过最大化锚点与正表示之间的语义一致性,同时最小化锚点与负表示之间的语义一致性。其中,图级的一致性表征学习损失公式为:
17、
18、其中,表示图级的损失,m是一个批次中图的个数,τ2是温度参数。
19、(5)、模型训练。根据分子图的最终表示向量,利用多层感知器获得分类结果。将数据划分为训练集和测试集,使用训练集输入模型进行训练,损失函数使用和的加和,优化器使用adam优化器,进行多次迭代使模型拟合并达到最优。
20、(6)、模型测试。使用训练好的模型在测试集上进行测试,根据真实数据对预测结果进行评估。
1.一种基于多视图的图神经网络的分子性质预测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的分子性质预测方法,其特征在于,步骤(3)中,所述的节点级的表示学习: