一种预测化合物-蛋白质相互作用的系统及其方法

文档序号:41074150发布日期:2025-02-28 17:07阅读:10来源:国知局
一种预测化合物-蛋白质相互作用的系统及其方法

本发明涉及化合物蛋白质分子特征提取领域,具体涉及一种预测化合物-蛋白质相互作用的系统及其方法。


背景技术:

1、化合物蛋白质相互作用(cpi)的研究在药物发现和生物医学研究领域至关重要。然而,cpi的实验测量既耗时又昂贵[1]。尽管高通量筛选(hts)[2]和虚拟筛选(vs)等技术具有实用性,但由于成本和时间限制,它们在加快cpi预测过程方面仍然面临限制[3]。鉴于人工智能(ai)在自然语言处理和计算机视觉方面的显著成功,研究人员已将注意力转向探索ai技术在cpi研究中遇到的挑战的应用。基于ai的工具目前被制药工业视为发现和开发创新药物的关键“引擎”[4]。通过利用机器学习算法和深度神经网络,研究人员可以从大量数据中提取有意义的模式,实现cpi的准确预测。这些基于ai的方法有潜力通过提供高效和成本效益的预测化合物-蛋白质相互作用的手段,从而促进潜在药物候选物的识别和加快药物发现过程[5]。

2、在cpi研究中,化合物表示方法一直是研究的重点。许多方法利用神经网络的强大学习能力来捕获化合物内的重要信息,为cpi预测和药物设计提供了新的可能性。这些方法采用图神经网络(gnn)来迭代更新节点表示,捕获化合物中原子之间的相互作用和信息。这种方法在处理大分子和复杂化合物方面特别有效。然而,大多数基于gnn的化合物建模方法忽略了药效团和功能团等高阶信息[5]。例如,现有的方法通常只关注单一尺度的信息,忽略了可以提供当前基于原子的分子图表示未充分利用的分子属性的功能团和药效团。药效团建模目前是药物设计和发现的一个关键领域[6]。其目的是识别和描述与特定药物活性相关的结构模式或功能团。药效团是药物分子中负责与蛋白质靶标相互作用的关键结构单元,它们在药物选择性和活性中起着至关重要的作用。通过药效团建模,分析已知活性化合物及其相关蛋白质结构,可以识别关键的药效团特征,如图1所示。如果一个化合物匹配多个特征,则认为它符合药效团模型。药效团建模使研究人员能够更好地理解和优化药物分子之间的相互作用[7][8]。


技术实现思路

1、针对现有技术中化合物分子和蛋白质分子在预测过程中重要信息丢失严重的技术难题问题,本发明提供一种基于多尺度学习和药效团信息融合的化合物-蛋白质相互作用预测系统及方法;本发明能够将化合物分子的结构性质编码到smiles字符串中,从而可以提取到更多关于化合物分子的信息,并且在化合物蛋白质特征表示过程中分别加入注意力模型使得获取更精确的特征表示向量,并且使用深度学习方法提高预测化合物蛋白质亲和力值的准确率。

2、为了解决现有技术存在技术问题,本发明采用如下技术方案:

3、一种预测化合物-蛋白质相互作用的系统,所述系统由提取化合物特征向量模型、提取蛋白质特征向量模型和交互预测模型构成;所述提取化合物特征向量模型包括分割模块、图转化模块和提取分子特征模块;所述图转换模块由第一多尺度转化层、第二多尺度转化层构成;所述提取分子特征模块由第一门控循环单元、第二门控循环单元构成;每个所述第一门控循环单元、第二门控循环单元均由更新门、重置门和注意力层构成;所述提取蛋白质特征向量模型包括预处理模块、语义向量转化模块、局部特征提取模块和蛋白质序列增强模块;所述局部特征提取模块采用卷积神经网络,所述卷积神经网络由卷积层、激活层和池化层;其中:

4、所述提取化合物特征向量模型对输入化合物smiles字符串进行处理获得化合物融合特征向量;

5、所述提取蛋白质特征向量模型对输入的蛋白质的氨基酸序列处理获得蛋白质增强特征向量;

6、所述交互预测模块通过全连接网络对化合物融合特征向量和蛋白质的增强特征向量进行处理预测化合物和蛋白质之间的相互作用概率。

7、进一步地,所述提取化合物特征向量模型对输入化合物smiles字符串进行处理获得化合物特征向量过程;包括:

8、所述分割模块将化合物的smiles格式转换为原子尺度图表示:

9、ga=(xa,ea)

10、其中:代表原子的顶点集;na原子的数量,fatom是原子特征的维度;每个原子的特征xa∈xa使用基于其原子符号、度、形式电荷、自由基电子、杂化和芳香性的独热向量连接进行编码;ea是分子图中的键每个键ea∈ea使用基于其键类型的独热向量连接;

11、所述分割模块将化合物的smiles格式转换为药效团尺度图表示

12、gp=(xp,ep);

13、其中:是分子中的np个药效团的集合,fpharm是药效团节点特征的维度;每个节点特征xp∈xp使用基于其药效团特征、brics特征和maccs指纹的独热向量连接;其中:

14、所述药效团的特征是使用药效团特征的独热表示;

15、所述brics特征由rdkit生成的brics键组成;ep是brics键的集合;每个brics键ep∈ep使用基于其brics反应类型的独热向量连接;

16、所述maccs指纹是基于分子结构和功能团片段生成的二进制指纹;

17、所述图转化模块对原子尺度图、药效尺度图分别处理获得原子尺度图特征表示与药效尺度图特征表示;

18、所述提取分子特征模块分别读取原子尺度图特征表示、药效尺度特征表示获得化合物融合特征向量。

19、进一步地,所述图转化模块对原子尺度图处理获得原子尺度图特征表示过程,包括:

20、通过原子尺度图ga按照如下公式获得节点特征矩阵:

21、

22、其中:na是节点的数量,fatom是特征的维度;

23、取其中:h是多头注意力机制中的头的索引,l是图转化模块中层的索引,是权重矩阵;

24、通过如下公式对节点特征进行多头注意力更新过程:

25、

26、其中:wl是可学习的权重矩阵,n(i)是节点i的邻接节点。concat()是头向量连接操作;按照如下公式进行多头计算,

27、

28、其中:多头注意力机制中的头数由h表示;k的维度表示为dk;

29、同理,药效尺度特征可由原子尺度图gp通过相同的处理方法得到。

30、进一步地,所述提取蛋白质特征向量模型对输入的蛋白质的氨基酸序列处理获得蛋白质特征向量;包括:

31、所述语义向量转化模块将氨基酸子序列转换为实数值获得氨基酸子序列嵌入向量;

32、所述局部特征提取模块通过卷积神经网络提取氨基酸子序列嵌入向量局部特征获得蛋白质特征向量;

33、所述蛋白质序列增强模块通过自注意力机制建立蛋白质特征向量关联获得蛋白质增强特征向量。

34、为了解决现有技术问题,本发明还采用如下技术方案:

35、一种预测化合物-蛋白质相互作用的方法,所述方法包括构建预测化合物-蛋白质相互作用的系统和所述系统进行训练过程,包括:

36、通过最小化预测值和真实值之间的交叉熵损失对所述系统进行优化处理;通过设置初始学习率为0.0001,利用优化器根据误差梯度调整所述系统权重;通过反复迭代训练,所述系统的损失函数值逐渐降低,直至所述系统在给定数据集上达到收敛。

37、进一步地,所述给定数据集包括:c.elegans数据集、human数据集和gpcr数据集。

38、有益效果

39、1、本发明通过将化合物分子的多尺度二维分子图结构信息结合起来,尤其是对于分子的药效团进行了单独的学习,从而可以提取到更多关于化合物分子的信息,将氨基酸序列信息使用语言学中的处理方法来获取更多关于蛋白质分子的信息,并且使用深度学习方法提高预测化合物蛋白质亲和力值的准确率。

40、2、为了提升模型的性能,本发明利用了大量已有的化合物与蛋白质的结合结果进行训练。通过这一过程,模型获得了完善的参数,使其能够更准确地预测和评估潜在的药物候选物。

41、3、本发明的方法在多个数据集上进行了广泛的实验,一致展示了多尺度方法相比仅依赖原子表示的先前方法的优越性。此外,本发明的方法还具备揭示与蛋白质相互作用的分子片段的能力,这对于药物设计和筛选具有重要的实际应用价值。

42、4、本发明在人工智能技术在药物领域的时空序列智能处理方面发挥了重要作用。本发明不仅有助于解决新药开发成本高、周期长以及安全风险大等问题,还能在已验证安全的旧药物和曾被放弃的化合物中筛选出新的药物和治疗目标。在逐渐改变药物研发的传统模式,本发明引领一种称为药物重定位的新药研发策略。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1