一种基于生物子结构预测药物-靶标相互作用的深度学习方法

文档序号:32103982发布日期:2022-11-09 03:59阅读:来源:国知局

技术特征:
1.一种基于生物子结构预测药物-靶标相互作用的深度学习方法,其特征在于,该方法步骤如下:步骤a:输入一个药物的规范化smiles序列d和靶标氨基酸序列t;步骤b:分别对药物的规范化smiles序列d和靶标氨基酸序列t进行子结构提取,具体包括:1)对于药物的规范化smiles序列d,使用bcm方法提取药物的子结构,包括:1.1)首先从药物的规范化smiles序列d提取出药物的支链,根据smiles的定义规则,即其支链使用“()”括起来,提取出支链,剩余部分为主链;1.2)然后根据字符串匹配提取出主链中常见的子结构;1.3)最后再依据recap的逆合成碎片规则将主链进行裂解得到逆合成片段;1.4)整合所述的支链、常见的子结构和逆合成片段,作为规范化smiles序列d的子结构集合f
d
;2)对于靶标氨基酸序列t使用cfm方法提取子结构,cfm方法首先将氨基酸按照化学结构或性质分为8类,通过种类特征映射得到种类序列t
c
;然后采用不重叠的k-gram序列将t
c
切割成靶标的功能子结构集合f
t
;步骤c:构建协同特征学习模块,该模块由输入表示和特征学习两部分组成,具体包括:1)在输入表示中,分别对药物的规范化smiles序列d的子结构集合f
d
和靶标的功能子结构集合f
t
进行初始编码表示,包括:1.1)对药物的规范化smiles序列d的子结构集合f
d
的表示,首先采用标签编码对药物子结构集合f
d
进行编码,获得药物的初始表示i
d
;然后将i
d
转化为药物的嵌入表示e
d
∈r
max_drug_frag_length*embed_size
,其中max_drug_frag_length表示最大的药物子结构集合的大小,embed_size表示嵌入维度;1.2)对靶标的功能子结构集合f
t
进行表示,先用标签编码对靶标子结构集合f
t
进行编码,获得靶标的初始表示i
t
;然后将i
t
转化为其嵌入表示e
t
∈r
max_target_frag_length*embed_size
,其中max_target_frag_length表示最大的靶标子结构集合的大小,embed_size表示嵌入维度;2)在特征学习中,分为药物的特征学习和靶标的特征学习,包括:2.1)在药物特征学习中,将e
d
作为初始输入,送入卷积神经网络学习药物特征,该卷积神经网络由多个卷积块和最终的池化层组成,每个卷积块由卷积层、激活层指数线性单元以及批次归一化层组成,最后采用池化层进行特征降维,得到最终的药物表示v
d
;2.2)在靶标特征学习中,将e
t
作为初始输入,送入卷积神经网络对靶标特征进行学习,该卷积神经网络由多个卷积块和最终的池化层组成,每个卷积块由卷积层、激活层指数线性单元以及批次归一化层组成,最后接入池化层,得到最终的靶标表示v
t
;步骤d:构建预测器,具体包括:1)首先拼接步骤c中最终的药物表示v
d
和靶标表示v
t
,得到药物-靶标的相互作用表示v;2)然后将v送入多层感知机进行相互作用学习,所述多层感知机是一个全连接网络,由多个全连接层和最终的sigmoid激活层组成,除最后一层外,每层全连接后接入一个修正线性单元和丢弃层,防止过拟合;最终得到相互作用预测概率,大于0.5则表示预测两者会发
生相互作用,小于0.5则不会。

技术总结
本发明提出一种基于生物子结构预测药物-靶标相互作用的深度学习方法,该方法首先提取出药物和靶标的功能性子结构,其中药物子结构包括分子支链、常见子结构和逆合成片段,根据化学性质将靶标的氨基酸序列转换为种类序列,再采用不重叠的k-gram进行切分,得到靶标子结构;然后基于卷积神经网络进行子结构特征学习;实验表明本发明可以有效捕获药物-靶标相互作用的功能性特征,在不同规模和分布的数据集上表现均优于现有技术,具有合理性和通用性。性。性。


技术研发人员:刘丹 钱莹 窦亮
受保护的技术使用者:华东师范大学
技术研发日:2022.03.03
技术公布日:2022/11/8
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1