一种基于异构图卷积神经网络的合成致死相互作用预测方法

文档序号:26755467发布日期:2021-09-25 03:55阅读:360来源:国知局

1.本发明涉及生物信息学中的数据挖掘领域,具体涉及一种基于异构图卷积神经网络的合成致死相互作用预测方法。


背景技术:

2.合成致死(sl)在肿瘤治疗中起着至关重要的作用,因为它能够在不干扰正常细胞的情况下识别特定的靶向基因来杀死肿瘤细胞。由于通过高通量湿实验设置验证sl对往往非常昂贵而且耗时,同时也面临着各种各样的挑战。因此,近年来,许多研究者试图通过使用计算方法来验证、预测sl对,从而显著降低了识别sl对相互作用的成本和时间。
3.早期的sl对识别的计算方法可以分为两大类:基于大数据和数据挖掘的方法。这种数据驱动的方法又包括生物网络拓扑的方法、数据挖掘方法和统计筛选的方法。与高通量湿实验方法相比,计算方法是一种有吸引力的替代方法,它可以帮助识别并优先排序潜在sl基因,以便进行进一步的实验验证。例如daisy(jerby

arnon,l.,et al."predicting cancer

specific vulnerability via data

driven detection of synthetic lethality."cell 158.5(2014):1199

1209.)利用细胞拷贝数变化、shrna和基因表达谱三种独立的策略来预测潜在的sl对。isle(sang,l.j.,et al."harnessing synthetic lethality to predict the response to cancer treatment."nature communications 9.1(2018):2546

.)使用高通量实验筛选的sl对作为输入,通过滤波算法来获得临床相关的sl对。
4.此外,基于特征的机器学习的方法在解决许多生物问题方面也收到广泛关注,这些方法往往利用酵母和人类相关基因组学数据来预测潜在sl对,如基因表达、蛋白质

蛋白质相互作用(ppi)、功能/途径注释和进化模式等来构建基因的潜在特征,并使用可用的sl对数据集构建训练集,最后从这些训练集中学习预测模型。然而,基于特征的机器学习的方法往往是将基因孤立地映射成为了孤立的潜在表示,而忽视了邻居基因信息。同时,随着各大公开数据源的完善,可利用的生物学数据越来越多,选择哪些异构数据进行处理从而得到更有效的特征表示也成了一大挑战。
5.有鉴于此,本发明提出了一种基于异构图卷积神经网络的sl相互作用预测方法,以识别潜在的sl相互关联。


技术实现要素:

6.本发明提出了一种基于异构图卷积神经网络的sl相互作用预测方法,用以识别潜在的sl相互作用,主要包括以下步骤:
7.(1)收集已知sl相互关联数据、基因go信息数据、基因ppi数据;
8.(2)进行基因go相似性分析,利用基于语义基因功能相似性度量算法对基因与基因之间的go功能相似性进行度量,构建基因基于go功能相似性的特征;
9.(3)进行基因基于ppi特征的构建,利用蛋白质相互关联数据构建蛋白质和蛋白质
之间的关联网络,通过随机游走的方式获取每一个基因基于蛋白质相互关联网络的特征;
10.(4)利用sl相互关联数据构建邻接矩阵,融合基因基于go功能相似性特征和基于ppi特征的领域特征;
11.(5)构建基于图卷积神经网络的sl对预测模型,预测潜在的sl相互作用,得到最终结果。
12.1.数据收集阶段
13.首先,在进行计算基因特征之前需要先获取基因的一些相关生物学数据,如go信息数据以及基因的ppi数据,该方法中go信息数据从geneontology数据库中提取,基因的ppi数据来自string数据库。
14.其次,现有已知的sl相互作用数据在这一步也要被收集,我们从synlethdb数据库中下载了已经被观察到的sl相互作用,synlethdb数据库是一个用于人类sl交互的综合数据库,该数据库整合了来自四种不同来源的sl相互作用数据:(1)手动整理的sl对,(2)通过文本挖掘得到的sl对,(3)由genomernai和shrna等decipher项目得到的相互作用,(4)由daisy等计算方法得到的sl对。
15.2.基因go相似性分析阶段
16.geneontology数据库为基因定义了三种go术语描述:生物过程、细胞成分和分子功能,它们被表示为有向无环图,对于一个go术语a,它可以表示为dag
a
=(a,t
a
,e
a
),其中t
a
包含了术语a以及a在go图上的所有祖先术语,e
a
表示的是所有与术语a相关的边。该方法定义了与术语a相关术语t对术语a的语义贡献s
a
(t)为:
[0017][0018]
其中,w
e
是连接了t和t的子术语t

的边e∈e
a
的语义贡献因子。在获得dag
a
中的所有术语的s值后,该方法将术语a的语义值sv
a
表示为:
[0019][0020]
对于术语a和术语b的有向无环图的表示dag
a
=(a,t
a
,e
a
)和dag
b
=(a,t
b
,e
b
),两个术语之间的go相似性s
go
(a,b)定义为:
[0021][0022]
其中,s
a
(t)和s
b
(t)分别是和术语a和术语b相关的术语t的语义贡献。在该公式的基础上该方法可以计算一个基因和其他所有基因之间的go相似性,进而得到每一个基因基于go相似性的特征。
[0023]
3.构建基因基于ppi的特征阶段
[0024]
在这项工作中,该方法专注于基因对应的蛋白质和蛋白质之间的相互关联,蛋白质与蛋白质之间的关联(ppi)往往可以以图的形式来表示,根据化学上具有sl对的基因之间的ppi往往关联更加密切的想法,使用基于随机游走的deepwalk方法计算每一个节点的特征表示,对于每一个节点进行如下运算:
[0025][0026]
其中,randomwalk是随机游走算法,该算法获取一个图g并以v
i
为根节点对随机节点进行均匀采样获得随机游走结果点进行均匀采样获得随机游走结果其中t是随机游走长度。skipgram是一种语言模型,它最大化了出现在一个窗口w中的单词在一个句子中的共现概率,使用skipgram可以不断更新节点的特征表示。
[0027]
4.融合特征阶段
[0028]
图卷积神经网络(gcn)可以很好的基因的相邻基因的信息,一个sl图可以被定义为g=(u,ε),其中节点u表示基因,边ε表示两个基因之间存在sl关联。a∈r
n
×
n
是g的邻接矩阵,其中n是基因的数量,在该邻接矩阵中如果两个基因之间存在sl关联,则对应位置值为1,否则为0。该方法在图卷积神经网络的第一层分别对基因基于go相似性的特征和基于ppi的特征进行卷积:
[0029][0030][0031]
其中

表示元素点乘,f1和f2分别是基因基于go相似性的特征和基于ppi的特征。是丢弃矩阵,其中每个元素满足p

伯努利分布,p是丢弃率。和是待训练的权重矩阵。是标准化之后的邻接矩阵,其中是标准化之后的邻接矩阵,其中d是度矩阵。relu是非线性激活函数。在得到和两个考虑邻接矩阵信息的图嵌入矩阵之后,该方法使用最大池化层maxpooling对两个图特征矩阵进行融合,得到新的图嵌入矩阵
[0032][0033]
随后,该方法将第一层得到的图嵌入矩阵作为第二层图卷积神经网络的输入,得到第二层的图嵌入矩阵
[0034][0035]
5.构建异构图卷积神经网络的模型并预测合成致死相互作用
[0036]
通过融合特征我们可以获得一个嵌入矩阵对于每一对基因(i,j),该方法通过解码器dec(*)来获得这一对基因是合成致死对的置信分数:
[0037][0038]
其中dec(*)是内积解码器:
[0039][0040]
随后,该方法使用真实值y
ij
和预测值y
(i,j)
之间的交叉熵损作为模型的损失函数,
损失l定义为:
[0041][0042]
由于该损失是可微的,因此该方法使用基于梯度下降的adam优化器对模型进行优化。最后,该方法通过对未知合成致死对的置信分数从高到底进行排列,分数越高越有可能是合成致死对。
具体实施方式
[0043]
本发明涉及生物信息学中的数据挖掘领域,具体涉及一种基于异构图卷积神经网络的合成致死相互作用预测方法。下面描述本发明的具体实施方式。本领域技术人员应该理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的取证范围。
[0044]
步骤1:从synlethdb数据库中下载被实验验证的合成致死相互关联数据,并对数据处理筛选出所有的sl关联的基因。从geneontology基因本体论数据库下载基因go数据,并提取其中的所有具有sl关联的相关基因的go数据。从string数据库中下载ppi数据,由于ppi数据只有基因id没有基因名,为了进行ppi特征分析,因此还需要在string数据库中下载基因id和基因名的对照数据并根据ppi数据、基因id和基因名的对照数据、sl相关基因构建涉及sl相关基因的ppi网络。
[0045]
步骤2:根据上述提取出的go数据,针对每一个基因,根据公式(1)求出所有与该基因相关的术语的语义贡献,并通过公式(2)求出该基因的语义值。针对每一对基因,通过公式(3)获取他们之间的go相似性。每一个基因和其他所有基因的go相似性组合成的一维向量便是该基因基于go相似性的特征。
[0046]
步骤3:根据步骤1构建出的ppi网络,根据公式(4),使用随机游走的方式获得每一个节点的特征表示,进而构建出基于ppi的特征矩阵。
[0047]
步骤4:该方法提出了一种异构图卷积神经网络来学习每个基因的最终特征表示。首先,在该图卷积神经网络中将步骤2和步骤3获得的特征矩阵分别作为图卷积神经网络的第一层输入,根据公式(5)和公式(6),两个特征分别进行卷积,学习不同的权重矩阵。卷积之后会得到两个嵌入矩阵,根据公式(7)融合两个权重矩阵,在这一步中,该方法将来自基于go相似性的特征和基于ppi的特征进行整合,得到每个基因全新的嵌入表达。接下来,根据公式(8)将融合后的特征作为图卷积神经网络第二层得而输入进行卷积,得到最终的嵌入矩阵。
[0048]
步骤5:根据公式(9)和公式(10)对步骤4中得到的最终嵌入矩阵进行解码,并对解码后的置信分数和真实值求交叉熵,作为该模型的损失函数。在构建完成损失函数的基础上,使用adam优化器对模型进行优化,优化完成后可以得到其他所有未知关联的基因对的分数。改实验重复10次,最后根据分数的平均值对所有的基因关联进行排序,这些关联的分数越高,则越有可能是潜在的合成致死对。
[0049]
本领域技术人员可以理解,本发明的保护范围不局限于所述的具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征进行等同的更改或替
换,需要注意的是,更改或替换之后的技术方案都将落入本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1