本发明涉及生物信息学,尤其涉及一种三方网络资源传播方法。可以得到lncrna和环境因素之间的关联关系。
背景技术:
生物性状的变异是先天或是后天的争论,主要是由于变异是由遗传差异引起还是环境差异引起的争论。目前的主要科学观点认为表型差异,不是由单独的遗传差异或者环境差异产生,而是由二者相互影响,共同决定的。这意味着,表型和疾病被认为是遗传因素(gfs)和环境因素(efs)之间复杂的相互作用关系决定的。直到今日,人们普遍认为几乎所有的疾病都是从个体的基因组成和各自所处的环境之间复杂的相互作用的结果。一些常见的人体疾病就是由ges和efs之间复杂的相互作用关系引起的,如癌症,心脏疾病,阿尔茨海默氏病,和糖尿病。
回顾在设计和研究分析中遇到的挑战,来更好的发现基因和环境因素之间的相互作用关系,并为公共卫生和临床实践中提供更好的方法。murielkoehl研究了在成人神经系统中,genes和环境因素的动态相互作用。su等人进行了病例对照研究,来评估rage基因的变异和环境中致癌物质对口腔鳞状细胞癌的影响。yang等人,手动的收集了可靠的可以支持mirna-ef关联关系的实验数据,并建立了mirenvironment数据库。qiu等人分析了mirenvironment数据库中与人类疾病有关的mirna-ef关联关系对,并通过分析mirna-ef相互模式获得主要结论。基于疾病的mirna-efs关联关系研究中假设,对于一个给定的疾病,相似的mirnas(efs)往往会和相似的efs(mirnas)产生相互作用关系。chen基于这个假设,利用重启型随机游走算法(randomwalkwithrestart,rwr)来建立了一个新的计算mirna-efs关联关系的研究框架,mirefrwr[14]。然而,和gene与mirna相比,lncrna和环境因素的关联关系研究至今还没有一个完整的研究体系,需要能够预测lncrna-efs关系的方法来指导lncrna-efs的实验研究方向。
参考genes/mirna-efs关联关系预测方法,有通过超几何分布,计算生物信息之间关联程度的离散概率确定关联关系;有利用最小二乘法,通过计算生物信息网络上的最小化cost函数,来得到关联关系的最佳分类;有利用重启型随机游走方法,对生物信息建立一张大的关联游走网络,通过收敛路径的方式来找到各个生物结点的关联关系;有利用机器学习的分类方法,如svm、决策树以及谱聚类方法,将关联关系紧密的结点,分类在一起;或者利用传播学方法,在关系网上根据概率反复迭代,确定关联程度。其他包括神经网络、热扩散还有文本挖掘等等多种方法,都用于到基因-efs关联关系的预测当中。
由于目前没有一个完整的可靠的lncrna-efs关联数据库建立起来,我们可以选择作为lncrna-efs预测的数据并不多,限制了预测方法的选择。
在本次研究通过利用机器学习中的三方网络来预测lncrna和环境因素之间的关联关系。本研究结论对一万多对可能相关的lncrna和环境因素关联关系进行了可能性排序,这对生物学家在以后的研究环过程中起到指导的作用,可以针对可能性较大的lncrna和环境因素进行试验测序,避免了盲目的测序比对,减少了工作量。
技术实现要素:
本发明目的在于解决上述现有技术存在的不足,提供一种三方网络资源传播方法,本发明可以针对可能性较大的lncrna和环境因素进行试验测序,避免了盲目的测序比对,减少了工作量。本发明是基于二分网络模型基础上,将两个二分网络图关联在一起,组成一个三方网络传递结构,建立结点之间的关系网,基于这个关系网获得点与点之间的关联关系。
在实际生活中,如果两个节点没有可靠的直接关联关系,需要我们通过两者共同的第三方结点,来预测二者的关联度。为了解决这个问题,在二分图的定义上,可以定义一个资源传递的三方网络图,这个三方网络图通过一个共同的中间节点,将两个二分网络连接起来。定义一个拥有三个节点的无向网络图g=(v1,e12,v2,e23,v3),其中eij是连接点vi,vj之间的边,形式如图2。三方网络中包含两个层次的网络,对于每一个层次的二分图,都可以根据先验知识来推算出新的相互作用关系,对于二分图g1=(v1,e12,v2),可认为包含两种模式的投影,v1投影和v2投影,其中v1投影代表的是对于无向图g1,结点从v1出发,通过边e12连通到v2中的对应结点;v2投影也有相同定义。这个投影的模式,就可以看做结点之间资源的、传递的路径,资源最终叠加出的权值,即为判断关联性的权重。
我们提出了三方网络这个算法的发明。在三方网络中,整个资源传播的过程可看做在两个层次的二分网络中的传递过程。在二分图g1中,资源通过在g1上的投影,将资源从v2传递到v1,再传递回v2,得到的权值就是基于二分网络g1的关联权重;在g2中,资源首先从v3点传递到v2,并与第一层中得到的关联权值融合作为v2点的最终权值,这个权重再通过g2图中v2的投影传递给v3点。通过这个过程,得到的v3点的权值,即为v1与v3关联关系的权重。
本发明通过下述技术方案实现:
一种三方网络资源传播方法,包括如下步骤:
将两个二分网络通过共同的中间节点连接,形成一个三方网络,资源在三个节点间不断传递叠加,最后得到初始点和最终节点的权值关系,来预测节点之间相互关联的程度;
三方网络是指将两个网络通过共同的中间节点整合,在新的网络上,资源有方向的传递叠加;叠加传递的过程可看成两个二分传播和最后一个资源整合的过程。
所述三方网络资源传播方法通过如下步骤实现:
在三方网络的传递模型中,其实是资源在个结点相互转移叠加的过程;为处理好的二分图nlm=(vl,vm,elm)和nme=(vm,ve,eme)分别构建邻接矩阵
三方网络资源传递方法的资源转移的过程,实际是将一个二分图上的投影在三方网络网络上的加权过程,即基于中间mirna,在lncrna-mirna和mirna-ef网络上单边投影的加权;因此可分成三个部分,即分别计算出mirna在两个二分网络上的单边投影,以及联合两个投影构成最终的推荐矩阵。过程如下:
在lncrna‐mirna关联网络nlm=(vl,vm,elm)中,资源首先从结点vm转向vl,接着资源再传回到结点vm,这个过程可得到mirna在nlm上的资源投影矩阵
其中
在mirna-ef关联网络上nme=(vm,ve,eme),资源的传递从结点ve开始传递到结点vm,随后又传回到ve的过程;最终权值转移矩阵定义为
其中
其中参数λ1和λ2用于调节资源传播矩阵的权重;当λ值越接近0,代表结点的资源被计算为邻接结点的平均值,而越接近1,代表资源在领接节点中分布越均匀;在预测中,参数越接近0,预测值更保守,而值接近1,最后的预测结果越趋于整体预测结果;
将上述两步得到的权值矩阵wm,we与邻接矩阵ame联合,可以得到权值矩阵
相对于现有技术,本发明优点及效果在于:
在发明通过利用机器学习中的三方网络来预测lncrna和环境因素之间的关联关系。本发明对一万多对可能相关的lncrna和环境因素关联关系进行了可能性排序,这对生物学家在以后的研究环过程中起到指导的作用,可以针对可能性较大的lncrna和环境因素进行试验测序,避免了盲目的测序比对,减少了工作量。
综上所述,本发明说明了一个新型的三方网络资源传递方法,并将其应用于生物信息学里,环境因素和长非编码rna关联关系的研究过程中。通过结合lncrnas-mirnas和mirnas-efs关联网络与网络内的资源转移,我们提出一种基于网络的推理方法来推断lncrnas和efs之间的潜在关联。
本发明三方网络资源传递方法能够预测更可靠的lncrnas和efs关系。
附图说明
图1是三方网络资源传递的算法流程图。
图2是算法实施在具体的lncrna-mirna和mirna-efs关联数据后,得到的lncrna和efs关联关系的拓扑网络。
图3是算法实施在具体的lncrna-mirna和mirna-efs关联数据后,得到的lncrna和efs关联关系的拓扑网络的度分布,通过度分布来检验生物网络的合理性。
具体实施方式
下面结合图1至图3对本发明进一步说明。
在三方网络的传递模型中,其实是资源在个结点相互转移叠加的过程。为处理好的二分图nlm=(vl,vm,elm)和nme=(vm,ve,eme)分别构建邻接矩阵
三方网络资源传递算法的资源转移的过程,实际就是将一个二分图上的投影在三方网络网络上的加权过程,即基于中间mirna,在lncrna-mirna和mirna-ef网络上单边投影的加权。因此算法可分成三个部分,即分别计算出mirna在两个二分网络上的单边投影,以及联合两个投影构成最终的推荐矩阵。过程如下图所示:
在lncrna‐mirna关联网络nlm=(vl,vm,elm)中,资源首先从结点vm转向vl,接着资源再传回到结点vm。这个过程可得到mirna在nlm上的资源投影矩阵
其中
在mirna-ef关联网络上nme=(vm,ve,eme),资源的传递从结点ve开始传递到结点vm,随后又传回到ve的过程。最终权值转移矩阵定义为
其中
其中参数λ1和λ2用于调节资源传播矩阵的权重。当λ值越接近0,代表结点的资源被计算为邻接结点的平均值,而越接近1,代表资源在领接节点中分布越均匀。在预测中,参数越接近0,预测值更保守,而值接近1,最后的预测结果越趋于整体预测结果。
将上面两步得到的权值矩阵wm,we与邻接矩阵ame联合,可以得到权值矩阵
在模型的建立中,我们希望得到lncrna和ef之间的关联关系。基于cerna的假设和实验支持,并考虑到mirna与lncrna和ef之间的相互作用关联关系,提出了一个预测lncrna-ef关联的新算法模型。
累计研究表明,几乎所有的生物网络如代谢网络,蛋白质-蛋白质相互作用网络,蛋白质域网络,基因相互作用,基因表达网络等的节点度遵循幂率分布,p(x)~cx-k。r2和均方根误差(rootmeansquarederror,rmse)用于衡量预测得到的lncrna-ef关联网络对幂律分布的吻合程度。
将算法运用到基于lncrna和mirna之间的相互作用联系,利用已经研究得到的mirna-efs关联数据和lncrna-mirna关联网络,来构建三方资源传递拓扑图。原始的lncrna-mirna关联网络可以从starbasev2.0下载得到,该数据库提供了大量通过大规模clip-seq测序实验得到的,最全面的lncrna-mirna关联数据。mirna-efs关联的网络从mirenvironment数据库获得,这个数据库中的mirna-efs关联信息是通过对pubmed中已经通过实验证实的文献,文本挖掘整理得到的。
在论文中,有三个参数对预测的结果有影响,包括两个λ参数和最后截取推荐矩阵权重的值α。通过组合不同的λ1=0.1,0.3,…,0.9,λ2=0.1,0.3,…,0.9和α=100,150,…,500,将得到的不同的lncrna-ef预测关联矩阵利用r2和均方根误差来评估。结果发现,随着阈值α的增加,lncrna-ef预测关联对减少,而r2呈现增加的趋势。例如,当α=500时,大部分的r2值高于0.8,这个值比那些α较小的项中r2最大值还要大。对于参数λ1或λ2=0.9,大部分r2要少于0.5,折意味着,在这些项中,lncrna-ef预测关联网络并未遵循幂率的度分布。
最终,综合了所有参数对应得到的lncrna-ef关联对的数目和相应的幂律曲线拟合值,我们发现当推荐矩阵r的阈值取到150,λ1=0.3,λ2=0.1时,得到的lncrna-ef关系网络最复合幂律曲线。此时,我们得到了1086个lncrnas和326个efs的8148个lncrna-ef关联对。