基于高阶拓扑特征SM-miRNA关联预测方法及系统

文档序号:37278852发布日期:2024-03-12 21:15阅读:32来源:国知局
基于高阶拓扑特征SM-miRNA关联预测方法及系统

本发明涉及sm-mirna,尤其涉及基于高阶拓扑特征sm-mirna关联预测方法及系统。


背景技术:

1、小分子核糖核酸(microrna,mirna)是一类由内源基因编码的长度约为22个核苷酸的非编码单链rna分子,在动植物中参与转录后基因的表达调控;在分子生物学和药理学中,小分子药物(small moleculedrugs,sm)通常是分子量不超过500道尔顿的有机化合物;研究表明,sm药物能够促进mirna的加工并调节mirna的表达和功能;如,在前脂肪细胞中,依诺沙星导致mir-34a-5p表达减少并上调其靶基因;此外,vorinostat在人胃癌中触发mir-769-5p/3p介导的增殖抑制并通过stat3-igf1r-hdac3复合物诱导细胞凋亡;吗啡通过mir-133b调节多巴胺能神经元分化;于是,研究sm-mirna关联不仅能加深对小分子药物特性和mirna功能的认识,而且能促进现代药物的开发和临床疾病的治疗。

2、传统的生物实验方法来探寻sm和mirna之间的关联是很耗时耗力的;随着大量mirna和sm相关生物数据集的产生,出现了大量计算模型来探索准确可靠的sm-mirna关联;wang等人提出了一种新的基于随机森林的sm-mirna关联预测(rfsmma)计算模型;wang等人提出了基于核岭回归的sm-mirna关联预测集成方法(ekrrsmma);该方法通过结合特征降维和集成学习来揭示潜在的sm-mirna关联;guan等人提出了基于graphlet interaction的sm-mirna关联预测推理(gismma)的模型,gismma使用多种graphlet相互作用描述了两个sm间或两个mirna间的复杂关系;上述是基于复杂网络的方法,复杂网络方法虽然能够捕捉节点之间的非线性关系,但只能预测有关联的sm和mirna,对于新的sm和mirna无法预测。

3、随着神经网络的快速发展,也有不少基于深度学习的方法;shen等人采用了一种称为smajl的新框架,该框架利用受限玻尔兹曼机(rbm)的联合学习模型以预测sm-mirna关联分数;ni等人提出了一种具有层注意机制的图卷积网络模型的sm-mirna关联预测(gcnlasmma);li等人为了利用异构信息网络的拓扑信息,拼接合并了通过hegan和hin2vec的异构网络表示学习算法;相比复杂网络方法,基于神经网络方法虽然具有强大的非线性建模能力,但是这些方法没有充分考虑到网络拓扑对于生物分子关联的影响。


技术实现思路

1、针对现有方法的不足,本发明解决复杂网络方法无法对新的sm和mirna进行预测以及神经网络没有充分考虑到网络拓扑对于生物分子关联的影响的问题。

2、本发明所采用的技术方案是:基于高阶拓扑特征的药物-mirna关联预测方法包括以下步骤:

3、步骤一、通过sm-mirna关联矩阵分别计算sm和mirna的高斯相互作用谱核相似性,并分别将高斯相互作用谱核相似性、综合相似性数据和sm-mirna关联矩阵整合构建图;在构建图基础上利用遮盖得到观察图,将观察图利用k-hop算法得到若干个k跳子图;

4、作为本发明的一种优选实施方式,构建图为g(v,e,x),v和e分别是图g中节点和边的集合,x为节点特征,x的公式为:

5、

6、其中,和均表示全零矩阵,m和n分别表示sm数目和mirna的数目;is为综合sm相似性矩阵和im为综合mirna相似性矩阵。

7、作为本发明的一种优选实施方式,将观察图利用k-hop算法得到若干个k跳子图包括:

8、假设观察图是具有n个节点的图go(v,eo,xo);其中,v表示图g中的节点集,eo是观察图中的边集,xo表示观察图中节点的特征;

9、将包含观察图中的已知链接以及原图中未知的链接的集合,记作目标链接集合ec;

10、对每个目标链接ξ∈ec构建k跳子图gξ。

11、步骤二、将多个k跳子图按批次输入gcn中提取目标链接节点的局部拓扑特征,得到聚合节点特征,即聚合k跳子图中的节点特征;

12、作为本发明的一种优选实施方式,步骤二具体包括:

13、使用2层gcn对图信息进行传递融合,形成子图中的节点表示公式为:

14、z=f(a',f(a',xo)+xo)   (5)

15、其中,f表示gcn操作,f′是经过gcn后节点特征z的维度,a'是若干个k跳子图构成的矩阵,aξ为子图ξ的邻接矩阵,n为批次大小,dξ为aξ的度矩阵;xo为观察图节点特征。

16、步骤三、利用图注意力机制将聚合节点特征刻画目标链接节点随机游走的轮廓,利用学习到的注意力系数构建转移矩阵;对每个k跳子图都作出链接存在与否的假设,并分别构建转移矩阵;从两种转移矩阵取得目标链接的节点级别、链接级别、图级别的特征;

17、作为本发明的一种优选实施方式,步骤三具体包括:

18、步骤31、将目标链接节点x和y相关性编码为有效边权重,公式为:

19、

20、其中,{x,y}∈ec,是两个mlp,f″是mlp的输出维度,zx为节点x的特征,zy为节点y的特征;

21、步骤32、根据节点x和y的相关性权重计算随机游走转移矩阵,公式为;

22、

23、其中,{x,y}∈ec;若则px,y=0,n(x)是封闭子图中x的邻居集,wx,y为节点x和节点y的有效边权重;

24、步骤33、将假设目标链接存在的子图记作为g+,不存在的记作为g-;

25、步骤34、对g+进行节点级别链接级别图级别的特征提取;

26、作为本发明的一种优选实施方式,节点级别、链接级别、图级别的特征公式为:

27、

28、其中,为τ跳的g+的转移矩阵,x和y为目标节点;和为x到y和y到x的转移概率;tr(·)为选取矩阵的迹。

29、步骤35、对g-进行节点级别链接级别图级别的特征提取。

30、步骤四、将若干批次子图的g+和g-节点级别、链接级别、图级别的特征进行拼接,得到聚合后的特征列表,将聚合后的特征列表输入mlp中得到最终特征列表;

31、作为本发明的一种优选实施方式,图级别的特征是将g+和g-图级别返回概率之间的差异作为最终的图级别特征graphτ。

32、作为本发明的一种优选实施方式,最终特征列表通过交叉熵损失函数得到得分矩阵,利用得分矩阵得到预测分数。

33、作为本发明的一种优选实施方式,基于高阶拓扑特征的小分子药物-mirna关联预测系统,包括:存储器,用于存储可由处理器执行的指令;处理器,用于执行指令以实现基于高阶拓扑特征sm-mirna关联预测方法。

34、作为本发明的一种优选实施方式,存储有计算机程序代码的计算机可读介质,计算机程序代码在由处理器执行时实现基于高阶拓扑特征sm-mirna关联预测方法。

35、本发明的有益效果:

36、1、将sm-mirna关联预测任务转换为k-hops子图的分类任务,根据多个目标链接节点构建多个k-hops子图,按照目标链接是否存在分配0-1标签,构建k-hops子图的目的是为了放大相应目标链接节点局部拓扑结构;

37、2、本发明将多个子图划分批次,按照批次放入gcn中提取节点特征,相对于目标节点而言更为细致有区分度的特征;

38、3、在htfsmma中融合复杂网络算法和神经网络算法,gcn用作聚合图的节点特征,图注意力机制构建的转移矩阵用作模拟随机游走的状态,从而获取细致的高阶拓扑特征。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1