本发明涉及mirna-疾病,尤其涉及基于异构子网融合多源特征mirna疾病关联预测方法。
背景技术:
1、近年来,随着对mirna作用机制的进一步深入研究,以及利用mirna芯片等最新高通量技术研究mirna与疾病的关系,人们将对真核生物基因表达调控网络的更高理解提高到一个新的水平。这也将使mirna成为疾病诊断的新生物标记物,它还可能使该分子成为药物靶点,或模拟该分子进行新药开发,这将为人类疾病提供新的治疗方法。然而,使用生物学实验来识别疾病相关的mirna既昂贵又耗时。因此,迫切需要一种简单有效的计算预测模型来预测疾病相关的mirna。
2、目前研究人员建立的mirna-疾病关联计算方法大致可分为两类:基于相似性的预测模型和机器学习的预测模型。基于相似性的预测模型主要有两步:第一步是构建相似性网络,第二部是利用算法进行mirna-疾病的关联预测。
3、基于机器学习的预测模型也被广泛应用于预测mirna-疾病潜在关联。其中,特征提取是典型机器学习模型的一个重要过程,这对分类器的影响很大。随着图神经网络和大规模图数据的积累,除了传统的机器学习算法外还开发了许多深度学习模型来处理类似的任务。
4、尽管利用gcn从图结构中学习mirna-疾病的嵌入表示已经取得了一定的效果,但他们大多数在进行图嵌入前仅从相似性数据中获取特征,这并不能全面的反映疾病或mirna。然而,从多源数据中获取特征且对获取的特征进行有效融合也是现有研究缺少的。
技术实现思路
1、针对现有方法的不足,本发明通过非负矩阵分解从已知的mirna-疾病关联数据中获取低秩空间特征;将相似性网络中获取的拓扑结构特征与关联数据中获取的低秩空间特征进行融合,弥补了单一特征的局限性;为了得到更全面的结构信息,促进相似性在图卷积网络传播的贡献,分别从mirna子图网络和疾病子图网络上分别进行疾病和mirna节点的初步嵌入,通过异构子图可以从不同角度对疾病和mirna特征进行进一步融合,再利用图卷积网络学疾病和mirna的表征;最后,基于学习到的表征重构疾病-mirna关联网络。
2、本发明所采用的技术方案是:基于异构子网融合多源特征mirna疾病关联预测方法包括以下步骤:
3、步骤一、通过多源信息构建了疾病相似性网络、mirna相似性网络和mirna-疾病相互作用网络,利用rwr提取疾病拓扑结构特征向量和mirna拓扑结构特征向量,并进行归一化得到疾病拓扑结构特征矩阵和mirna拓扑结构特征矩阵;
4、进一步的,疾病拓扑结构特征向量和mirna拓扑结构特征向量的提取公式为:
5、
6、
7、其中,sm和sd分别为mirna相似性网络转移概率矩阵、疾病相似性网络转移概率矩阵;为重启概率;ei表示节点的初始概率向量,ei为单位矩阵中的第i列向量;pdit与pmjt表示从时间t从第i个疾病和第j个mirna到达其他节点的概率。
8、步骤二、对疾病-mirna关联矩阵进行非负矩阵分解,分别得到疾病和mirna的低秩空间特征;
9、进一步的,步骤二具体包括:
10、步骤21、将疾病-mirna关联矩阵进行矩阵分解得到疾病和mirna的低秩特征,矩阵分解公式为:
11、i≈umvdt (16)
12、其中,um为mirna的低秩空间特征,vd为疾病的低秩空间特征,i为疾病-mirna关联矩阵;
13、步骤22、构建目标函数:
14、minu,v||i-umvdt||s.t.u≥0,v≥0 (17)
15、步骤23、规划um和vd的概率分布向量,将um和vd中的归一化概率分布向量作为mirna和疾病的输入特征。
16、步骤三、将疾病拓扑结构特征与mirna低秩空间特征融合;将mirna拓扑结构特征与疾病低秩空间特征融合;
17、进一步的,将疾病拓扑结构特征与mirna低秩空间特征融合的公式为:
18、
19、其中,xm为疾病拓扑结构特征与mirna低秩空间特征融合后的特征矩阵;pm为mirna拓扑结构特征;vd为疾病的低秩空间特征。
20、进一步的,将mirna拓扑结构特征与疾病低秩空间特征融合的公式为:
21、
22、其中,xd为mirna拓扑结构特征与疾病低秩空间特征融合后的特征矩阵;pd为疾病拓扑结构特征;um为mirna的低秩空间特征。
23、步骤四、结合疾病相似性网络、mirna相似性网络以及疾病-mirna相互作用网络划分得到疾病异构子网和mirna的异构子网;
24、进一步的,mirna的异构子网am的公式为:
25、
26、其中,sm为mirna相似性网络转移概率矩阵,i为疾病-mirna关联矩阵。
27、进一步的,疾病的异构子网ad的公式为:
28、
29、其中,sd为疾病相似性网络转移概率矩阵,i为疾病-mirna关联矩阵。
30、步骤五、分别在mirna的异构子网和疾病的异构子网上利用gcn进行节点嵌入后重构疾病-mirna关联;
31、进一步的,步骤五具体包括:
32、步骤51、利用图卷积网络分别从mirna子网来学习mirna的初步嵌入;
33、进一步的,mirna的初步嵌入的公式为:
34、
35、其中,是am的归一化后的邻接矩阵,而d是对角矩阵,w是系数矩阵,b是一个偏置矩阵,relu是激活函数。
36、步骤52、引入crf层确保相似mirna具有相似的嵌入,并采用自注意力机制来区分相邻节点对给定节点的贡献;
37、进一步的,mirna的crf层损失函数的公式为:
38、
39、
40、其中,qi表示从gcn卷积层获得节点i的初步嵌入,hi表示在crf层更新的节点i的嵌入;λi,j表示节点之间的注意力得分,ni表示节点i的邻居,α和β是权重因子。
41、步骤53、重构疾病-mirna关联矩阵和损失函数;
42、关联矩阵和损失函数的公式为:
43、
44、
45、其中,和分别为将表征投影回疾病和mirna的原始特征的空间因素,φ为均方误差,a+和a-分别表示正样本和负样本的集合,hd和hm分别为mirna和疾病的特征矩阵。
46、步骤54、利用总损失函数计算mirna整体损失;
47、总损失函数定义如下:
48、
49、其中,γ为权重系数,lrec为疾病-mirna损失函数,lcrf为mirna的crf层损失函数,w和b为训练参数。
50、本发明的有益效果:
51、1、本发明hsfmfmda模型首先对疾病-mirna关联矩阵进行非负矩阵分解,分别得到疾病和mirna的低秩空间特征;再将其与在疾病和mirna与疾病相似性网络上随机游走获取的特征进行融合;结合疾病相似性网络,mirna相似性网络以及疾病-mirna相互作用网络划分得到疾病和mirna的异构子网;分别在两个子网上结合混合特征利用gcn进行节点嵌入后重构疾病-mirna关联;
52、2、本发明模型在数据库hmddv3.2进行5折交叉验证和10折交叉验证得到0.9442和0.9452的auc精度;
53、3、将本发明模型应用于三种高风险人类癌症的案例研究以验证本模型具有很好的适应性;
54、4、有助于推断mirna-疾病的潜在相关性。