一种基于图注意力网络的RNA-疾病相关性预测方法

文档序号:35973422发布日期:2023-11-09 15:18阅读:23来源:国知局
一种基于图注意力网络的RNA-疾病相关性预测方法

本发明属于生物信息学领域,涉及一种基于图注意力网络的rna-疾病相关性预测方法,其中包括带权邻接矩阵的转换方法。


背景技术:

1、piwi蛋白代表着ago蛋白家族中的一个分支,首次在果蝇中发现,起着调节生殖干细胞维持的作用,与piwi蛋白相作用的rna称为pirna。piwi蛋白和pirna通常在人类生殖系统中被检测到,研究发现,pirna在各种癌症中异常表达,这表明了pirna的异常表达可能导致人类疾病。传统的生物学实验技术对于识别潜在的pirna与人类疾病之间的相关性通常是可靠的,如核糖体实验技术,转录组测序技术等。随着一些pirna-疾病关联数据库的出现,如pirnabank、pirbase和pirnaquest,这些已知的关联数据库为深度学习预测提供了坚实的基础,从而一定程度上解决传统生物实验方法耗时、昂贵和劳动密集型的问题。目前大多数计算预测方法仅仅考虑到了pirna的属性特征,但是在数据库中,一种pirna却可能与多种疾病相关联,忽略了疾病与疾病之间的联系,因此有必要设计一种能够使它们相关联的属性特征。随着非编码rna和疾病之间的关系组合越来越复杂,预测疾病的关联性,可以对许多生物学机制有更深入的见解。

2、 pirnas数据库已经被建立,许多计算方法已经被提出,神经网络和支持向量机等相关方法已经被成功的应用于预测rna-疾病的相关性,但大多数神经网络方法都具有以下缺点:只是简单的特征映射,没有建立起数据之间的联系。

3、本发明最重要的创新点是提出了一种新的图数据结构,将整个网络图结构进行拆分, 细分形成不同的子网络,实现带权重的邻接矩阵与图注意力网络相结合。本发明设计的带权邻接矩阵,不仅使用了属性特征,而且还通过邻接矩阵反映了它们之间的联系。


技术实现思路

1、一种基于图注意力网络的rna-疾病相关性预测方法,包括预处理节点序列、训练图注意力网络和测试图注意力网络三个过程,其具体步骤如下:

2、步骤1、为了从rna-疾病序列中提取更多的结合信息,需要使用 p个 ( p表示节点数量, p的大小由rna-疾病序列的个数确定) 不同节点,每个节点中包含2个信息,一个是疾病,一个是rna;

3、步骤2、构建这些节点直接的邻接矩阵,当任意2个节点中包含相同的rna,则建立联系,并且邻接矩阵中的值为该rna频数的倒数,rna频数通过统计含有该rna的节点得到;

4、步骤3、把步骤2中生成的 p个节点作为图注意力网络的输入,将k-mer计数得到的rna数据,分成5份做5折交叉验证,所谓k-mer,即为一段长度为 k的基因片段,是由测序reads剪切一部分得到的, k是一个奇数;

5、步骤4、保存训练好的图注意力网络模型,使用测试集来评估模型。

6、一种基于图注意力网络的rna-疾病相关性预测方法,步骤1的实现过程如下:

7、确定处理rna-疾病序列的个数 p, p的大小等于数据集中数据的个数,每一个序列相当于一个节点,确定了节点的个数,就建立一个 p*p方阵。

8、一种基于图注意力网络的rna-疾病相关性预测方法,步骤2的实现过程如下:

9、使用步骤1中产生的 p*p的方阵 a;设置 i是方阵的行号, j是方阵的列号, f为第 i行第 j列位置上的权重,此权重由基因的数量统计得到。节点与自己本身的权重设为1,也就是对角线上的元素都设为1,其它无关联的部分设为0。

10、一种基于图注意力网络的rna-疾病相关性预测方法,步骤3的实现过程如下:

11、将标签独热编码,再把步骤2中的带权重的邻接矩阵和rna提取的信息输入到图注意力网络中,进行五折交叉验证。图注意力网络为2层,第一层使用relu激活函数,图数据节点数609,数据样本数为2424,输出为64个节点,第二层为输出层,使用softmax激活函数,输出为2个节点。

12、一种基于图注意力网络的rna-疾病关联性预测方法,步骤4的实现过程如下:保存步骤3 中训练好的图注意力网络模型,用于预测输入的rna序列数据。



技术特征:

1.一种基于图注意力网络的rna-疾病相关性预测方法,包括预处理rna-疾病序列、训练图注意力网络和测试图注意力网络三个过程,其具体步骤如下:

2.根据权利要求1所述的一种基于图注意力网络的rna-疾病相关性预测方法,步骤1的实现过程如下:

3.根据权利要求1所述的一种基于图注意力网络的rna-疾病相关性预测方法,步骤2的实现过程如下:

4.根据权利要求1所述的一种基于图注意力网络的rna-疾病相关性预测方法,步骤3的实现过程如下:

5.根据权利要求1所述的一种基于图注意力网络的rna-疾病相关性预测方法,步骤4的实现过程如下:


技术总结
本发明属于生物信息学领域,涉及一种基于图注意力网络的RNA‑疾病相关性预测方法,旨在提高图注意力网络对RNA‑疾病相关性的预测性能。首先,使用图注意力网络的图络结构作为训练网络,基于PiRNA数据集构建图数据结构;其次,改变图的结构,把无向图的邻接矩阵转换成带权重的邻接矩阵,其中邻接矩阵的权重是基因出现的次数,同时允许邻接矩阵的主对角线有值;最后,将所有特征进行稀疏矩阵化后,输入到图注意力网络中,进行二分类,取概率最大的作为预测结果。piRNA在大多数癌症细胞中异常表达,这种基于图注意力网络的RNA‑疾病相关性预测方法能够提高预测的准确率,对于预防和治疗疾病具有重要意义。

技术研发人员:赵长波,周树森,柳婵娟,臧睦君,刘通,王庆军
受保护的技术使用者:鲁东大学
技术研发日:
技术公布日:2024/1/16
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1