本发明属于生物信息学领域,涉及一种基于图注意力网络的rna-疾病相关性预测方法,其中包括带权邻接矩阵的转换方法。
背景技术:
1、piwi蛋白代表着ago蛋白家族中的一个分支,首次在果蝇中发现,起着调节生殖干细胞维持的作用,与piwi蛋白相作用的rna称为pirna。piwi蛋白和pirna通常在人类生殖系统中被检测到,研究发现,pirna在各种癌症中异常表达,这表明了pirna的异常表达可能导致人类疾病。传统的生物学实验技术对于识别潜在的pirna与人类疾病之间的相关性通常是可靠的,如核糖体实验技术,转录组测序技术等。随着一些pirna-疾病关联数据库的出现,如pirnabank、pirbase和pirnaquest,这些已知的关联数据库为深度学习预测提供了坚实的基础,从而一定程度上解决传统生物实验方法耗时、昂贵和劳动密集型的问题。目前大多数计算预测方法仅仅考虑到了pirna的属性特征,但是在数据库中,一种pirna却可能与多种疾病相关联,忽略了疾病与疾病之间的联系,因此有必要设计一种能够使它们相关联的属性特征。随着非编码rna和疾病之间的关系组合越来越复杂,预测疾病的关联性,可以对许多生物学机制有更深入的见解。
2、 pirnas数据库已经被建立,许多计算方法已经被提出,神经网络和支持向量机等相关方法已经被成功的应用于预测rna-疾病的相关性,但大多数神经网络方法都具有以下缺点:只是简单的特征映射,没有建立起数据之间的联系。
3、本发明最重要的创新点是提出了一种新的图数据结构,将整个网络图结构进行拆分, 细分形成不同的子网络,实现带权重的邻接矩阵与图注意力网络相结合。本发明设计的带权邻接矩阵,不仅使用了属性特征,而且还通过邻接矩阵反映了它们之间的联系。
技术实现思路
1、一种基于图注意力网络的rna-疾病相关性预测方法,包括预处理节点序列、训练图注意力网络和测试图注意力网络三个过程,其具体步骤如下:
2、步骤1、为了从rna-疾病序列中提取更多的结合信息,需要使用 p个 ( p表示节点数量, p的大小由rna-疾病序列的个数确定) 不同节点,每个节点中包含2个信息,一个是疾病,一个是rna;
3、步骤2、构建这些节点直接的邻接矩阵,当任意2个节点中包含相同的rna,则建立联系,并且邻接矩阵中的值为该rna频数的倒数,rna频数通过统计含有该rna的节点得到;
4、步骤3、把步骤2中生成的 p个节点作为图注意力网络的输入,将k-mer计数得到的rna数据,分成5份做5折交叉验证,所谓k-mer,即为一段长度为 k的基因片段,是由测序reads剪切一部分得到的, k是一个奇数;
5、步骤4、保存训练好的图注意力网络模型,使用测试集来评估模型。
6、一种基于图注意力网络的rna-疾病相关性预测方法,步骤1的实现过程如下:
7、确定处理rna-疾病序列的个数 p, p的大小等于数据集中数据的个数,每一个序列相当于一个节点,确定了节点的个数,就建立一个 p*p方阵。
8、一种基于图注意力网络的rna-疾病相关性预测方法,步骤2的实现过程如下:
9、使用步骤1中产生的 p*p的方阵 a;设置 i是方阵的行号, j是方阵的列号, f为第 i行第 j列位置上的权重,此权重由基因的数量统计得到。节点与自己本身的权重设为1,也就是对角线上的元素都设为1,其它无关联的部分设为0。
10、一种基于图注意力网络的rna-疾病相关性预测方法,步骤3的实现过程如下:
11、将标签独热编码,再把步骤2中的带权重的邻接矩阵和rna提取的信息输入到图注意力网络中,进行五折交叉验证。图注意力网络为2层,第一层使用relu激活函数,图数据节点数609,数据样本数为2424,输出为64个节点,第二层为输出层,使用softmax激活函数,输出为2个节点。
12、一种基于图注意力网络的rna-疾病关联性预测方法,步骤4的实现过程如下:保存步骤3 中训练好的图注意力网络模型,用于预测输入的rna序列数据。
1.一种基于图注意力网络的rna-疾病相关性预测方法,包括预处理rna-疾病序列、训练图注意力网络和测试图注意力网络三个过程,其具体步骤如下:
2.根据权利要求1所述的一种基于图注意力网络的rna-疾病相关性预测方法,步骤1的实现过程如下:
3.根据权利要求1所述的一种基于图注意力网络的rna-疾病相关性预测方法,步骤2的实现过程如下:
4.根据权利要求1所述的一种基于图注意力网络的rna-疾病相关性预测方法,步骤3的实现过程如下:
5.根据权利要求1所述的一种基于图注意力网络的rna-疾病相关性预测方法,步骤4的实现过程如下: