基于TextRNN_ATT模型的piRNA功能标签预测方法

文档序号:37113065发布日期:2024-02-22 21:12阅读:47来源:国知局
基于TextRNN_ATT模型的piRNA功能标签预测方法

本发明属于pirna功能标签鉴定,尤其涉及一种有效的基于textrnn_att模型的pirna功能标签的预测方法。


背景技术:

1、非编码rna(non-coding rna)是指不编码蛋白质的rna,在人体中高达70%的基因组被转录成非编码rna。pirna(piwi-interacting rna)是一类在动物生殖系统中具有高丰度的小非编码rna,通常与ago(argonaute)蛋白家族的piwi亚家族蛋白相互结合成复合体,在维持基因组稳定性、沉默转座子和mrna以及维持雄雌性两方生殖系统等方面发挥着重要作用。

2、基因不是孤立地工作,基因与基因之间可以通过相互作用来共同调节各种生物学功能。近年pirna功能研究表明,pirna介导的降解可作用于转座子、编码蛋白质的mrna(messenger rna,信使rna)和lncrna(long non-coding rna,长非编码rna)等。在小鼠的晚期精母细胞中,耶鲁大学林海帆研究组发现衍生自转座子和假基因的pirna可介导大量mrna和lncrna降解。pirna能够靶标mrna的3’端序列并使其降解,lncrna也通过类似机制被降解。总之,研究表明pirna介导了一个高度复杂的rna调控网络,这也提示可以通过科学手段推导出pirna功能标签的规律。

3、pirna功能研究可以通过生物实验或计算方法两种方式研究。虽然实验方法可准确地确定pirna功能,但是存在效率低、成本昂贵等缺点。因此,科学家尝试开发生物信息学工具,高效地预测pirna功能标签。

4、基于深度学习算法研究pirna功能受到广泛关注,例如,北京理工大学刘滨课题组通过将2元组核苷酸特征整合到伪k-tuple核苷酸(pseknc,pseudo k-tuple nucleotidecomposition)组成中,通过svm算法提出了2l-pirna。该方法是一个两层集成分类器,其中第一层用于鉴别编码序列是否为pirna,第二层用于预测pirna是否具有介导靶基因mrna降解的功能。阿卜杜勒瓦利汗大学马尔丹s.khan等人提出了一种2l-pseknc两层预测器实现pirna及其功能预测。该预测器采用混合伪k元组核苷酸组成进行序列建模,无监督主成分分析(principal component analysis,pca)算法进行判别特征选择,并使用深度神经网络作为分类器。总之,上述方法仅考虑了mrna降解相关的pirna,未考虑lncrna相关的pirna,不能解决预测pirna相互作用于mrna和lncrna的多功能标签分类问题。对于pirna多功能标签的鉴定技术目前仍然缺乏。


技术实现思路

1、为克服上述现有技术的不足,本发明的目的是提供一种基于textrnn_att模型的pirna多功能标签的预测方法,旨在使用严格的过滤条件形成基准数据集,确保数据准确无误,降低系统误差;使用位置编码融合预训练k-mer片段向量,获得具有生物学意义的序列表示;构建textrnn_att网络模型通过引入门控机制,更好地捕捉序列片段间依赖关系,引入注意力机制对序列片段信息进行权重分配,使得分类模型输出的结果具有较高的准确性和可靠性。通过计算方法鉴定pirna功能标签,有助于发现pirna功能和功能序列片段,帮助预测潜在的pirna生物标志物。

2、为实现上述目的,本发明采用的技术方案是:一种基于textrnn_att神经网络预测pirna功能多标签的方法,包括以下步骤:

3、步骤s1,构建小鼠pirna功能标签预测研究的基准数据集;步骤s2,获取步骤s1所构建的基准数据集中rna序列的重叠k-mer片段;步骤s3,基于skip-gram模型,使用pirbase数据库中pirna序列作为语料库,使用其k-mer序列片段以无监督的方式,预训练具有生物意义相似的k-mer序列片段的向量;步骤s4,构建用于预测pirna功能标签的textrnn_att神经网络模型;步骤s5:根据每个样本对应类别的预测概率,实现pirna功能标签的预测。

4、可选的,步骤s1包括:步骤s11:从pirbase数据库,得到pirna与mrna和lncrna相互作用记录;步骤s12:对步骤s11得到pirna与mrna和lncrna相互作用记录进行去重预处理,完成pirna功能标签预测基准数据集的构建。

5、可选的,步骤s2包括:步骤s21:将一个pirna序列记为p;步骤s22:在pirna序列上将固定大小k的窗口进行滑动,从而获取序列中重叠的k-mer片段。

6、可选的,步骤s3包括:步骤s31:通过滑窗提取pirbase数据库中pirna序列的k-mer(k=4)片段,这些片段将作为skip-gram模型的语料库;步骤s32:使用s31步骤获得的序列片段通过无监督的方式训练skip-gram模型,在给出目标k-mer序列片段的条件下,将上下文序列出现的概率最大化,从而获取目标k-mer序列的向量表示。

7、可选的,步骤s4包括:步骤s41:设置融合编码层,所述pirna序列融合编码表示由pirna序列的预训练嵌入表示和该pirna的k-mer位置编码相加聚合得到,作为模型的输入;步骤s42:将步骤s41得到的pirna序列融合编码表示p,作为gru层的输入,通过将k-mer序列片段编码向量从两个方向进行信息汇总,得到双向gru层的输出表示h;步骤s43:设置注意力层,对pirna序列k-mer片段信息进行注意力权重分配,以便提取序列关键信息;

8、步骤s44:设置输出层,用于进行线性变换,使得每个样本可属于多个类别,选取sigmoid激活函数对线性层输出向量进行处理,生成每个样本对应类别的预测概率。

9、可选的,步骤s41包括:步骤s411:将步骤s2中生成的所述k-mer片段,使用步骤s3中预训练获取的目标k-mer序列的向量表示进行映射,得到pirna序列的预训练嵌入表示;步骤s412:捕获一个pirna序列中所有k-mer序列片段的位置信息,得到该pirna的k-mer位置编码;步骤s413:将步骤s411得到pirna的预训练嵌入表示和步骤s412得到的该pirna的k-mer位置编码进行相加聚合,得到pirna序列融合编码表示p。

10、可选的,m=32,d=64,滑动窗口大小为4。

11、可选的,步骤s5包括:步骤s51:对于步骤s4输出的预测概率分数进行pirna功能的多标签预测,其中每个元素表示对应样本标签的置信度prob_np;步骤s52:通过比较置信度prob_np与0.5之间的关系,确定pirna与mrna和lncrna是否存在相互作用关系,从而输出预测标签。

12、可选的,若prob_np[0]小于等于0.5且prob_np[1]小于等于0.5,表示pirna与mrna和lncrna均不存在相互作用关系,输出预测标签为[0,0];若prob_np[0]小于等于0.5且prob_np[1]大于0.5,表示pirna与mrna没有相互作用关系,pirna与lncrna存在相互作用关系,输出其预测标签为[0,1];若prob_np[0]大于0.5且prob_np[1]小于等于0.5,表示pirna与mrna存在相互作用关系,pirna与lncrna没有相互作用关系,输出其预测标签为[1,0];若prob_np[0]大于0.5且prob_np[1]大于0.5,表示pirna与mrna和lncrna均存在相互作用,输出其预测标签为[1,1]。

13、本发明的有益效果是:

14、由于本发明采用了目前最权威的pirna专用数据库pirbase作为可靠数据来源,采用严格的过滤条件确保数据的准确性,使用位置编码融合预训练k-mer嵌入表示,获得具有生物学意义的序列表示,首次采用textrnn_att网络模型鉴定pirna功能标签,所以本发明具有方案新颖、结果准确的优点。

15、本发明中,通过对pirna数据预处理,整理了pirna与多分子之间的相互作用关系数据。pirbase作为pirna最权威数据库,提供高质量的pirna数据,这些数据为研究pirna多功能标签分类奠定了基础。pirna相关互作数据可以从pirbase数据库获得,通过去重预处理操作,构建pirna功能标签预测研究的基准数据集。

16、本发明对pirna序列中k-mer片段进行位置编码和预训练嵌入表示融合,得到具有生物学意义的pirna序列表示,作为功能标签预测模型的输入。考虑到不同大小的滑动窗口所产生的k-mers序列片段对模型预测性能的影响,通过超参数实验敏感性测试,选取4-mer片段进行编码处理。

17、本发明基于textrnn_att网络模型,可以系统预测pirna的功能标签。模型通过引入门控机制,可以更好地捕捉序列片段间依赖关系,引入注意力机制可对序列片段信息进行权重分配,使得分类模型的输出结果具有较高的准确性和可靠性。

18、本发明将有助于推断pirna潜在的调控功能和与其他遗传因子间的结合机制,帮助生物学家进一步探索未知pirna的功能,为疾病诊疗提供新生物标志物。本技术的这些方面或其他方面在以下实施例的描述中会更加简明易懂。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1