一种转录因子靶基因关系预测方法、系统、设备和介质

文档序号:34386269发布日期:2023-06-08 06:20阅读:81来源:国知局
一种转录因子靶基因关系预测方法、系统、设备和介质

本发明涉及生物信息学,具体涉及一种基于图神经网络的转录因子靶基因关系预测方法、系统、设备和介质。


背景技术:

1、在生命过程中,生物体通过基因表达将遗传信息进行转录和翻译,从而表现出相应的性状。基因的表达过程受到转录因子的调控。基因调控是一个复杂的生物过程,在不同的时间和空间条件下,单个转录因子可以激活或抑制大量下游靶基因的转录,而一个靶基因又可以受到不同转录因子的调控。转录因子的靶基因研究对理解生物体分子机制、生命系统的发育过程和疾病诊断治疗具有重要意义。在基因组学的研究中,有许多实验方法和计算方法可以预测受转录因子调控的靶基因,但目前的方法受制于数据可用性、大规模数据缺乏、基因数目庞大等问题,因而需要新的数据和方法实现靶基因预测。

2、现有的预测转录因子靶基因关系的计算方法主要分为根据基因表达水平推测的方法和间接预测转录因子结合位点的方法。转录因子可以调控靶基因表达的上升和下调,使经过转录、翻译产生的蛋白质增多或减少,因而可以利用转录因子与靶基因表达水平的相关性来预测调控关系。基因表达数据可以划分为稳态基因表达数据和时间序列基因表达数据。利用稳态基因表达数据预测转录因子调控的靶基因广泛采用基于信息论的方法、基于贝叶斯建模的方法和基于布尔网络的方法。基于线性或非线性常微分方程和基于机器学习的方法可以利用时间序列基因表达数据预测受转录因子调控的靶基因。转录因子靶基因关系的预测可以间接通过其在基因组上的物理结合位置来推测,现有的预测转录因子结合位点的方法主要有机器学习和深度学习方法。

3、文献reconstruction of gene regulatory networks from gene expressiondata using decoupled recurrent neural network model公开了基于循环神经网络模型从基因表达数据中推断基因调控网络,其使用差异进化算法推断每个基因的调控因子,并使用实验验证分析了真实的基因表达谱。在基于表达水平预测的方法中,最大的挑战就是表达数据中存在大量的缺失值,这会导致丢失信息过多,从而极大地降低了预测调控关系的准确度。文献using bayesian networks to construct gene regulatory networksfrom microarray data根据贝叶斯网络具有处理缺失值的能力,提出了从酿酒酵母和大肠杆菌基因表达数据集构建基因调控关系网络的贝叶斯模型。微分方程可用来对时序基因表达数据建模预测转录因子可能调控的靶基因,随机微分方程可以模拟不规则布朗运动引起的动态扩散过程,文献a stochastic differential equation model for quantifyingtranscriptional regulatory network in saccharomyces cerevisiae基于随机微分方程实现了酿酒酵母转录调控网络的推断,该方法使用一组假定的调节因子来拟合广义线性模型,从而估计特定靶基因与调控因子的结合模型。

4、除了基因表达数据,还可以利用跨细胞类型的组蛋白修饰和染色质可访问性数据之间的相关性来检测结合位点和靶基因之间调控关系。在间接预测转录因子结合位点的方法中,文献predicting transcription factor regulators and gene regulatorynetworks in arabidopsis using publicly available binding site information利用公开的转录因子结合位点信息预测一组共表达或功能相关基因的潜在调控因子,该方法定义了三种与基因翻译起始位点和终止位点相关的基因区域类型,利用概率质量函数和超几何分布计算在这些区域寻找可能的结合位点,根据预测结果重建了拟南芥的基因调控网络。

5、基于基因表达量预测方法主要的缺点之一就是表达数据比较稀疏,缺失值较多,需要结合一些插补缺失值的方法提高预测准确率;而基于转录因子结合位点的方法间接利用结合位点的信息,由于转录因子结合位点在基因组上分布广泛,不同的转录因子结合位置一般不同,一些转录因子倾向结合距靶基因转录起始点较近的启动子区域,另外有一些转录因子可能会结合距转录起始位点较远的增强子区域,所以利用间接预测转录起始位点来推断转录因子的调控关系可能会出现很多的假阳性,无法做出准确的预测。对于目前已有的数学模型和机器学习模型,随着转录因子靶基因关系数量增多,模型的复杂度会呈指数级增长,难以完成全基因组的调控关系预测任务。


技术实现思路

1、为了解决上述现有技术的问题,本发明提供一种转录因子靶基因关系预测方法、系统、设备和介质,本发明采用基因序列数据和已知的遗传和蛋白质相互作用网络数据,可以避免基因表达数据缺失值多,以及结合位点预测不准确的问题;利用图神经网络方法解决生物网络中的链路预测问题,可以很好地实现大规模的转录因子靶基因关系预测。

2、发明通过以下技术方案实现:

3、一种转录因子靶基因关系预测方法,包括:

4、s1,获取待预测物种编码转录因子的dna序列和靶基因的dna序列,并对编码转录因子的dna序列和靶基因的dna序列进行编码,得到编码序列;其中,所述转录因子和靶基因的相互作用关系已知;

5、s2,获取待预测物种的蛋白质和遗传相互作用网络数据;其中,所述蛋白质和遗传相互作用网络数据与s1中的转录因子和靶基因相对应;

6、s3,获取待预测物种的转录因子靶基因相互作用网络数据,其中,所述转录因子靶基因相互作用网络数据是s1中所述转录因子和靶基因的相互作用网络数据;

7、s4,基于s1获取的编码序列、s2获取的蛋白质和遗传相互作用网络数据以及s3获取的转录因子靶基因相互作用网络数据构建图神经网络模型,并进行模型训练,得到训练后的图神经网络模型;

8、s5,采用训练后的图神经网络模型预测待预测物种未知的转录因子靶基因相互作用关系。

9、优选的,s1中,从ncbi数据库中获取待预测物种编码转录因子的dna序列和靶基因的dna序列。

10、优选的,s1中,采用k-mers编码方式对编码转录因子的dna序列和靶基因的dna序列进行编码。

11、优选的,s2中,从biogrid数据库中获取待预测物种的蛋白质和遗传相互作用网络数据。

12、优选的,s4具体为:

13、基于转录因子靶基因相互作用网络数据构建图神经网络模型的调控网络图;将蛋白质和遗传相互作用网络数据与编码序列拼接起来,并使用全连接层提取转录因子和靶基因的特征,进行特征融合,所得融合特征作为调控网络图中基因节点和转录因子节点的特征,构建得到图神经网络模型;对图神经网络模型进行模型训练。

14、优选的,s4中,所述图神经网络模型为基于个性化pagerank的图神经网络模型。

15、优选的,s5具体为:

16、s51,获取待预测物种编码转录因子的dna序列和候选靶基因的dna序列,并对编码转录因子的dna序列和候选靶基因的dna序列进行编码,得到编码序列;

17、s52,获取待预测物种的蛋白质和遗传相互作用网络数据;其中,所述蛋白质和遗传相互作用网络数据与s51中的所述转录因子和候选靶基因相对应;

18、s53,将s52中所述蛋白质和遗传相互作用网络数据与s51中的编码序列拼接起来,提取转录因子和候选靶基因的特征,进行特征融合,所得融合特征输入图神经网络模型进行转录因子靶基因相互作用关系的预测。

19、一种转录因子靶基因关系预测系统,包括:数据获取模块、模型构建与训练模块和预测模块;

20、数据获取模块,用于获取待预测物种编码转录因子的dna序列、靶基因的dna序列、蛋白质和遗传相互作用网络数据及转录因子靶基因相互作用网络数据;

21、数据处理模块,用于对编码转录因子的dna序列和靶基因的dna序列进行编码,得到编码序列;

22、模型构建及训练模块,用于基于编码序列、蛋白质和遗传相互作用网络数据以及转录因子靶基因相互作用网络数据构建图神经网络模型,并进行模型训练,得到训练后的图神经网络模型;

23、预测模块,用于采用训练后的图神经网络模型预测待预测物种的转录因子靶基因相互作用关系。

24、优选的,所述模型构建及训练模块,包括模型构建模块和训练模块;

25、模型构建模块,用于基于转录因子靶基因相互作用网络数据构建图神经网络模型的调控网络图;将蛋白质和遗传相互作用网络数据与编码序列拼接起来,并使用全连接层提取转录因子和靶基因的特征,进行特征融合,所得融合特征作为调控网络图中基因节点和转录因子节点的特征,构建得到图神经网络模型;

26、训练模块,用于对构建得到的图神经网络模型进行训练。

27、一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述转录因子靶基因关系预测方法的步骤。

28、一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述转录因子靶基因关系预测方法的步骤。

29、与现有技术相比,本发明具有如下的有益效果:

30、本发明采用的数据是基因序列数据及已知的遗传和蛋白质相互作用网络数据,这些数据的获取无需进行生物实验,可以直接从公开数据库中下载,因此无需耗费大量时间成本和实验成本获取基因的表达数据和表达图谱信息,可以避免基因表达数据缺失值多以及结合位点预测不准确的问题。同时,本发明利用先验的转录因子-靶基因调控关系,试图发现转录因子在调控靶基因时的结合模式,使用深度学习中的图神经网络方法可以根据已有基因调控网络的拓扑结构实现大规模的转录因子-靶基因潜在关系预测,同时也有较高的准确率。

31、进一步的,本发明将基于个性化传播的图神经网络模型应用于解决生物调控网络预测问题,该方法可以解决图神经网络层数过多容易趋于平滑的问题。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1