本技术涉及基因起源分析,特别是涉及一种推断基因起源时间的方法、装置和存储介质。
背景技术:
1、随着生物信息学方法逐渐应用于生物进化方向的研究,越来越多的人通过推断基因起源时间来挖掘基因的进化过程,进而梳理基因功能的演变史,最终从不同的视角预测基因的发展方向,寻找不利于进化的、可能导致疾病的机制。
2、传统的推断基因起源时间或者形成时间的方法是,利用基因序列或功能的相似性,只在少数其他的物种中寻找可能的直系同源关系;当存在直系同源时,则证明研究物种与参考物种的共同祖先类群中存在该基因,继而就证明了此基因存在于这个祖先类群中。但是,这种方法只能低效的推断同源关系。并且,借此推断基因起源时间无可回避的一点就是,如果参考物种数目较为稀少,或者有个别参考物种的基因组片段存在测序误差;这样推断出来的基因起源时间是存疑的。
3、因此,如何减少基因起源时间推断时由于基因在个别物种中的变异产生的误差,提高基因起源推断的准确性,仍然是基因起源研究技术领域亟待解决的重要问题。
技术实现思路
1、本技术的目的是提供一种新的推断基因起源时间的方法、装置和存储介质。
2、为了实现上述目的,本技术采用了以下技术方案:
3、本技术的第一方面公开了一种推断基因起源时间的方法,包括以下步骤:
4、参考物种统计步骤,包括将待分析基因所在的物种定义为研究物种,将与待分析基因来源于同一个祖先的其他物种的基因定义为直系同源基因,将与研究物种存在直系同源关系的所有物种作为参考物种,统计待分析基因及其直系同源基因在参考物种中的分布;
5、进化时间轴获取步骤,包括采用物种类群描绘研究物种在地球上生命发展过程中的主要事件,获得进化时间轴;其中,主要事件中的类群即为祖先类群;
6、祖先类群权重设定步骤,包括根据参考物种与研究物种的祖先类群在进化树中的远近,把参考物种归类到最近的研究物种的祖先类群中;如果某个祖先类群没有任何参考物种被归类其中,则删除该祖先类群;依据祖先类群中被归类的参考物种的数量,给祖先类群设定权重,参考物种的数量越多权重越高;
7、最优进化路线分析步骤,包括a)设定参数p,以祖先类群为单位,统计各祖先类群中含有待分析基因或其直系同源基因的参考物种的数量,如果该数量占该祖先类群中的所有参考物种总数量的百分比超过百分之p,则将该祖先类群判断为阳性类群,否则为阴性类群;b)由阳性类群构成待分析基因在研究物种的初步进化路线,遍历由所有阳性类群的子集构成的可能的进化路线,根据权重计算所有可能的进化路线的置信分数,在使用参数p的情况下,每个基因,选取置信分数最高的基因进化路线;c)计算在使用参数p的情况下,各基因选择的进化路线的连续性分数,加和所有基因的进化路线的连续性分数,即获得利用参数p得到的进化路线的整体连续性分数;d)调整参数p,根据步骤a)至步骤c)计算调整参数p的进化路线的整体连续性分数,将整体连续性分数最大的参数p作为最优参数;e)采用最优参数,根据步骤a)和步骤b)计算最优参数对应的所有可能的进化路线的置信分数,将置信分数最大的进化路线作为待分析基因的最优进化路线;
8、基因起源时间推断步骤,包括将最优进化路线中最古老的祖先类群产生的年代作为待分析基因的起源时间。
9、本技术的基因起源时间推断方法,利用基因在进化时间表中呈现连续性的特征,优化阳性类群的判断参数;并从最优参数获得的所有阳性类群的子集构成的可能的进化路线中,采用置信分数筛选最优进化路线;进而精准并迅速的推断出待分析基因的起源时间,避免了由于基因在个别物种中的变异导致的基因起源时间推断误差,提高了基因起源时间推断的准确性。
10、本技术的一种实现方式中,最优进化路线分析步骤中,步骤b)包括:
11、数据准备,从所有判断为阳性类群的祖先类群中提取所有可能子集,每一个祖先类群子集都构成待分析基因在进化谱系中的子分布,即类群子分布;
12、抽取,选择一种可能的类群子分布,构成可能的进化路线;
13、修正,如果类群子分布中的低权重类群为阴性类群,且该阴性类群在进化时间轴中的前后两个祖先类群皆为阳性类群,则修正此阴性类群为阳性类群;
14、计算,根据权重计算修正后的类群子分布的置信分数,遍历由所有阳性类群的子集构成的可能的进化路线,计算所有可能的进化路线的置信分数,选择置信分数最大的进化路线;
15、本技术的一种实现方式中,低权重类群是指权重小于5的祖先类群。
16、本技术的一种实现方式中,祖先类群的权重,是根据祖先类群中被归类的参考物种的数量进行排序,将排序的序号作为祖先类群的权重。
17、需要说明的是,本技术的改进方案中,通过对低权重类群,即祖先类群中参考物种太过稀少的情况进行校正,避免了由于过少的参考物种导致的假阴性问题,进一步的提高了基因起源时间推断的准确性。
18、本技术的一种实现方式中,根据权重计算置信分数具体采用公式一计算置信分数。
19、本技术的一种实现方式中,最优进化路线分析步骤中,步骤c)连续性分数的计算方法包括,对研究物种及其祖先类群按照进化时间轴的年代顺序赋予其排序序号,通过公式二计算阳性类群的连续性分数。
20、本技术的第二方面公开了一种推断基因起源时间的装置,包括参考物种统计模块、进化时间轴获取模块、祖先类群权重设定模块、最优进化路线分析模块和基因起源时间推断模块;
21、参考物种统计模块,用于将待分析基因所在的物种定义为研究物种,将与待分析基因来源于同一个祖先的其他物种的基因定义为直系同源基因,将与研究物种存在直系同源关系的所有物种作为参考物种,统计待分析基因及其直系同源基因在参考物种中的分布;
22、进化时间轴获取模块,用于采用物种类群描绘研究物种在地球上生命发展过程中的主要事件,获得进化时间轴,其中,主要事件中的类群即为祖先类群;
23、祖先类群权重设定模块,用于根据参考物种与研究物种的祖先类群在进化树中的远近,把参考物种归类到最近的研究物种的祖先类群中;如果某个祖先类群没有任何参考物种被归类其中,则删除该祖先类群;依据祖先类群中被归类的参考物种的数量,给祖先类群设定权重,参考物种的数量越多权重越高;
24、最优进化路线分析模块,用于a)设定参数p,以祖先类群为单位,统计各祖先类群中含有待分析基因或其直系同源基因的参考物种的数量,如果该数量占该祖先类群中的所有参考物种总数量的百分比超过百分之p,则将该祖先类群判断为阳性类群,否则为阴性类群;b)由阳性类群构成待分析基因在研究物种的初步进化路线,遍历由所有阳性类群的子集构成的可能的进化路线,根据权重计算所有可能的进化路线的置信分数,在使用参数p的情况下,每个基因,选择置信分数最高的进化路线;c)计算在使用参数p的情况下,各基因选择的进化路线的连续性分数,加和所有基因的连续性分数,即获得利用参数p得到的进化路线的整体连续性分数;d)调整参数p,根据步骤a)至步骤c)计算调整参数p的进化路线的整体连续性分数,将整体连续性分数最大的参数p作为最优参数;e)采用最优参数,根据步骤a)和步骤b)计算最优参数对应的所有可能的进化路线的置信分数,将置信分数最大的进化路线作为待分析基因的最优进化路线;
25、基因起源时间推断模块,用于将最优进化路线中最古老的祖先类群产生的年代作为待分析基因的起源时间。
26、需要说明的是,本技术的推断基因起源时间的装置,实际上就是通过各模块实现本技术的推断基因起源时间的方法的各个步骤,因此,本技术装置中各模块的具体实现方式或参数条件可以参考本技术的方法,例如置信分数的计算方法和公式、连续性分数的计算方法和公式等都可以参考本技术的推断基因起源时间的方法,在此不累述。
27、本技术的第三方面公开了一种推断基因起源时间的装置,该装置包括存储器和处理器;存储器,用于存储程序;处理器,用于通过执行存储器存储的程序以实现本技术的推断基因起源时间的方法。
28、本技术的第四方面公开了一种计算机可读存储介质,其包括程序,该程序能够被处理器执行以实现本技术的推断基因起源时间的方法。
29、由于采用以上技术方案,本技术的有益效果在于:
30、本技术推断基因起源时间的方法和装置,通过最优参数和最优进化路线分析,能够精准、迅速的推断出待分析基因的起源时间,避免了由于基因在个别物种中的变异导致的起源时间推断误差,提高了起源时间推断的准确性。