一种肿瘤致病基因筛选方法及存储介质

文档序号:35551770发布日期:2023-09-23 23:15阅读:58来源:国知局
一种肿瘤致病基因筛选方法及存储介质

本发明涉及基因筛选,尤其是涉及一种肿瘤致病基因筛选方法及存储介质。


背景技术:

1、肿瘤转录谱数据一般具有“小样本、高维度、高噪声”的特点,大多数基因特征维度一般可以达到几万,然而从生物学角度,只有少数基因与肿瘤样本的表型真正相关,所以需要从几万个基因中选择出与肿瘤形成和发展有关的致病基因。高维度肿瘤转录谱数据在处理和分析过程中需要考虑特征选择、降维和正则化等技术来解决维度灾难问题。转录谱数据的高噪声又需要在分析过程中进行噪声过滤和归一化处理,以提高数据的准确性和可解释性。

2、常用的过滤法筛选肿瘤致病基因优点是可以快速删除大量无关噪声基因,应用方法简单,但缺点是过滤法在进行肿瘤基因选择时,往往仅衡量单个基因与肿瘤相关性大小,没有考虑基因之间的相互作用,而肿瘤的发生是由多个基因相互作用导致的结果;导致其筛选出的基因子集存在大量冗余基因。冗余基因不仅增加分类算法计算代价,而且影响分类准确率。需要从原始基因数据识别出最优基因子集,即不包含冗余基因的致病基因子集,是肿瘤基因选择的关键一步。


技术实现思路

1、本发明的目的就是为了克服上述现有技术存在的缺陷而提供了一种肿瘤致病基因筛选方法及存储介质,适用于小样本、高维度、高噪声的肿瘤转录谱数据,可以更为高效、准确进行肿瘤致病基因筛选。

2、本发明的目的可以通过以下技术方案来实现:

3、根据本发明的第一方面,提供了一种肿瘤致病基因筛选方法,该方法包括:

4、步骤s1、从原始转录谱数据中筛选出肿瘤差异表达基因,然后识别得到肿瘤致病相关基因子集;

5、步骤s2、以肿瘤致病相关基因子集中的基因表达数量为染色体长度,转录编号为基因位置,对种群个体进行编码;

6、步骤s3、以最小化基因子集个数、最大化分类准确率指标作为优化目标,建立肿瘤非冗余致病基因的基于信息共享的two-archive多目标优化模型并初始化;

7、步骤s4、根据基于信息共享的two-archive多目标优化模型,进行种群间的限制交配选择、信息共享和信息补偿,直到满足终止条件,输出最优的肿瘤致病基因筛选结果;其中,采用基于边界解驱动的子代优势互补机制进行种群更新。

8、优选地,所述步骤s2中对种群个体进行编码采用二进制编码,xi=0代表第i个基因未被选中,等于1则代表该基因被选中,每个个体表示为一种非冗余胃癌基因组合方式。

9、优选地,所述基于信息共享的two-archive多目标优化模型,将非支配解集划分为收敛性档案库ca和多样性档案库da,分别用于引导种群收敛到真实帕累托前沿、以及在目标空间中增加种群的多样性;所述收敛性档案库ca是收敛性突出的个体集合,其中个体所代表的胃癌非冗余基因组合质量更好,多样性档案库da是多样性突出的个体集合,其中个体使得种群分布更加均匀。

10、优选地,所述基于信息共享的two-archive多目标优化模型,目标函数表达式为:

11、

12、其中,xi代表第i个基因,目标函数f1计算基因子集个数,f2计算分类错误率。

13、优选地,所述基于信息共享的two-archive多目标优化模型的进化过程包括:

14、1)确定进化过程中的交叉概率pc、突变概率pm和限制性交配选择概率δ;

15、2)生成决策变量的上下界:由于基因筛选为离散优化问题,决策变量的取值为1或0;

16、3)随机初始化种群,对肿瘤基因进行二进制编码,用0或1表示当前基因是否被选中,种群中每个个体都是一种肿瘤非冗余致病基因组合,同时计算种群中个体的目标值;初始化收敛性档案库ca和多样性档案库da为空;

17、4)进化过程中采用限制性选择交配策略进行种群繁殖:

18、5)进化过程中进行突变操作;

19、6)利用非支配解集更新收敛性档案库ca和多样性档案库da;

20、7)对于更新后的收敛性档案库ca和多样性档案库da,采用基于边界解驱动的子代优势互补机制进行子代优势互补;

21、8)对收敛性档案库ca和多样性档案库da进行截断操作。

22、优选地,所述采用限制性选择交配策略进行种群繁殖,包括:

23、设置限制性交配概率,用于确定在两个档案库中各选取一个个体作为亲本的概率;

24、生成一个0到1之间的随机数,如果该随机数小于限制性交配概率,那么在整个种群中随机选择个体作为亲本,否则,在收敛性档案库ca和多样性档案库da中各选取一个个体,作为子代的亲本;

25、利用亲本进行交叉、变异操作,产生子代个体。

26、优选地,所述利用亲本进行交叉、变异操作,产生子代个体,具体为:

27、根据预先指定的交叉概率pc来判断父代个体是否需要进行交叉操作,再选择两个亲本对象进行交叉;交叉算子通过概率的方式随机生成新的个体;

28、根据变异概率pm来判断父代个体是否需要进行变异操作;

29、通过交叉和变异操作,使得子代个体具有和父代个体不同的基因组合,增加了胃癌基因的组合类型。

30、优选地,所述采用基于边界解驱动的子代优势互补机制进行种群更新,利用档案库中的边界解,对收敛性档案库ca进行多样性维护,对多样性档案库da进行收敛性维护,具体包括:

31、对非支配解集中的每个个体,如果可以支配收敛性档案库ca或多样性档案库da中个体,将其加入收敛性档案库ca,并删除被支配的个体;对不能支配收敛性档案库ca和多样性档案库da的个体,将其添加到多样性档案库da;

32、找到收敛性档案库ca和多样性档案库da的边界解,在每个目标维度上,找到目标值最大或最小的个体;利用边界解驱动进化以平衡种群的收敛性和多样性,将收敛性档案库ca中多样性较好的个体加入多样性档案库da,将多样性档案库da中收敛性较好的个体加入收敛性档案库ca。

33、优选地,所述步骤8)对收敛性档案库ca和多样性档案库da进行截断操作,通过截断操作,淘汰种群部分个体,得到满足优化条件并且基因组合质量更高的个体,具体包括:

34、81)档案库溢出时,只删除多样性档案库da中个体;

35、82)计算多样性档案库da中个体到收敛性档案库ca的距离,找出距离最短的个体;

36、83)删除距离最短个体,直至档案库大小不再超出阈值。

37、根据本发明的第二方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现任一项所述的方法。

38、与现有技术相比,本发明具有以下优点:

39、1)本发明采用基于信息共享的two-archive多目标优化模型进行肿瘤致病基因筛选,在现有的two-archive多目标优化模型基础上,提出基于边界解驱动的子代优势互补机制,以对种群后期收敛性档案库多样性不足导致肿瘤基因筛选优化优化停滞的问题进行改善,实现了肿瘤致病基因筛选多目标问题的高效求解。

40、2)本发明提出的限制性交配选择策略,通过选择不同档案库中的个体作为亲本,增加了种群的选择压力,推动种群进化,尤其适用于小样本的肿瘤转录普数据,进一步提高了肿瘤致病基因筛选结果的精准性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1