一种基于机器学习的基因组不稳定性评估方法及系统与流程

文档序号:34548074发布日期:2023-06-27 22:10阅读:84来源:国知局
一种基于机器学习的基因组不稳定性评估方法及系统与流程

本发明涉及医疗,尤其涉及一种基于机器学习的基因组不稳定性评估方法及系统。


背景技术:

1、同源重组修复缺陷(hrd)状态是多种肿瘤治疗选择及预后的关键指标,临床研究结果证实,hrd状态与铂类化疗药物、parp抑制剂敏感性高度相关。目前fda已经批准hrd检测为卵巢癌患者使用奥拉帕尼和尼拉帕利的伴随诊断标志物。奥拉帕尼是全球及国内上市的首个parp抑制剂,分别在卵巢癌、乳腺癌、前列腺癌、胰腺癌等患者中获批。据报道,在卵巢癌患者中每两个患者就有一个存在hrd。相比brca突变,hrd检测可提高一倍parp抑制剂敏感人群。正常的细胞中存在着复杂的dna修复系统,其中包括修复dna单链断裂的parp(多聚二磷酸腺苷核酸聚合酶)和修复dna双链断裂的brca1、brca2和palb2等蛋白所在的dna同源重组修复(hrr)通路。同源重组修复(hrr)是dna双链断裂修复的重要机制。在dna双链断裂修复(dsbr)通路中,brca1和brca2基因是同源重组修复通路商的两个关键基因,如果brca1或brca2出现基因突变导致蛋白功能丧失,就会引起同源重组修复功能缺陷hrd,此外,这些基因的突变或brca1基因启动子发生甲基化引起hrd,会导致基因组不稳定,表现为“基因组瘢痕”,包括loh(基因组杂合性缺失)、tai(端粒等位基因不平衡)以及lst(大片段迁移)。

2、parp(聚腺苷二磷酸核糖聚合酶)是一种在dna单链断裂修复过程中至关重要的酶,负责dna单链损伤修复。如果使用parp抑制剂使dna单链修复功能被阻断,携带单链突变的细胞在复制增殖后就会造成dna双链断裂,如果该细胞同时存在同源修复缺陷(hrd),大量双链断裂不能被修复,细胞就会死亡。parp抑制剂的这种作用机制被称为“合成致死”效应。

3、hrd导致基因组不稳定,表现为“基因组瘢痕”hrd score检测是目前比较公认的评估hrd状态的方法。hrd score综合loh、lst、tai三个指标进行基因组不稳定性评分,具体数值通过对细胞内单核苷酸多态性位点(snp)进行检测和计算得出。loh、lst、tai三个指标都能独立预测基因组的稳定性,将这三个指标简单相加得到hrd评分(hrd score),并且通过对brca1/2双等位失活的95%识别敏感性来确定hrd评分阈值是目前反应基因组不稳定的状态的一般做法。

4、然而,目前的一般做法存在如下技术缺陷:

5、(1)三个基因不稳定性评估指标loh、lst、tai计算方法已经出现多年,基于多年的项目与科研经验,基因组瘢痕指标无论从数量上还是定义方法上都有改进空间;

6、(2)将基因不稳定性评估指标直接相加来得到hrd评分的做法虽然简单直接,但是无法精确获得更好的分析效果;

7、(3)通过brca1/2双等位失活作为标准来训练建模,并没有考虑到hrr通路其他基因对同源重组功能缺失的贡献,因此当其他hrr相关基因发生突变或者基因启动子发生甲基化,导致基因组不稳定的情况并没有在不稳定性的评估范围内,评估的结果不够准确。


技术实现思路

1、为了解决现有技术中存在的问题,本发明提供了如下技术方案,一种基于机器学习的基因组不稳定性评估方法及系统,结合项目与科研经验,以及基因组不稳定性领域的最新科研成果,重新设计评估基因组不稳定性的指标,使之更加全面和详细;尝试更加复杂和精准的机器学习模型算法来代替原有的直接相加算法;建模标准的选择除了brca1/2,发掘其他可以纳入的重要hrr基因,要求在突变率、与基因组不稳定性的关联、与药物疗效的关联方面都有良好的性能,通过更加精准的机器学习建模方法获得更好的基因组不稳定性分析和评估效果,特别适用于既往做过brca1/2检测结果为阴性,需要进一步评估hdr状态的患者。

2、本发明第一方面提供了一种基于机器学习的基因组不稳定性评估方法,包括:

3、s1,采集并接收生物样本,对所述生物样本进行处理获得基因组样本;

4、s2,将所述基因组样本分为训练集和验证集,基于所述训练集和所述验证集进行建模获得基因组不稳定性评估模型;

5、s3,基于多个hrr基因形成的基因集合形成建模标准,对所述基因组不稳定性评估模型进行训练;

6、s4,基于多个基因组不稳定指标对基因组不稳定性进行评估。

7、优选的,基因组样本包括新鲜血液样本、石蜡切片样本和/或新鲜组织样本;所述处理包括:对所述生物样本进行肿瘤含量评估、dna提取及质检、文库构建及捕获、和上机测序。

8、优选的,所述s2中所述训练集和验证集相互独立,并且所述训练集和验证集的样本量都在450-500之间。

9、优选的,所述s2中所述基于所述训练集和所述验证集进行建模获得基因组不稳定性评估模型包括采用岭回归进行建模。

10、优选的,所述s3中所述多个hrr基因包括:brca1、brca2以及rad51d组成的三基因的hrr3基因集。

11、优选的,所述s3中所述建模标准包括:满足第一组三项条件中的任意一项即定义为所述模型中的样本为真阳性样本,所述第一组三项条件包括:

12、(1)brca1双等位失活;

13、(2)brca2双等位失活;

14、(3)rad51d双等位失活;

15、其中,基因组内的基因满足第二组三项条件中的任意一项条件即定义为所述双等位失活,所述第二组三项条件包括:

16、(1)一个等位基因为4/5类突变,另一个等位基因为loh;

17、(2)在同一个基因上发生了两个4/5类突变;

18、(3)一个等位基因为4/5类突变,另一个等位基因为高甲基化状态。

19、优选的,所述s4中所述多个基因组不稳定指标包括:

20、将等位基因(allele)分成三类:等位基因平衡但扩增、非loh但等位基因不平衡和loh;同时将三类等位基因按绝对长度拆分五个长度区间:0-5m,5-10m,10-15m,15-20m,>20m;其中等位基因(allele)为位于一对同源染色体的相同位置上控制着相对性状的一对基因;

21、所述多个基因组不稳定指标包括19个基因组不稳定指标,分别为:

22、(1)b_0-5m:等位基因平衡但扩增,长度在0-5m(含)的片段的个数;

23、(2)b_5-10m:等位基因平衡但扩增,长度在5(不含)-10m(含)的片段的个数;

24、(3)b_10-15m:等位基因平衡但扩增,长度在10(不含)-15m(含)的片段的个数;

25、(4)b_15-20m:等位基因平衡但扩增,长度在15(不含)-20m(含)的片段的个数;

26、(5)b_>20m:等位基因平衡但扩增,长度大于20m的片段的个数;

27、(6)imb_0-5m:非loh但等位基因不平衡,长度在0-5m(含)的片段的个数;

28、(7)imb_5-10m:非loh但等位基因不平衡,长度在5(不含)-10m(含)的片段的个数;

29、(8)imb_10-15m:非loh但等位基因不平衡,长度在10(不含)-15m(含)的片段的个数;

30、(9)imb_15-20m:非loh但等位基因不平衡,长度在15(不含)-20m(含)的片段的个数;

31、(10)imb_>20m:非loh但等位基因不平衡,长度大于20m的片段的个数;

32、(11)loh_0-5m:loh,长度在0-5m(含)的片段的个数;

33、(12)loh_5-10m:loh,长度在5(不含)-10m(含)的片段的个数;

34、(13)loh_10-15m:loh,长度在10(不含)-15m(含)的片段的个数;

35、(14)loh_15-20m:loh,长度在15(不含)-20m(含)的片段的个数;

36、(15)loh_>20m:loh,长度大于20m的片段的个数;

37、(16)purity:肿瘤细胞占比;

38、(17)ploidy:肿瘤细胞基因组倍性;

39、(18)si:用于测量异常cn(aberrant cn)的状态的异质性,获取方法包括:统计所有等位基因不为1:1的片段(segment);通过片段的长度对片段的等位基因状态加权;计算整个样本中发生拷贝数变异(copy number variation,cnv)的等位基因状态的多样性指数;

40、(19)hlamp:获取方法包括:计算位于高扩增区域(包括1q21.1-24.1、1q42.2-44、8q11.21-24.3和10p15.3-14)的片段(segment),拷贝数变异(copy number variation,cnv)≥5的等位基因状态占上述区域各segment的比例。

41、本发明的第二方面,提供一种基于机器学习的基因组不稳定性评估系统,包括:

42、样本采集模块,用于采集并接收生物样本,对所述生物样本进行处理获得基因组样本;

43、模型建模模块,用于将所述基因组样本分为训练集和验证集,基于所述训练集和所述验证集进行建模获得基因组不稳定性评估模型;

44、模型训练模块,用于基于多个hrr基因形成的基因集合形成建模标准,对所述基因组不稳定性评估模型进行训练;

45、不稳定性评估模块,用于基于多个基因组不稳定指标对基因组不稳定性进行评估。

46、本发明的第三方面提供一种电子设备,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述指令并执行如第一方面所述的方法。

47、本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述多条指令可被处理器读取并执行如第一方面所述的方法。

48、本发明提供的基于机器学习的基因组不稳定性评估方法、系统和电子设备,具有如下有益效果:

49、(1)将原有的3个基因组不稳定性指标提升到了19个,对基因组不稳定性的评估更加全面和详细,能够更加精准的评估基因组不稳定性。

50、(2)在建模方法上采用了岭回归的建模方法,相较于简单的指标相加算法更加精准。建模群体采用的训练集与验证集相互独立,且样本量都在450到500之间,提高了模型的精准性。

51、(3)在建模标准上,除了经典的brca1/2基因,加入了rad51d,组成了3基因的hrr3基因集;同时还可以根据需要形成更多的基因形成的基因集,基于分析结果显示rad51d无论在突变率、与基因组不稳定性的关联、与药物疗效的关联角度上都是一个值得纳入考虑的hrr基因。经分析性能验证,该基因组不稳定性评估方法的敏感度可以达到92%左右,特异度在40%左右(代表该方法在非hrr3双等位突变人群中,仍可筛选出60%左右潜在可以从parpi维持治疗中获得更好疗效的患者)。

52、(4)经临床性能验证,该基因组不稳定性评估方法对一线parpi维持治疗疗效的区分能力略优于现有技术。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1