一种超深度测序检测ctDNA的背景噪音突变过滤方法、计算机介质、计算机系统与流程

文档序号:40912650发布日期:2025-02-14 21:25阅读:13来源:国知局
一种超深度测序检测ctDNA的背景噪音突变过滤方法、计算机介质、计算机系统与流程

本发明涉及生物信息学,具体涉及一种超深度测序检测ctdna的背景噪音突变过滤方法、计算机介质、计算机系统。


背景技术:

1、检测循环肿瘤dna(ctdna)作为肿瘤标志物,在现代医学中展现出了显著的优势。避免了传统组织活检所带来的创伤和风险,为患者提供了极大的便利,允许医生进行频繁且安全的疾病监测,及时掌握肿瘤的发展动态,无论是初期诊断、治疗过程中的效果评估,还是监测疾病复发,都能提供宝贵的信息。

2、单核苷酸突变(single nucleotide variant,snv)和插入缺失突变(insertion/deletion mutation,indel)是人基因组常见的变异类型,很多snv和indel突变会引起细胞生长异常和失控,影响一系列细胞关键功能的稳态发育。准确检测和鉴定snv和indel在临床诊断、用药指导、治疗和预后方面有非常重要的作用。随着测序技术和生物信息学的不断发展,越来越多的测序平台和突变识别算法被用来检测snv和indel。

3、ctdna在血液循环中的含量极低,针对ctdna的单核苷酸突变和插入缺失突变检测不仅对样品的富集和纯化技术要求极高,而且文库扩增富集时由pcr聚合酶错误结合以及测序仪本身的测序错误,使得超深度测序技术引入高背景噪音问题,区分真实突变和噪音也是一大难题。比如目前常用二代测序平台的技术限制,假阳性结果经常出现在最终分析结果中,其中包括大量测序平台造成的假阳噪音。为实现对血浆ctdna低频突变的精确检测,目前相关技术包括:单分子标签(unique molecular identifier,umi)技术、或者使用一些假阳性去除工具(例如gatk variantfiltration、fpfilter)等。使用uid(uniqueidentifier)标签进行正反双链纠错,可以矫正测序错误,但是无法区分出真实突变和背景噪音突变。传统的假阳性去除工具通常需要一定数量的正常血浆样本做基线,尤其是检测panel不同,控制背景噪音的算法也有所不同,固定panel可以使用大量正常样本一次性构建基线,或搭配机器学习算法,很好的区分“真实”突变和背景噪音;个性化panel检测单样本时也可以使用一二十例正常样本构建基线,获得较高的敏感性和特异性,但是成本也会大幅增加,增大实际应用困难。


技术实现思路

1、为了克服现有技术的缺陷,本发明的目的之一在于提供一种超深度测序检测ctdna的背景噪音突变过滤方法,不需要正常样本构建基线,实现在超深度测序下区分目标位点检出的突变为“真实突变”和背景噪音突变。

2、本发明的目的之二在于提供一种计算机介质,用于执行本发明提供的超深度测序检测ctdna的背景噪音突变过滤方法。

3、本发明的目的之三在于提供一种计算机系统,用于运行本发明提供的超深度测序检测ctdna的背景噪音突变过滤方法。

4、为了实现上述目的,本发明采用的技术方案如下:

5、一种超深度测序检测ctdna的背景噪音突变过滤方法,包括:

6、1)获取待测样本测序数据;

7、2)进行序列质控和参考基因组比对;

8、3)获取每个位置的碱基突变结果;

9、4)构建基线:按突变方向分类统计,统计目标位点两侧一段区域内各位点的突变频率分布特征,不包含目标位点;

10、5)构建背景噪音突变过滤模型:按照突变方向,基于目标位点测序深度n和该突变方向的突变频率分布特征构建背景噪音突变过滤模型,确定该突变方向由背景噪音引起的最大突变次数作为过滤条件。

11、在本发明的具体实施方式中,步骤4)中统计目标位点两侧各10~100bp区域内不同突变方向的背景噪音突变概率pm,其中m表示突变方向。

12、作为优选的,步骤4)中统计目标位点两侧各40~60bp区域内不同突变方向的背景噪音突变概率pm。

13、在本发明的具体实施方式中,所述不同突变方向的背景噪音突变概率pm为该突变方向上的所有突变丰度的分位数quantile。

14、在本发明的具体实施方式中,步骤5)构建背景噪音突变过滤模型的具体方法为:构建逆累积分布函数模型,统计该位点突变为背景噪音突变的概率p:p(x≥k)≤α,其中x~b(n,pm),x服从n和pm的二项分布,确定出的k值表示由背景噪音引起的最大突变次数;

15、统计目标位点该突变方向的突变次数,突变次数>k,判断为真实突变,否则为背景噪音。

16、作为优选的,α=0.01;分位数quantile=80;目标位点测序深度n≥10,000x。

17、可选的,所述待测样本为体液样本或组织样本;进一步优选的,所述待测样本为血浆样本;

18、可选的,待测样本测序数据为待测样本通过靶向建库后测序数据,其中靶向建库包括通过设计特异性扩增引物通过多重扩增的方式构建包含目标区域的文库;也包括采用探针捕获的方式获得包含目标区域的文库。

19、一种计算机介质,包括:

20、1)序列质控模块:用于对测序数据进行去除低质量序列、去重和测序错误校正;

21、2)序列比对模块:用于将序列质控模块输出的测序数据与人参考基因组进行比对;

22、3)突变结果识别及突变特征统计模块:用于识别每个位点的测序深度、该位置碱基突变到其他三种非参考碱基分别对应的突变次数和突变频率;

23、4)背景噪音判断及过滤模块:用于执行背景噪音过滤模型,计算由背景噪音引起该突变方向的最大突变次数k;当目标位点该突变方向的突变次数>k,判断为真实突变,否则为背景噪音;

24、其中背景噪音过滤模型由目标位点两侧一段区域内,按照突变方向,基于各位点的测序深度n和该突变方向的突变频率分布特征构建的背景噪音突变过滤模型,确定该突变方向由背景噪音引起的最大突变次数。

25、可选的,所述背景噪音判断及过滤模块执行的背景噪音过滤模型为逆累积分布函数模型p(x≥k)≤α,其中p为突变为背景噪音突变的概率;x~b(n,pm),x服从n和pm的二项分布,n为目标位点测序深度,pm为不同突变方向的背景噪音突变概率,其中m表示突变方向,显著性水平=α时,确定出的k值表示由背景噪音引起的最大突变次数;其中pm为目标突变位点两侧10~100bp区域内(进一步优选的,40~60bp区域内)各突变位点的统计数据,不包含目标位点;

26、一种计算机系统,包括处理器和存储器;所述处理器和存储器通信连接,其中所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行上述方法。

27、本发明有益效果:

28、1)本发明在所有目标位点向左右两侧延伸一段区域内的非目标区域上,检出的突变结果根据突变方向分类,统计对应突变方向为背景突变的概率作为基线,基于目标位点测序深度、背景突变的概率构建模型,计算出突变为背景突变的最大突变次数作为区分真实突变和背景突变阈值。区别于传统的依赖正常样本构建基线的背景噪音过滤方式,仅使用待测样本自身即可构建基线,并构建过滤模型,很好的区分了真实突变和背景突变;

29、2)进一步的,本发明方法可通过具体的参数调整实现不同灵敏度和特异性的性能指标,以满足不同的应用场景需求。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1