本发明涉及生物医学,尤其涉及一种双重测序的测序深度估计方法、装置、设备及存储介质。
背景技术:
1、双重测序技术在ctdna的低频突变检测领域有着广泛应用。
2、双重测序技术利用分子标签(unique molecule identifier,umi)技术先将具有相同umi序列的读段(reads)聚簇并构建单链一致性序列(single strand consensussequences,sscss),然后将拥有互补umi的sscss整合为双链一致性序列(duplexconsensus sequences,dcss)。在dcss中一致出现的突变被识别为真正的突变,从而实现了与pcr(polymerase chain reaction)错误和测序错误的区分。对于低频突变检测,双重测序仍然存在一个难点:不能保证低频突变在多次实验中被重复和稳定检出。通过提高测序深度能一定程度上解决该问题,而且突变频率(variant allele frequency,vaf)越低的突变被稳定检出所需要的测序深度也越高。因此,确定测序的最低深度要求是保障临床检测正确性所必需的。
3、常用的测序深度估计算法是在读段层次或者dna模板层次上使用简单的二项分布进行估计。将测序深度d(总读段数/总dna模板数)和突变频率vaf分别作为二项分布(binomial distribution)的实验总次数和成功概率,便有突变读段数/突变模板数x服从binom(d,vaf)分布。如果记检出至少k条突变读段/突变模板时表示该突变被检出,那么对应的突变检出概率为p(x≥k)。反过来,如果已知突变检出概率p(x≥k)为95%,那么对应的实验总次数d便是保证该突变被稳定检出所需要的测序深度。上述使用二项分布的测序深度估计只能单独在读段层次或者单独在dna模板层次上进行。但是基于双重测序数据判断突变是否被检出时,会同时对突变模板数,以及对每条正向和负向突变模板分别对应的最小突变支持读段数,也就是突变模板链所对应的最小簇规模(family size),进行约束。因此,为了保证低频突变能够被稳定检出,需要设计适用于双重测序技术的测序深度估计方法。
4、如何确定测序深度等实验参数来保证低频突变能够被稳定检出仍是一个亟待解决的问题。
技术实现思路
1、本发明提供一种双重测序的测序深度估计方法、装置、设备及存储介质,目的在于在双重测序技术下,估计检出低频突变的测序深度。
2、第一方面,本发明实施例提供了一种双重测序的测序深度估计方法,包括:
3、根据双链模板、正向单链模板和负向单链模板的占比情况,为多条dna模板按照相同比例赋予标签,并为每条所述dna模板赋予模板id;其中,所述dna模板的数量为饱和测序状态下的检出模板数;
4、生成饱和测序数据,其中,基于零截断负二项分布生成每条所述dna模板对应的读段数,按照所述读段数的数量关系为支持每条所述dna模板的读段赋予读段id;
5、生成突变模板和突变支持读段,其中,根据突变频率选取相应数量的所述dna模板作为突变模板,并为所述突变模板赋予突变模板标签,统计所述突变模板对应的突变读段的数量作为突变支持读段数;
6、设定次降采样后统计突变检出频率,其中,设定次降采样所述读段到指定测序深度后统计突变检出规则下的突变检出频率;
7、多次重复所述生成饱和测序数据、所述生成突变模板和突变支持读段与所述设定次降采样后统计突变检出频率的步骤,对突变检出频率取均值作为指定测序深度下检出概率的估计值,该值达到设定阈值时对应的测序深度即为稳定检出突变所需的测序深度。
8、第二方面,本发明实施例提供了一种双重测序的测序深度估计装置,包括:
9、模板标记模块,用于根据双链模板、正向单链模板和负向单链模板的占比情况,为多条dna模板按照相同比例赋予标签,并为每条所述dna模板赋予模板id;其中,所述dna模板的数量为饱和测序状态下的检出模板数;
10、生成饱和测序数据模块,用于生成饱和测序数据,其中,基于零截断负二项分布生成每条所述dna模板对应的读段数,按照所述读段数的数量关系为支持每条所述dna模板的读段赋予读段id;
11、突变模板读段生成模块,用于生成突变模板和突变支持读段,其中,根据突变频率选取相应数量的所述dna模板作为突变模板,并为所述突变模板赋予突变模板标签,统计所述突变模板对应的突变读段的数量作为突变支持读段数;
12、突变检出频率统计模块,用于设定次降采样后统计突变检出频率,其中,设定次降采样所述读段到指定测序深度后统计突变检出规则下的突变检出频率
13、测序深度确定模块,用于多次重复所述生成饱和测序数据、所述生成突变模板和突变支持读段与所述设定次降采样后统计突变检出频率的步骤,对突变检出频率取均值作为指定测序深度下检出概率的估计值,该值达到设定阈值时对应的测序深度即为稳定检出突变所需的测序深度。
14、第三方面,本发明实施例提供了一种电子设备,包括:
15、一个或多个处理器;
16、存储器,用于存储一个或多个程序;
17、当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任意实施例提供的双重测序的测序深度估计方法。
18、第四方面,本发明实施例提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如本发明任意实施例提供的双重测序的测序深度估计方法。
19、本发明实施例提供的一种双重测序的测序深度估计方法、装置、设备及存储介质,通过dna模板和读段之间的身份对应关系和数量关系,在已知突变频率和突变检出规则的情况下,推荐双重测序时的测序深度,提出了面向双重测序的低频突变稳定检出的深度估计,不需要生成真实的碱基序列,能够推荐双重测序时能够保证突变被稳定检出所应使用测序深度,在指导双重测序技术的实验参数设置方面具有很大的应用价值。
1.一种双重测序的测序深度估计方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,在所述根据双链模板、正向单链模板和负向单链模板的占比情况,为多条dna模板按照相同比例赋予标签,并为每条所述dna模板赋予模板id之前,还包括:
3.根据权利要求2所述的方法,其特征在于,所述根据双链模板、正向单链模板和负向单链模板的占比情况,为多条dna模板按照相同比例赋予标签,并为每条所述dna模板赋予模板id,包括:
4.根据权利要求3所述的方法,其特征在于,所述基于零截断负二项分布生成每条所述dna模板对应的读段数,按照所述读段数的数量关系为支持每条所述dna模板的读段赋予读段id,包括:
5.根据权利要求4所述的方法,其特征在于,所述根据突变频率选取相应数量的所述dna模板作为突变模板,并为所述突变模板赋予突变模板标签,统计所述突变模板对应的突变读段的数量作为突变支持读段数,包括:
6.根据权利要求5所述的方法,其特征在于,所述设定次降采样所述读段到指定测序深度后统计突变检出规则下的突变检出频率,包括:
7.根据权利要求6所述的方法,其特征在于,所述多次重复所述生成饱和测序数据、所述生成突变模板和突变支持读段与所述设定次降采样后统计突变检出频率的步骤,对突变检出频率取均值作为指定测序深度下检出概率的估计值,该值达到设定阈值时对应的测序深度即为稳定检出突变所需的测序深度,包括:
8.一种双重测序的测序深度估计装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括:
10.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7中任一所述的双重测序的测序深度估计方法。