1.一种同时检测甲基化水平、基因组变异和插入片段的方法,其中基因组变异包括基因突变、拷贝数变异和结构变异,其特征在于,所述方法包括以下步骤:
s1:测序数据提供步骤,通过对包含待测样本dna与甲基化阳参dna和甲基化阴参dna的混合样本进行甲基化非重亚硫酸氢盐测序,提供测序数据;
s2:测序数据处理步骤,将所述测序数据进行处理,得到甲基化阳参dna和甲基化阴参dna的有效数据及待测样本dna的有效数据;
s3:条件判断步骤,根据甲基化阳参dna和甲基化阴参dna的有效数据,统计甲基化阳参dna在cpg区域的甲基化水平α和甲基化阴参dna整条基因组上的甲基化水平β,并判断α和β是否满足α≥95%且β<5%的条件,如果满足,则进行s4步骤,如果不满足,则返回s1步骤重新进行甲基化非重亚硫酸氢盐测序;
s4:待测样本甲基化检测步骤,对待测样本dna的有效数据进行甲基化分析,并统计待测样本dna的甲基化水平;
s5:待测样本基因突变检测步骤,对待测样本dna的有效数据进行基因突变分析,根据基因突变分析结果进行基因功能区域过滤和数据库频率过滤,得到第一突变集,根据甲基化统计结果去除甲基化转化的reads,并根据cpg、chg、chh设置向上浮动阈值进行第一突变集的过滤,得到最终突变集;
s6:待测样本拷贝数变异检测步骤,根据待测样本dna的有效数据进行拷贝数变异分析,得到拷贝数变异数据,并进行过滤筛选;
s7:待测样本结构变异检测步骤,根据待测样本dna的有效数据进行结构变异分析,得到结构变异数据,并进行过滤筛选;
s8:待测样本插入序列检测步骤,根据待测样本dna的有效数据进行插入片段分析,将覆盖突变型和野生型的reads区分,分别统计突变型插入片段和野生型插入片段的分布结果;
优选地,所述待测样本dna为人的体细胞dna,所述甲基化阳参dna和甲基化阴参dna为与人类物种不同的物种的dna。
2.根据权利要求1所述的方法,其特征在于,在所述s2步骤中,将所述测序数据进行处理包括将所述测序数据进行接头去除、低质量序列过滤,其中低质量序列过滤条件为质量值<15的低质量碱基不超过该序列的50%;将过滤后的序列数据分别与人参考基因组、甲基化阳参dna和甲基化阴参dna进行比对,得到比对文件,并建立索引;合并多条lane得到的比对文件,并进行排序;合并后的比对文件去除pcr产生的重复序列,得到所述有效数据。
3.根据权利要求1所述的方法,其特征在于,在所述s4步骤中,样本甲基化分析结果包含所有c碱基甲基化信息,包括基因组位置信息、甲基化覆盖深度、非甲基化覆盖深度、甲基化频率;样本甲基化统计结果包含cpg二核苷和非cpg二核苷区域的甲基化水平,其中非cpg二核苷区域包括chh位点和chg位点,其中h为非g碱基。
4.根据权利要求1所述的方法,其特征在于,在所述s5步骤中,样本基因突变分析结果包括基因组位点信息、突变信息,基因功能区域过滤为只保留外显子区域、错义突变、无义突变、移码突变,数据库频率过滤为去除千人基因组频率≥0.001,cpg的向上浮动阈值为0.1,chg和chh的向上浮动阈值为0.05。
5.根据权利要求1所述的方法,其特征在于,在所述s6步骤中,所述拷贝数变异数据过滤筛选条件为ratio>2或者ratio<0.5。
6.根据权利要求1所述的方法,其特征在于,在所述s7步骤中,所述结构变异数据筛选条件为断点覆盖度≥5。
7.根据权利要求1所述的方法,其特征在于,在所述s8步骤中,突变型和野生型reads区分是根据bam文件的cigar和flag信息识别突变位点,其中突变位点的识别排除甲基化信号的影响。
8.一种用于实施根据权利要求1-7中任一项所述的同时检测甲基化水平、基因组变异和插入片段的方法的装置,其中基因组变异包括基因突变、拷贝数变异和结构变异,其特征在于,所述装置包括以下模块:
m1:测序数据提供模块,用于通过对包含待测样本dna与甲基化阳参dna和甲基化阴参dna的混合样本进行甲基化非重亚硫酸氢盐测序,提供测序数据;
m2:测序数据处理模块,用于将所述测序数据进行处理,得到甲基化阳参dna和甲基化阴参dna的有效数据及待测样本dna的有效数据;
m3:条件判断模块,用于根据甲基化阳参dna和甲基化阴参dna的有效数据,统计甲基化阳参dna在cpg区域的甲基化水平α和甲基化阴参dna整条基因组上的甲基化水平β,并判断α和β是否满足α≥95%且β<5%的条件,如果满足,则进行m4模块,如果不满足,则返回m1模块重新进行甲基化非重亚硫酸氢盐测序;
m4:待测样本甲基化检测模块,用于对待测样本dna的有效数据进行甲基化分析,并统计待测样本dna的甲基化水平;
m5:待测样本基因突变检测模块,用于对待测样本dna的有效数据进行基因突变分析,根据基因突变分析结果进行基因功能区域过滤和数据库频率过滤,得到第一突变集,根据甲基化统计结果去除甲基化转化的reads,并根据cpg、chg、chh设置向上浮动阈值进行第一突变集的过滤,得到最终突变集;
m6:待测样本拷贝数变异检测模块,用于根据待测样本dna的有效数据进行拷贝数变异分析,得到拷贝数变异数据,并进行过滤筛选;
m7:待测样本结构变异检测模块,用于根据待测样本dna的有效数据进行结构变异分析,得到结构变异数据,并进行过滤筛选;
m8:待测样本插入序列检测模块,用于根据待测样本dna的有效数据进行插入片段分析,将覆盖突变型和野生型的reads区分,分别统计突变型插入片段和野生型插入片段的分布结果。
9.一种计算机可读介质,所述计算机可读介质存储有计算机程序指令,其中当所述计算机程序指令被处理器执行时,根据权利要求1-7中任一项所述的同时检测甲基化水平、基因组变异和插入片段的方法被运行。
10.一种用于实施根据权利要求1-7中任一项所述的同时检测甲基化水平、基因组变异和插入片段的方法的设备,其特征在于,所述设备包括:
用于存储计算机程序指令的存储器,和
用于执行所述计算机程序指令的处理器,
其中当所述计算机程序指令被所述处理器执行时,所述设备运行根据权利要求1-7中任一项所述的同时检测甲基化水平、基因组变异和插入片段的方法。