本发明总体上涉及生物信息处理,并且具体地,涉及用于检测线粒体基因的方法、计算设备、计算机存储介质和计算机程序产品。
背景技术:
1、线粒体是细胞内的一个细胞器,它具有自己的细胞质dna(mtdna)。与核dna不同,mtdna通过母系遗传,具有多拷贝、高异质性及高变异率等特点。人类的线粒体基因组长度为16569bp,具有双链闭合环状结构。由于细胞分裂时不会发生重组以及mtdna相对较高的突变速率,导致个体之间的mtdna序列差异,进而产生线粒体多样性。这些差异受多种因素影响,如暴露与诱变剂的程度、dna修复机制的效率等。
2、线粒体疾病是一组以线粒体功能失调为特征的遗传性疾病,由编码线粒体结构蛋白或参与线粒体功能蛋白的核dna (ndna)和线粒体dna (mtdna)中基因突变引起的遗传性疾病。主要的致病性mtdna变异包括点变异、大片段缺失变异。
3、传统的用于检测线粒体基因的方法例如是基于一代测序法和高通量测序法。由于一代测序每次只能检测1k左右的区域,如果要检测线粒体的全长就需要重复做约20次检测,因此,导致耗时耗力,并且对样本量也有较高要求。而对于高通量测序方法而言,其主要是基于探针捕获或多重引物扩增的线粒体检测方法。由于高通量测序技术的特点,其无法保证所测全长线粒体每个区域都是均一的,从而造成针对低频大片段缺失变异的漏检。因此,难以提升针对低频大片段缺失变异的检出率。进而无法为线粒体疾病的早期诊断和个体化治疗提供更可靠的技术支持。
4、综上,传统的用于检测线粒体基因的方法存在的不足之处在于:难以有效提升针对低频大片段缺失变异的检出率。
技术实现思路
1、本发明提供一种用于检测线粒体基因的方法用于检测线粒体基因、计算设备、计算机存储介质和计算机程序产品,能够显著提高针对低频大片段缺失变异的检出率。
2、根据本发明的第一方面,提供了一种用于检测线粒体基因的方法。该方法包括:将线粒体参考基因组分别打断成不同长度的序列片段;将所打断的序列片段分别与已知线粒体基因组和自测线粒基因组进行比对,以便筛选出满足预定覆盖条件的候选序列片段;至少基于候选序列片段自身以及每两个候选序列片段之间序列的最适pcr退火温度、gc含量和吉布斯自由能变值,筛选出候选引物;以及基于候选引物针对线粒基因组的全长基因组覆盖情况,筛选出两对候选引物对,以便确定用于检测线粒体基因的目标引物。
3、根据本发明的第二方面,还提供了一种计算设备,该设备包括:存储器,被配置为存储一个或多个计算机程序;以及处理器,耦合至存储器并且被配置为执行一个或多个程序使装置执行本发明的第一方面的方法。
4、根据本发明的第三方面,还提供了一种非瞬态计算机可读存储介质。该非瞬态计算机可读存储介质上存储有机器可执行指令,该机器可执行指令在被执行时使机器执行本发明的第一方面的方法。
5、根据本发明的第四方面,还提供了一种计算机程序产品。其上存储有计算机程序,所述计算机程序被机器执行时实现本发明的第一方面的方法。
6、在一些实施例中,基于候选引物针对线粒基因组的全长基因组覆盖情况,筛选出两对候选引物对,以便确定用于检测线粒体基因的目标引物包括:比较关于候选引物针对线粒基因组的全长基因组覆盖情况的表征数据,以便在候选引物中确定候选引物对;确定候选引物对与线粒体基因的已知突变位点和区域是否存在交集;以及响应于确定候选引物对与线粒体基因的已知突变位点和区域不存在交集,确定候选引物对为用于检测线粒体基因的目标引物。
7、在一些实施例中,用于检测线粒体基因的方法还包括:从预定数据库获取序列长度大于预定长度阈值的、人类的全部线粒体核酸序列,以便获取已知线粒体基因组;以及获取自组装的已有的、人类的线粒体高通量测序数据,以便获取自测线粒基因组。
8、在一些实施例中,将所打断的序列片段分别与已知线粒体基因组和自测线粒基因组进行比对,以便筛选出满足预定覆盖条件的候选序列片段包括:统计每个序列片段在所有已知线粒体基因组和自测线粒基因组的出现频率;针对每个序列片段的出现频率进行排序,以便获取满足预定频率阈值条件的序列片段;以及在满足预定频率阈值条件的序列片段中过滤掉与已知线粒体致病位点或者致病区域存在交集的序列片段,以用于获取满足预定覆盖条件的候选序列片段。
9、在一些实施例中,基于候选序列片段自身以及每两个候选序列片段之间序列的最适pcr退火温度、gc含量和吉布斯自由能变值,筛选出候选引物包括:基于序候选列片段自身的最适pcr退火温度、gc含量和吉布斯自由能变值,筛选出适合做引物的候选序列片段;以及基于所筛选出的适合做引物的候选序列片段之间序列的长度、最适pcr退火温度、gc含量和吉布斯自由能变值,筛选出候选引物。
10、在一些实施例中,用于检测线粒体基因的方法还包括:获取预定数量的测试样本;以及统计预定数量的测试样本中的每个测试样本中的每对目标引物各自的平均深度,以便确定每对目标引物的扩增效率评估值。
11、在一些实施例中,用于检测线粒体基因的方法还包括:针对待测样本,使用目标引物进行线粒体全长扩增,以便收集扩增产物;针对所收集的扩增产物进行超声打断,以用于获取测序数据;确定所检测的变异类型;响应于确定所检测的变异类型为单核苷酸多态性变异和/或插入缺失变异,将经由质量控制后的测序数据比对到参考线粒体基因组,以便直接基于比对结果进行变异检测;以及响应于确定所检测的变异类型为结构变异,利用扩增效率评估值针对待测样本的目标引物的深度进行矫正,以便基于矫正后的深度进行变异检测。
12、在一些实施例中,所述结构变异为大片段缺失变异,基于矫正后的深度进行变异检测包括:确定是否存在线粒体融合断点;响应于确定存在线粒体融合断点,统计线粒体融合断点之间的深度与其他区域深度的比例;确定线粒体融合断点之间的深度与其他区域深度的比例是否大于预定比例阈值。
13、在一些实施例中,用于检测线粒体基因的方法还包括:响应于确定线粒体融合断点之间的深度与其他区域深度的比例大于预定比例阈值,确定存在变异位点和区域;以及基于预定变异数据库,针对所确定的变异位点和区域进行筛选,以便获取具有致病性的变异位点。
14、提供
技术实现要素:
部分是为了以简化的形式来介绍对概念的选择,它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本发明的关键特征或主要特征,也无意限制本发明的范围。
1.一种用于检测线粒体基因的方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,基于候选引物针对线粒基因组的全长基因组覆盖情况,筛选出两对候选引物对,以便确定用于检测线粒体基因的目标引物包括:
3.根据权利要求1所述的方法,其特征在于,还包括:
4.根据权利要求1所述的方法,其特征在于,将所打断的序列片段分别与已知线粒体基因组和自测线粒基因组进行比对,以便筛选出满足预定覆盖条件的候选序列片段包括:
5.根据权利要求1所述的方法,其特征在于,基于候选序列片段自身以及每两个候选序列片段之间序列的最适pcr退火温度、gc含量和吉布斯自由能变值,筛选出候选引物包括:
6.根据权利要求1所述的方法,其特征在于,还包括:
7.根据权利要求6所述的方法,其特征在于,还包括:
8.根据权利要求7所述的方法,其特征在于,所述结构变异为大片段缺失变异,基于矫正后的深度进行变异检测包括:
9.根据权利要求8所述的方法,其特征在于,还包括:
10.一种计算设备,包括:
11.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被机器执行时实现根据权利要求1至9中任一项所述的方法。
12.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序被机器执行时执行根据权利要求1-9中任一项所述的方法。