一种检测拷贝数变异的方法、装置和存储介质与流程

文档序号:21279722发布日期:2020-06-26 23:31阅读:来源:国知局

技术特征:

1.一种检测拷贝数变异的方法,其特征在于:包括以下步骤,

数据获取步骤,包括获取待测样本dna测序数据及其在人类参考基因组上各个位置的比对数据;

深度统计步骤,包括根据所述数据获取步骤获取的待测样本dna测序数据,统计待测样本dna在固定窗口区域内的深度;

异常数据提取步骤,包括根据所述数据获取步骤中获取的待测样本dna在人类参考基因组上各个位置的比对数据,提取比对异常的数据序列,作为支持拷贝数变异的第一维度结果;

窗口深度对比步骤,包括根据所述深度统计步骤的结果,将所述待测样本dna的窗口深度与统计的健康人群dna窗口深度的分布统计模型进行比较,获得与所述分布统计模型显示出差异的窗口结果;

拷贝数变异判定步骤,包括根据所述窗口深度对比步骤的结果,分析与所述分布统计模型显示出差异的窗口,判断其差异是否显著;如果差异显著,且能够得到所述异常数据提取步骤中所述第一维度结果的支持,则判断为阳性拷贝数变异;

检测结果输出步骤,包括根据所述拷贝数变异判定步骤的判断结果,输出待测样本dna的所有阳性拷贝数变异;

所述健康人群dna窗口深度的分布统计模型采用以下方法构建,

健康人群dna数据获取步骤,包括获取健康人群dna测序数据及健康人群中各单个样本dna在人类参考基因组上各个位置的比对数据;

健康人群dna窗口深度统计步骤,包括根据所述健康人群dna数据获取步骤获取的健康人群dna测序数据,统计各单个样本dna在固定窗口区域内的深度,得到每个窗口的深度在健康人群的分布情况,统计获得所有窗口的深度分布情况,即获得所述分布统计模型。

2.根据权利要求1所述的方法,其特征在于:所述数据获取步骤包括以下子步骤,

获取子步骤,包括获取待测样本dna测序数据;

过滤子步骤,包括对所述获取子步骤获取的待测样本dna测序数据进行质检,过滤去除低质量的测序数据;

比对子步骤,包括将经过所述过滤子步骤的测序数据与人类参考基因组比对,获取待测样本dna的测序片段在人类参考基因组中的位置;

优选的,所述数据获取步骤还包括以下子步骤,

去重子步骤,包括根据所述比对子步骤的结果,去除比对到人类参考基因组相同位置的重复的测序片段;

校正子步骤,包括根据所述去重子步骤的结果,重新校正测序数据与人类参考基因组的比对结果;

优选的,所述深度统计步骤,还包括统计待测样本dna在固定窗口区域内深度的负二项分布情况;

优选的,所述异常数据提取步骤中,比对异常的数据序列包括插入片段大小异常的序列数据、比对方向异常的序列数据、序列数据比对到不同位置的序列数据;

优选的,所述拷贝数变异判定步骤中,判断差异是否显著具体包括,提出零假设和备择假设,并以贝叶斯因子为判别条件,当贝叶斯因子小于设定值时,认为备择假设成立而零假设不成立,即判定为差异显著。

3.根据权利要求1或2所述的方法,其特征在于:分布统计模型的构建方法中,所述健康人群dna窗口深度统计步骤,还包括统计健康人群中各单个样本dna在固定窗口区域内深度的负二项分布情况,以此得到健康人群的各窗口的深度分布统计模型;

优选的,分布统计模型的构建方法还包括分布统计模型校正步骤,包括根据所述健康人群dna窗口深度统计步骤获得的分布统计模型,对每个固定窗口的健康人群中各单个样本dna的深度进行评估,舍去明显偏离的位点,并根据没有舍去的位点的窗口深度分布情况,得到校正的分布统计模型;

优选的,所述分布统计模型校正步骤,还包括统计没有舍去的位点的窗口深度的负二项分布情况,以此得到校正的分布统计模型。

4.一种健康人群dna窗口深度分布统计模型的构建方法,其特征在于:包括以下步骤,

健康人群dna数据获取步骤,包括获取健康人群dna测序数据及健康人群中各单个样本dna在人类参考基因组上各个位置的比对数据;

健康人群dna窗口深度统计步骤,包括根据所述健康人群dna数据获取步骤获取的健康人群dna测序数据,统计各单个样本dna在固定窗口区域内的深度,得到每个窗口的深度在健康人群的分布情况,统计完成所有窗口,即获得所述分布统计模型。

5.根据权利要求4所述的构建方法,其特征在于:所述健康人群dna窗口深度统计步骤,还包括统计健康人群中各单个样本dna在固定窗口区域内深度的负二项分布情况,以此得到健康人群的各窗口的深度分布统计模型;

优选的,所述构建方法还包括分布统计模型校正步骤,包括根据所述健康人群dna窗口深度统计步骤获得的分布统计模型,对每个固定窗口的健康人群中各单个样本dna的深度进行评估,舍去明显偏离的位点,并根据没有舍去的位点的窗口深度分布情况,得到校正的分布统计模型;

优选的,所述分布统计模型校正步骤,还包括统计没有舍去的位点的窗口深度的负二项分布情况,以此得到校正的分布统计模型。

6.一种拷贝数变异检测的装置,其特征在于:包括数据获取模块、深度统计模块、异常数据提取模块、窗口深度对比模块、拷贝数变异判定模块和检测结果输出模块;

所述数据获取模块,包括用于获取待测样本dna测序数据及其在人类参考基因组上各个位置的比对数据;

所述深度统计模块,包括用于根据所述数据获取模块获取的待测样本dna测序数据,统计待测样本dna在固定窗口区域内的深度;

所述异常数据提取模块,包括用于根据所述数据获取模块中获取的待测样本dna在人类参考基因组上各个位置的比对数据,提取比对异常的数据序列,作为支持拷贝数变异的第一维度结果;

所述窗口深度对比模块,包括用于根据所述深度统计模块的结果,将所述待测样本dna的窗口深度与统计的健康人群dna窗口深度的分布统计模型进行比较,获得与所述分布统计模型显示出差异的窗口结果;

所述拷贝数变异判定模块,包括用于根据所述窗口深度对比模块的结果,分析与所述分布统计模型显示出差异的窗口,判断其差异是否显著;如果差异显著,且能够得到所述异常数据提取模块中所述第一维度结果的支持,则判断为阳性拷贝数变异;

所述检测结果输出模块,包括用于根据所述拷贝数变异判定模块的判断结果,输出待测样本dna的所有阳性拷贝数变异。

7.根据权利要求6所述的装置,其特征在于:所述数据获取模块包括以下子模块,

获取子模块,包括用于获取待测样本dna测序数据;

过滤子模块,包括用于对所述获取子模块获取的待测样本dna测序数据进行质检,过滤去除低质量的测序数据;

比对子模块,包括用于将经过所述过滤子模块的测序数据与人类参考基因组比对,获取待测样本dna的测序片段在人类参考基因组中的位置;

优选的,所述数据获取模块还包括以下子模块,

去重子模块,包括用于根据所述比对子模块的结果,去除比对到人类参考基因组相同位置的重复的测序片段;

校正子模块,包括用于根据所述去重子模块的结果,重新校正测序数据与人类参考基因组的比对结果;

优选的,所述深度统计模块,还包括用于统计待测样本dna在固定窗口区域内深度的负二项分布情况;

优选的,所述异常数据提取模块中,比对异常的数据序列包括插入片段大小异常的序列数据、比对方向异常的序列数据、序列数据比对到不同位置的序列数据;

优选的,所述拷贝数变异判定模块中,判断差异是否显著具体包括,提出零假设和备择假设,并以贝叶斯因子为判别条件,当贝叶斯因子小于设定值时,认为备择假设成立而零假设不成立,即判定为差异显著;

优选的,所述装置还包括分布统计模型构建模块,所述分布统计模型构建模块包括健康人群dna数据获取子模块和健康人群dna窗口深度统计子模块;

所述健康人群dna数据获取子模块,包括用于获取健康人群dna测序数据及健康人群中各单个样本dna在人类参考基因组上各个位置的比对数据;

健康人群dna窗口深度统计子模块,包括用于根据所述健康人群dna数据获取子模块获取的健康人群dna测序数据,统计各单个样本dna在固定窗口区域内的深度,得到每个窗口的深度在健康人群的分布情况,统计完成所有窗口,即获得所述分布统计模型;

优选的,所述健康人群dna窗口深度统计子模块,还包括用于统计健康人群中各单个样本dna在固定窗口区域内深度的负二项分布情况,以此得到健康人群的各窗口的深度分布统计模型;

优选的,所述分布统计模型构建模块还包括分布统计模型校正子模块,分布统计模型校正子模块包括用于根据所述健康人群dna窗口深度统计子模块获得的分布统计模型,对每个固定窗口的健康人群中各单个样本dna的深度进行评估,舍去明显偏离的位点,并根据没有舍去的位点的窗口深度分布情况,得到校正的分布统计模型;

优选的,所述分布统计模型校正子模块,还包括用于统计没有舍去的位点的窗口深度的负二项分布情况,以此得到校正的分布统计模型。

8.一种健康人群dna窗口深度分布统计模型的构建装置,其特征在于:包括健康人群dna数据获取模块和健康人群dna窗口深度统计模块,

所述健康人群dna数据获取模块,包括用于获取健康人群dna测序数据及健康人群中各单个样本dna在人类参考基因组上各个位置的比对数据;

所述健康人群dna窗口深度统计模块,包括用于根据所述健康人群dna数据获取模块获取的健康人群dna测序数据,统计各单个样本dna在固定窗口区域内的深度,得到每个窗口的深度在健康人群的分布情况,统计完成所有窗口,即获得所述分布统计模型;

优选的,所述健康人群dna窗口深度统计模块,还包括用于统计健康人群中各单个样本dna在固定窗口区域内深度的负二项分布情况,以此得到健康人群的各窗口的深度分布统计模型;

优选的,所述构建装置还包括分布统计模型校正模块,分布统计模型校正模块包括用于根据所述健康人群dna窗口深度统计模块获得的分布统计模型,对每个固定窗口的健康人群中各单个样本dna的深度进行评估,舍去明显偏离的位点,并根据没有舍去的位点的窗口深度分布情况,得到校正的分布统计模型;

优选的,所述分布统计模型校正模块,还包括用于统计没有舍去的位点的窗口深度的负二项分布情况,以此得到校正的分布统计模型。

9.一种用于拷贝数变异检测的装置,其特征在于:包括存储器和处理器:

所述存储器,用于存储程序;

所述处理器,用于通过执行所述存储器存储的程序以实现权利要求1-3任一项所述的检测拷贝数变异的方法或权利要求4或5所述的健康人群dna窗口深度分布统计模型的构建方法。

10.一种计算机可读存储介质,其特征在于:包括健康人群dna窗口深度分布统计模型和/或程序,所述程序能够被处理器执行以实现实现权利要求1-3任一项所述的检测拷贝数变异的方法或权利要求4或5所述的健康人群dna窗口深度分布统计模型的构建方法。


技术总结
本申请公开了一种检测拷贝数变异的方法、装置和存储介质。本申请检测方法包括,获取待测样本DNA测序数据及其在人类参考基因组上各位置比对数据的步骤;统计待测样本DNA在固定窗口区域内深度的步骤;提取比对异常的数据序列,作为支持拷贝数变异第一维度结果的步骤;提取待测样本DNA窗口深度与分布统计模型显示出差异的窗口的步骤;判断差异窗口差异是否显著,能否得到第一维度结果支持的步骤;以及检测结果输出步骤。本申请检测方法,通过对健康人群DNA的分布统计模型,能准确区分真假拷贝数变异,结合另一维度结果,从不同角度确保拷贝数变异检测结果准确性。本申请检测方法,无需亲缘对照样本,能对单个样本进行拷贝数变异检测。

技术研发人员:陈玥茏;刘永初;李阳;刘阳;吕佩涛
受保护的技术使用者:安吉康尔(深圳)科技有限公司
技术研发日:2020.03.17
技术公布日:2020.06.26
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1