1.一种检测拷贝数变异的方法,其特征在于:包括以下步骤,
数据获取步骤,包括获取待测样本dna测序数据及其在人类参考基因组上各个位置的比对数据;
深度统计步骤,包括根据所述数据获取步骤获取的待测样本dna测序数据,统计待测样本dna在固定窗口区域内的深度;
异常数据提取步骤,包括根据所述数据获取步骤中获取的待测样本dna在人类参考基因组上各个位置的比对数据,提取比对异常的数据序列,作为支持拷贝数变异的第一维度结果;
窗口深度对比步骤,包括根据所述深度统计步骤的结果,将所述待测样本dna的窗口深度与统计的健康人群dna窗口深度的分布统计模型进行比较,获得与所述分布统计模型显示出差异的窗口结果;
拷贝数变异判定步骤,包括根据所述窗口深度对比步骤的结果,分析与所述分布统计模型显示出差异的窗口,判断其差异是否显著;如果差异显著,且能够得到所述异常数据提取步骤中所述第一维度结果的支持,则判断为阳性拷贝数变异;
检测结果输出步骤,包括根据所述拷贝数变异判定步骤的判断结果,输出待测样本dna的所有阳性拷贝数变异;
所述健康人群dna窗口深度的分布统计模型采用以下方法构建,
健康人群dna数据获取步骤,包括获取健康人群dna测序数据及健康人群中各单个样本dna在人类参考基因组上各个位置的比对数据;
健康人群dna窗口深度统计步骤,包括根据所述健康人群dna数据获取步骤获取的健康人群dna测序数据,统计各单个样本dna在固定窗口区域内的深度,得到每个窗口的深度在健康人群的分布情况,统计获得所有窗口的深度分布情况,即获得所述分布统计模型。
2.根据权利要求1所述的方法,其特征在于:所述数据获取步骤包括以下子步骤,
获取子步骤,包括获取待测样本dna测序数据;
过滤子步骤,包括对所述获取子步骤获取的待测样本dna测序数据进行质检,过滤去除低质量的测序数据;
比对子步骤,包括将经过所述过滤子步骤的测序数据与人类参考基因组比对,获取待测样本dna的测序片段在人类参考基因组中的位置;
优选的,所述数据获取步骤还包括以下子步骤,
去重子步骤,包括根据所述比对子步骤的结果,去除比对到人类参考基因组相同位置的重复的测序片段;
校正子步骤,包括根据所述去重子步骤的结果,重新校正测序数据与人类参考基因组的比对结果;
优选的,所述深度统计步骤,还包括统计待测样本dna在固定窗口区域内深度的负二项分布情况;
优选的,所述异常数据提取步骤中,比对异常的数据序列包括插入片段大小异常的序列数据、比对方向异常的序列数据、序列数据比对到不同位置的序列数据;
优选的,所述拷贝数变异判定步骤中,判断差异是否显著具体包括,提出零假设和备择假设,并以贝叶斯因子为判别条件,当贝叶斯因子小于设定值时,认为备择假设成立而零假设不成立,即判定为差异显著。
3.根据权利要求1或2所述的方法,其特征在于:分布统计模型的构建方法中,所述健康人群dna窗口深度统计步骤,还包括统计健康人群中各单个样本dna在固定窗口区域内深度的负二项分布情况,以此得到健康人群的各窗口的深度分布统计模型;
优选的,分布统计模型的构建方法还包括分布统计模型校正步骤,包括根据所述健康人群dna窗口深度统计步骤获得的分布统计模型,对每个固定窗口的健康人群中各单个样本dna的深度进行评估,舍去明显偏离的位点,并根据没有舍去的位点的窗口深度分布情况,得到校正的分布统计模型;
优选的,所述分布统计模型校正步骤,还包括统计没有舍去的位点的窗口深度的负二项分布情况,以此得到校正的分布统计模型。
4.一种健康人群dna窗口深度分布统计模型的构建方法,其特征在于:包括以下步骤,
健康人群dna数据获取步骤,包括获取健康人群dna测序数据及健康人群中各单个样本dna在人类参考基因组上各个位置的比对数据;
健康人群dna窗口深度统计步骤,包括根据所述健康人群dna数据获取步骤获取的健康人群dna测序数据,统计各单个样本dna在固定窗口区域内的深度,得到每个窗口的深度在健康人群的分布情况,统计完成所有窗口,即获得所述分布统计模型。
5.根据权利要求4所述的构建方法,其特征在于:所述健康人群dna窗口深度统计步骤,还包括统计健康人群中各单个样本dna在固定窗口区域内深度的负二项分布情况,以此得到健康人群的各窗口的深度分布统计模型;
优选的,所述构建方法还包括分布统计模型校正步骤,包括根据所述健康人群dna窗口深度统计步骤获得的分布统计模型,对每个固定窗口的健康人群中各单个样本dna的深度进行评估,舍去明显偏离的位点,并根据没有舍去的位点的窗口深度分布情况,得到校正的分布统计模型;
优选的,所述分布统计模型校正步骤,还包括统计没有舍去的位点的窗口深度的负二项分布情况,以此得到校正的分布统计模型。
6.一种拷贝数变异检测的装置,其特征在于:包括数据获取模块、深度统计模块、异常数据提取模块、窗口深度对比模块、拷贝数变异判定模块和检测结果输出模块;
所述数据获取模块,包括用于获取待测样本dna测序数据及其在人类参考基因组上各个位置的比对数据;
所述深度统计模块,包括用于根据所述数据获取模块获取的待测样本dna测序数据,统计待测样本dna在固定窗口区域内的深度;
所述异常数据提取模块,包括用于根据所述数据获取模块中获取的待测样本dna在人类参考基因组上各个位置的比对数据,提取比对异常的数据序列,作为支持拷贝数变异的第一维度结果;
所述窗口深度对比模块,包括用于根据所述深度统计模块的结果,将所述待测样本dna的窗口深度与统计的健康人群dna窗口深度的分布统计模型进行比较,获得与所述分布统计模型显示出差异的窗口结果;
所述拷贝数变异判定模块,包括用于根据所述窗口深度对比模块的结果,分析与所述分布统计模型显示出差异的窗口,判断其差异是否显著;如果差异显著,且能够得到所述异常数据提取模块中所述第一维度结果的支持,则判断为阳性拷贝数变异;
所述检测结果输出模块,包括用于根据所述拷贝数变异判定模块的判断结果,输出待测样本dna的所有阳性拷贝数变异。
7.根据权利要求6所述的装置,其特征在于:所述数据获取模块包括以下子模块,
获取子模块,包括用于获取待测样本dna测序数据;
过滤子模块,包括用于对所述获取子模块获取的待测样本dna测序数据进行质检,过滤去除低质量的测序数据;
比对子模块,包括用于将经过所述过滤子模块的测序数据与人类参考基因组比对,获取待测样本dna的测序片段在人类参考基因组中的位置;
优选的,所述数据获取模块还包括以下子模块,
去重子模块,包括用于根据所述比对子模块的结果,去除比对到人类参考基因组相同位置的重复的测序片段;
校正子模块,包括用于根据所述去重子模块的结果,重新校正测序数据与人类参考基因组的比对结果;
优选的,所述深度统计模块,还包括用于统计待测样本dna在固定窗口区域内深度的负二项分布情况;
优选的,所述异常数据提取模块中,比对异常的数据序列包括插入片段大小异常的序列数据、比对方向异常的序列数据、序列数据比对到不同位置的序列数据;
优选的,所述拷贝数变异判定模块中,判断差异是否显著具体包括,提出零假设和备择假设,并以贝叶斯因子为判别条件,当贝叶斯因子小于设定值时,认为备择假设成立而零假设不成立,即判定为差异显著;
优选的,所述装置还包括分布统计模型构建模块,所述分布统计模型构建模块包括健康人群dna数据获取子模块和健康人群dna窗口深度统计子模块;
所述健康人群dna数据获取子模块,包括用于获取健康人群dna测序数据及健康人群中各单个样本dna在人类参考基因组上各个位置的比对数据;
健康人群dna窗口深度统计子模块,包括用于根据所述健康人群dna数据获取子模块获取的健康人群dna测序数据,统计各单个样本dna在固定窗口区域内的深度,得到每个窗口的深度在健康人群的分布情况,统计完成所有窗口,即获得所述分布统计模型;
优选的,所述健康人群dna窗口深度统计子模块,还包括用于统计健康人群中各单个样本dna在固定窗口区域内深度的负二项分布情况,以此得到健康人群的各窗口的深度分布统计模型;
优选的,所述分布统计模型构建模块还包括分布统计模型校正子模块,分布统计模型校正子模块包括用于根据所述健康人群dna窗口深度统计子模块获得的分布统计模型,对每个固定窗口的健康人群中各单个样本dna的深度进行评估,舍去明显偏离的位点,并根据没有舍去的位点的窗口深度分布情况,得到校正的分布统计模型;
优选的,所述分布统计模型校正子模块,还包括用于统计没有舍去的位点的窗口深度的负二项分布情况,以此得到校正的分布统计模型。
8.一种健康人群dna窗口深度分布统计模型的构建装置,其特征在于:包括健康人群dna数据获取模块和健康人群dna窗口深度统计模块,
所述健康人群dna数据获取模块,包括用于获取健康人群dna测序数据及健康人群中各单个样本dna在人类参考基因组上各个位置的比对数据;
所述健康人群dna窗口深度统计模块,包括用于根据所述健康人群dna数据获取模块获取的健康人群dna测序数据,统计各单个样本dna在固定窗口区域内的深度,得到每个窗口的深度在健康人群的分布情况,统计完成所有窗口,即获得所述分布统计模型;
优选的,所述健康人群dna窗口深度统计模块,还包括用于统计健康人群中各单个样本dna在固定窗口区域内深度的负二项分布情况,以此得到健康人群的各窗口的深度分布统计模型;
优选的,所述构建装置还包括分布统计模型校正模块,分布统计模型校正模块包括用于根据所述健康人群dna窗口深度统计模块获得的分布统计模型,对每个固定窗口的健康人群中各单个样本dna的深度进行评估,舍去明显偏离的位点,并根据没有舍去的位点的窗口深度分布情况,得到校正的分布统计模型;
优选的,所述分布统计模型校正模块,还包括用于统计没有舍去的位点的窗口深度的负二项分布情况,以此得到校正的分布统计模型。
9.一种用于拷贝数变异检测的装置,其特征在于:包括存储器和处理器:
所述存储器,用于存储程序;
所述处理器,用于通过执行所述存储器存储的程序以实现权利要求1-3任一项所述的检测拷贝数变异的方法或权利要求4或5所述的健康人群dna窗口深度分布统计模型的构建方法。
10.一种计算机可读存储介质,其特征在于:包括健康人群dna窗口深度分布统计模型和/或程序,所述程序能够被处理器执行以实现实现权利要求1-3任一项所述的检测拷贝数变异的方法或权利要求4或5所述的健康人群dna窗口深度分布统计模型的构建方法。