1.一种确定待测样本的smn1基因是否存在七号外显子缺失的方法,其特征在于,包括:
(1)对来自于总样本集的多个核酸样本分别进行测序,所述总样本集包括待测试样本和至少一个控制样本,所述多个核酸样本均含有smn编码基因和至少一个控制基因,所述smn编码基因包括:
smn1七号外显子编码序列;
smn2七号外显子编码序列;
smn1七号外显子左侧和右侧毗邻区编码序列;和
smn2七号外显子左侧和右侧毗邻区编码序列
(2)针对所述总样本集中的每一个样本,基于步骤(1)的测序结果,选择来源于所述smn编码基因和所述至少一个控制基因的测序读段;
(3)针对所述待测试样本,确定smn1七号外显子参数,所述smn1七号外显子参数与来源于所述smn1七号外显子编码序列的测序读段数目呈正相关;
(4)针对所述待测试样本,基于所述至少一个控制样本中所述至少一个控制基因的测序读段,对所述smn1七号外显子参数进行矫正;
(5)基于经过矫正的所述smn1七号外显子参数,预测来源于所述smn编码基因的测序读段归属于smn1七号外显子编码序列的概率;以及
(6)基于所述概率,确定所述待测样本的smn1基因是否存在七号外显子缺失。
2.根据权利要求1所述的方法,其特征在于,
所述smn1七号外显子编码序列包含第一突变位点,所述第一突变位点位于chr5:70247773,
所述smn1七号外显子左侧毗邻区编码序列包括第二突变位点,所述第二突变位于chr5:70247724;
所述smn1七号外显子右侧毗邻区编码序列包括第三突变位点,所述第三突变位于chr5:70247921;
所述smn2七号外显子编码序列包含第四突变位点,所述第四突变位点位于chr5:69372353;
所述smn2七号外显子左侧毗邻区编码序列包括第五突变位点,所述第五突变位于chr5:69372304;以及
所述smn2七号外显子右侧毗邻区编码序列包括第六突变位点,所述第六突变位于chr5:69372501。
3.根据权利要求2所述的方法,其特征在于,在步骤(3)中,针对所述待测样本,所述smn1七号外显子参数是通过下列步骤确定的:
(3-1)基于所述待测样本的测序结果,分别确定携带所述第一至第六突变位点的所述测序读段的数目;
(3-2)基于步骤(3-1)中所得到的所述第一至第六突变位点的所述测序读段的数目,确定第一至第三比例,其中,
所述第一比例y=b/b,其中,b表示携带所述第一突变位点的所述测序读段的数目,b表示来自于携带所述第一或第四突变位点的所述测序读段的数目,
所述第二比例x=a/a,其中,a表示携带所述第二突变位点的所述测序读段的数目,a表示来自于携带所述第二或第五突变位点的所述测序读段的数目,和
所述第三比例x=m/m,其中,m表示携带所述第三突变位点的所述测序读段的数目,m表示来自于携带所述第三或第六突变位点的所述测序读段的数目;
(3-3)基于所述第一至第三比例,按照下列公式,确定参数r和r,其中,r构成所述smn1七号外显子参数:
当所述第一比例与所述第二比例的差异绝对值以及所述第一比例和所述第三比例的差异绝对值至少之一超过0.1时,r=b,r=b;
当所述第一比例与所述第二比例的差异绝对值以及所述第一比例和所述第三比例的差异绝对值均不超过0.1时,r=a+b+m,r=a+b+m。
4.根据权利要求3所述的方法,其特征在于,进一步包括:
(3-4)基于所述参数r,确定所述待测样本是否合格。
5.根据权利要求4所述的方法,其特征在于,所述参数r小于200,是所述待测样本不合格的指示。
6.根据权利要求3所述的方法,其特征在于,进一步包括:
(3-5a)基于所述参数r和r,确定第四比例q,其中所述第四比例q=r/r;
(3-5b)判断所述控制样本是否合格,其中,所述第四比例q在0.43~0.57范围内是所述控制样本合格的指示;或者
基于所述第四比例q在0.43~0.57范围内,初步确定所述待测样本的smn1基因不存在七号外显子缺失。
7.根据权利要求1或6所述的方法,其特征在于,所述至少一个控制基因是通过下列步骤确定的:
(a)基于所述至少一个控制样本的测序结果,选择多个候选基因,所述多个候选基因在至少一部分所述控制样本中的测序深度高于预定阈值;
(b)针对所述多个候选基因的每一个,分别在所述至少一个控制样本的每一个中,计算第五比例zk,i=si/hk,i,其中,k表示候选基因编号,i表示所述样本的编号,si表示第i号样本中smn基因的测序深度,hk,j表示在所述第i号样本中第k号候选基因的测序深度;以及
(c)基于所述第五比例,确定所述至少一个控制基因。
8.根据权利要求7所述的方法,其特征在于,在步骤(c)中,所述控制基因满足下列标准的至少之一:
(c-1)在所述至少一个控制样本之间,所述控制基因的测序深度的变异系数是最小的前10位;和
(c-2)在所述至少一个控制样本之间,所述第五比例的变异系数是最小的前10位。
9.根据权利要求7所述的方法,其特征在于,所述预定阈值是通过如下方式确定的:
基于所述至少一个控制样本的测序结果,所述样本全部基因的至少一部分的测序深度按照从小到大的顺序进行排列;以及
基于所述排列结果,确定所述预定阈值,所述阈值为不小于处于5%位置的基因所对应的测序深度;
任选地,所述阈值为处于5%位置的基因所对应的测序深度。
10.根据权利要求9所述的方法,其特征在于,
在所述至少一个控制样本的至少90%中,所述候选基因的测序深度大于所述预定阈值。
11.根据权利要求7所述的方法,其特征在于,在步骤(4)中,所述矫正是通过所述smn1七号外显子参数乘以矫正系数进行的,其中,所述矫正系数是通过下列公式确定的:
其中,zk表示在所述待测样本中smn基因的测序深度与所述第k编号基因的测序深度的比例,
k表示所述控制基因集中的所述控制基因的总数目,
12.根据权利要求11所述的方法,其特征在于,
n表示控制样本基因中样本的总数,i表示样本编号,k表示基因编号。
13.根据权利要求11所述的方法,其特征在于,当通过公式
14.根据权利要求1所述的方法,其特征在于,在步骤(5)中,经过矫正的smn1的七号外显子参数所对应的七号外显子编码序列的测序读段数服从二项分布,应用贝叶斯模型计算来源于所述smn编码基因的测序读段归属于smn1七号外显子编码序列的概率pi。
15.根据权利要求14所述的方法,其特征在于,在步骤(6)中,基于所述pi的95%置信区间[a’,b’],确定所述待测样本的smn1基因是否存在七号外显子缺失,
其中,a’>0.38是所述待测样本的smn1基因不存在七号外显子缺失的指示,
b’<0.38,是所述待测样本的smn1基因存在七号外显子缺失的指示;
a’<=0.38且0.38<=b’,是无法判断待测样本是否存在七号外显子缺失。
16.根据权利要求15所述的方法,其特征在于,所述待测样本的smn1基因存在七号外显子缺失,进一步包括通过公式
其中,c1,i或c2,i不大于0.1,是smn1基因或smn2基因拷贝数是0的指示,
c1,i或c2,i大于0.1但小于0.5,是smn1基因或smn2基因拷贝数在0~1之间的指示,
c1,i或c2,i不小于0.5但小于1.485,是smn1基因或smn2基因拷贝数是1的指示,
c1,i或c2,i不小于1.485但小于2.324,是smn1基因或smn2基因拷贝数是2的指示,
c1,i或c2,i不小于2.324但小于2.743,是smn1基因或smn2基因拷贝数在2~3之间的指示,
c1,i或c2,i不小于2.743,是smn1基因或smn2基因拷贝数不低于3的指示。
17.根据权利要求16所述的方法,其特征在于,
smn1基因拷贝数是0是smn1基因7号外显子纯合缺失的指示;
smn1基因拷贝数不小于1是smn1基因7号外显子杂合缺失的指示;
smn1基因拷贝数在0~1之间是smn1基因7号外显子灰区缺失的指示。
18.一种确定待测样本的smn1基因是否存在七号外显子缺失的系统,其特征在于,包括:
测序装置,所述测序装置用于对来自于总样本集的多个核酸样本分别进行测序,所述总样本集包括待测试样本和至少一个控制样本,所述多个核酸样本均含有smn编码基因和至少一个控制基因,所述smn编码基因包括:
smn1七号外显子编码序列;
smn2七号外显子编码序列;
smn1七号外显子左侧和右侧毗邻区编码序列;和
smn2七号外显子左侧和右侧毗邻区编码序列;
选择smn编码基因和控制基因的装置,所述选择smn编码基因和控制基因的装置与所述测序装置相连,用于针对所述总样本集中的每一个样本,基于所述测序装置的测序结果,选择来源于所述smn编码基因和所述至少一个控制基因的测序读段;
确定smn1七号外显子参数装置,所确定smn1七号外显子参数装置与所述选择smn编码基因和控制基因的装置相连,用于述针对所述待测试样本,确定smn1七号外显子参数,所述smn1七号外显子参数与来源于所述smn1七号外显子编码序列的测序读段数目呈正相关;
矫正装置,所述矫正装置与所述确定smn1七号外显子参数装置相连,用于针对所述待测试样本,基于所述至少一个控制样本中所述至少一个控制基因的测序读段,对所述smn1七号外显子参数进行矫正;
预测归属装置,所述预测归属装置与所述矫正装置相连,用于基于经过矫正的所述smn1七号外显子参数,预测来源于所述smn编码基因的测序读段归属于smn1七号外显子编码序列的概率;以及
确定装置,所述确定装置与所述预测归属装置相连,用于基于所述概率,确定所述待测样本的smn1基因是否存在七号外显子缺失。
19.根据权利要求18所述的系统,其特征在于,
所述smn1七号外显子编码序列包含第一突变位点,所述第一突变位点位于chr5:70247773,
所述smn1七号外显子左侧毗邻区编码序列包括第二突变位点,所述第二突变位于chr5:70247724;
所述smn1七号外显子右侧毗邻区编码序列包括第三突变位点,所述第三突变位于chr5:70247921;
所述smn2七号外显子编码序列包含第四突变位点,所述第四突变位点位于chr5:69372353;
所述smn2七号外显子左侧毗邻区编码序列包括第五突变位点,所述第五突变位于chr5:69372304;以及
所述smn2七号外显子右侧毗邻区编码序列包括第六突变位点,所述第六突变位于chr5:69372501。
20.根据权利要求19所述的系统,其特征在于,所述确定smn1七号外显子参数装置适于执行以下操作:
(3-1)基于所述待测样本的测序结果,分别确定携带所述第一至第六突变位点的所述测序读段的数目;
(3-2)基于步骤(3-1)中所得到的所述第一至第六突变位点的所述测序读段的数目,确定第一至第三比例,其中,
所述第一比例y=b/b,其中,b表示携带所述第一突变位点的所述测序读段的数目,b表示来自于携带所述第一或第四突变位点的所述测序读段的数目,
所述第二比例x=a/a,其中,a表示携带所述第二突变位点的所述测序读段的数目,a表示来自于携带所述第二或第五突变位点的所述测序读段的数目,和
所述第三比例x=m/m,其中,m表示携带所述第三突变位点的所述测序读段的数目,m表示来自于携带所述第三或第六突变位点的所述测序读段的数目;
(3-3)基于所述第一至第三比例,按照下列公式,确定参数r和r,其中,r构成所述smn1七号外显子参数:
当所述第一比例与所述第二比例的差异绝对值以及所述第一比例和所述第三比例的差异绝对值至少之一超过0.1时,r=b,r=b;
当所述第一比例与所述第二比例的差异绝对值以及所述第一比例和所述第三比例的差异绝对值均不超过0.1时,r=a+b+m,r=a+b+m。
21.根据权利要求20所述的系统,其特征在于,所述确定smn1七号外显子参数装置进一步适于执行以下操作:
(3-4)基于所述参数r,确定所述待测样本是否合格。
22.根据权利要求21所述的系统,其特征在于,所述参数r小于200,是所述待测样本不合格的指示。
23.根据权利要求22所述的系统,其特征在于,所述确定smn1七号外显子参数装置进一步适于执行以下操作:
(3-5a)基于所述参数r和r,确定第四比例q,其中所述第四比例q=r/r;
(3-5b)判断所述控制样本是否合格,其中,所述第四比例q在0.43~0.57范围内是所述控制样本合格的指示;或者
基于所述第四比例q在0.43~0.57范围内,初步确定所述待测样本的smn1基因不存在七号外显子缺失。
24.根据权利要求18或23所述的系统,其特征在于,所述至少一个控制基因是通过下列步骤确定的:
(a)基于所述至少一个控制样本的测序结果,选择多个候选基因,所述多个候选基因在至少一部分所述控制样本中的测序深度高于预定阈值;
(b)针对所述多个候选基因的每一个,分别在所述至少一个控制样本的每一个中,计算第五比例zk,i=si/hk,i,其中,k表示候选基因编号,i表示所述样本的编号,si表示第i号样本中smn基因的测序深度,hk,j表示在所述第i号样本中第k号候选基因的测序深度;以及
(c)基于所述第五比例,确定所述至少一个控制基因。
25.根据权利要求24所述的系统,其特征在于,在步骤(c)中,所述控制基因满足下列标准的至少之一:
(c-1)在所述至少一个控制样本之间,所述控制基因的测序深度的变异系数是最小的前10位;和
(c-2)在所述至少一个控制样本之间,所述第五比例的变异系数是最小的前10位。
26.根据权利要求24所述的系统,其特征在于,所述预定阈值是通过如下方式确定的:
基于所述至少一个控制样本的测序结果,所述样本全部基因的至少一部分的测序深度按照从小到大的顺序进行排列;以及
基于所述排列结果,确定所述预定阈值,所述阈值为不小于处于5%位置的基因所对应的测序深度;
任选地,所述阈值为处于5%位置的基因所对应的测序深度。
27.根据权利要求26所述的系统,其特征在于,在所述至少一个控制样本的至少90%中,所述候选基因的测序深度大于所述预定阈值。
28.根据权利要求24所述的系统,其特征在于,所述矫正装置适于执行以下操作,所述矫正通过所述smn1七号外显子参数乘以矫正系数进行,其中,所述矫正系数是通过下列公式确定的:
其中,
zk表示在所述待测样本中smn基因的测序深度与所述第k编号基因的测序深度的比例,
k表示所述控制基因集中的所述控制基因的总数目,
29.根据权利要求28所述的系统,其特征在于,
n表示控制样本基因中样本的总数,i表示样本编号,k表示基因编号。
30.根据权利要求28所述的系统,其特征在于,当通过公式
31.根据权利要求18所述的系统,其特征在于,所述预测归属装置适于执行以下操作:经过矫正的smn1的七号外显子参数所对应的七号外显子编码序列的测序读段数服从二项分布,应用贝叶斯模型计算来源于所述smn编码基因的测序读段归属于smn1七号外显子编码序列的概率pi。
32.根据权利要求31所述的系统,其特征在于,所述确定装置适于执行以下操作:
基于所述pi的95%置信区间[a’,b’],确定所述待测样本的smn1基因是否存在七号外显子缺失,
其中,a’>0.38是所述待测样本的smn1基因不存在七号外显子缺失的指示,
b’<0.38是所述待测样本的smn1基因存在七号外显子缺失的指示;
a’<=0.38且0.38<=b’是无法判断待测样本是否存在七号外显子缺失。
33.根据权利要求18所述的系统,其特征在于,所述系统进一步包括确定smn1基因的拷贝数装置,所述确定smn1基因的拷贝数装置与所述确定装置相连,所述确定smn1基因的拷贝数装置适于执行以下操作:
当所述待测样本的smn1基因存在七号外显子缺失时,
通过公式
其中,c1,i或c2,i不大于0.1,是smn1基因或smn2基因拷贝数是0的指示,
c1,i或c2,i大于0.1但小于0.5,是smn1基因或smn2基因拷贝数在0~1之间的指示,
c1,i或c2,i不小于0.5但小于1.485,是smn1基因或smn2基因拷贝数是1的指示,
c1,i或c2,i不小于1.485但小于2.324,是smn1基因或smn2基因拷贝数是2的指示,
c1,i或c2,i不小于2.324但小于2.743,是smn1基因或smn2基因拷贝数在2~3之间的指示,
c1,i或c2,i不小于2.743,是smn1基因或smn2基因拷贝数不低于3的指示。
34.根据权利要求33所述的系统,其特征在于,
smn1基因拷贝数是0是smn1基因7号外显子纯合缺失的指示;
smn1基因拷贝数不小于1是smn1基因7号外显子杂合缺失的指示;
smn1基因拷贝数在0~1之间是smn1基因7号外显子灰区缺失的指示。