一种高通量测序数据前期处理方法
【技术领域】
[0001]本发明属于分子生物信息检测领域,具体涉及一种高通量测序数据前期处理方法及装置。
【背景技术】
[0002]高通量测序技术又称“下一代”测序技术,以能一次并行对几十万到几百万条DNA分子进行序列测定和一般读长较短等为标志,应用到实际的样本基因检测中,单次实验通量非常大。这一测序技术极大地节约了检测成本,但同时也增加了实验中操作失误的风险。尤其是当第一步提取DNA就搞混样本的情况下,会导致大量样本与实验错误匹配,而在实验过程中几乎不可能检查出这类错误。若科研机构使用错误的测序信息进行进一步的实验或检测,其很有可能对科研结果起一定的误导作用,浪费科研精力;若医疗检测机构将匹配错误的测序分析结果作为治疗凭据,或将造成医疗纠纷甚至事故。
【发明内容】
[0003]针对现有技术的不足,本发明的目的旨在提供一种高通量测序数据前期处理方法及装置,有效率地排查出大部分样本与测序数据对应错误的问题。
[0004]为实现上述目的,本发明采用如下技术方案:
一种高通量测序数据前期处理方法,包含以下步骤:
51、获取高通量测序数据,通过分析测序数据获得每一检测样本所属受检者的性别信息;
52、将经分析得到的性别信息与相应样本申请单上受检者的性别信息对比,当分析所得的性别信息与相应样本申请单上受检者的性别信息均一致时,继续后续的数据处理;当分析所得的性别信息与相应样本申请单上受检者的性别信息存在差别时,输出数据与样本匹配有误的信息并停止处理数据。
[0005]1.优选地,本发明提供的高通量测序数据前期处理方法通过分析检测样本X染色体上突变频率在30%~70%之间的突变位点的杂合度判断该检测样本所属受检者的性别,分析方法为:
1)统计所有位于X染色体的突变位点总数N;
2)统计位于X染色体上突变频率在30%~70%之间的突变位点总数Nz,则X染色体杂合度为Nz/N ;
3)杂合度高于20%的检测样本判断为女性受检者的样本,杂合度低于20%的检测样本判断为男性受检者的样本。
[0006]—种高通量测序数据前期处理装置,包括数据提取装置和分析对比装置:
数据提取装置,用于获取高通量测序数据;
分析对比装置,用于分析测序数据获得每一检测样本所属受检者的性别信息,并且将分析得到的性别信息与相应样本申请单上受检者的性别信息进行对比。
[0007]本发明的有益效果在于:由于从不同检测样本中提取的DNA并无本质区别,为区分一份数据是否对应申请单中的受检者只能通过性别来判断,虽然搞混的样本可能刚好性别一致就无法区分,但因高通量测序的实验通量较大,搞混的样本全部性别一致的可能性较小,因此本发明通过分析测序数据中每一个样本的性别是否与申请单中受检者的性别信息相匹配,可以发现几乎所有由于实验操作串位导致的样本与测序数据错误对应的问题,另外有50%的可能性发现两两交叉错误对应的问题,从而有效地排查出大部分检测样本与测序数据对应错误的问题,发明人将本发明提供的测序数据前期处理方法应用到实际的数据处理过程中,3月内即发现近20例样本与数据错误对应的问题,其中14例为一次实验操作串位导致的对应错误,其余为两两交叉错误;
女性的突变位点杂合度通常在40%以上(即使考虑近亲结婚及试验误差,杂合度也不会低于20%),而男性的通常在10%以下(即使考虑试验误差,杂合度也不会高于20%),本发明采用此指标区分性别有较高的区分度,并且分析速度快,对于目前高通量测序实验室中最常规的36样本试剂盒只需要几秒钟时间即可得到全部样本的性别信息;本发明提供的高通量测序数据前期处理方法不需实施成本,并且快速、可靠,有助于减少医疗纠纷甚至医疗事故,在高通量测序行业中具备广泛推广的前景。
[0008]
【附图说明】
[0009]图1为一批样本中X染色体突变频率情况的统计图;
图2为1800个样本的X染色体突变频率分布情况图;
图3是本发明一种高通量测序数据前期处理装置的结构框图。
[0010]图4是本发明一种高通量测序数据前期处理方法的流程图;
【具体实施方式】
[0011]下面,结合附图以及【具体实施方式】,对本发明做进一步描述:
实施例1
图1所示为一批检测样本中X染色体突变频率的统计情况,其中第1列为样本的检测序号,第2~6列分别为突变频率介于90%~100%、70%~90%、30%~70%、10%~30%、0~10%的位点的比例(%),第7列为样本性别(F为女性,Μ为男性),显然地,突变频率介于30%~70%之间的位点所占的比例在男女之间有非常显著的差异,此指标可作为区分性别的可靠依据。
[0012]实施例2
图2所示为1800个样本(800女1000男)的X染色体突变频率在30%~70%的突变位点的杂合度分布情况,在1800个检测样本中,可见男女的X染色体突变频率在30%~70%的突变位点的杂合度差异明显,其中女性对应的杂合度均高于20%,男性对应的杂合度均低于20%。
[0013]实施例3
如图3所示,一种高通量测序数据前期处理装置,包括数据提取装置和分析对比装置: 数据提取装置,用于获取高通量测序数据;
分析对比装置,用于分析测序数据获得每一检测样本所属受检者的性别信息,并且将分析得到的性别信息与相应样本申请单上受检者的性别信息进行对比。
[0014]实施例4
如图4所示,一种高通量测序数据前期处理方法,包括以下步骤:
51、获取高通量测序数据后,通过分析检测样本X染色体上突变频率在30%~70%之间的突变位点的杂合度判断该检测样本所属受检者的性别,杂合度高于20%的检测样本判断为女性受检者的样本,杂合度低于20%的检测样本判断为男性受检者的样本;
52、将经分析得到的性别信息与相应样本申请单上受检者的性别信息对比跟根据对比结果进行相应的操作:
a.若出现分析所得的性别信息与相应样本申请单上受检者的性别信息不一致,输出数据与样本匹配有误的信息并停止处理数据;
b.若分析所得的性别信息与相应样本申请单上的性别信息均一致,继续后续的数据处理。
[0015]对本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及形变,而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。
【主权项】
1.一种高通量测序数据前期处理方法,其特征在于,包含以下步骤: 51、获取高通量测序数据,通过分析测序数据获得每一检测样本所属受检者的性别信息; 52、将经分析得到的性别信息与相应样本申请单上受检者的性别信息对比,当分析所得的性别信息与相应样本申请单上受检者的性别信息均一致时,继续后续的数据处理;当分析所得的性别信息与相应样本申请单上受检者的性别信息存在差别时,输出数据与样本匹配有误的信息并停止处理数据。2.如权利要求1所述的高通量测序数据前期处理方法,其特征在于,通过分析检测样本X染色体上突变频率在30%~70%之间的突变位点的杂合度判断该检测样本所属受检者的性别,分析方法为: 1)统计所有位于X染色体的突变位点总数N; 2)统计位于X染色体上突变频率在30%~70%之间的突变位点总数Nz,则X染色体杂合度为Nz/N ; 3)杂合度高于20%的检测样本判断为女性受检者的样本,杂合度低于20%的检测样本判断为男性受检者的样本。3.—种高通量测序数据前期处理装置,其特征在于,包括: 数据提取装置,用于获取高通量测序数据; 分析对比装置,用于分析测序数据获得每一检测样本所属受检者的性别信息,并且将分析得到的性别信息与相应样本申请单上受检者的性别信息进行对比。
【专利摘要】本发明公开了一种高通量测序数据前期处理方法,属于分子生物信息检测领域,步骤包括:S1、获取高通量测序数据,通过分析测序数据获得每一检测样本所属受检者的性别信息;S2、将经分析得到的性别信息与相应样本申请单上受检者的性别信息对比,得出对比结果并根据对比结果进行相应的操作。本发明还公开了一种高通量测序数据前期处理装置。本发明可以有效率地排查出大部分样本与测序数据对应错误的问题,有助于减少医疗纠纷甚至医疗事故,在高通量测序行业中具备广泛推广的前景。
【IPC分类】G06F19/18
【公开号】CN105354442
【申请号】CN201510830815
【发明人】刘晶星
【申请人】广州金域检测科技股份有限公司
【公开日】2016年2月24日
【申请日】2015年11月25日