核酸测序数据的质量评估方法和筛选方法与流程

文档序号:29855175发布日期:2022-04-30 09:08阅读:来源:国知局

技术特征:
1.一种核酸测序数据的质量评估方法,其特征在于,包括:a)对参考核酸样品进行测序,获得一组测序信号s;用相同的测序方法对待测核酸样品进行测序,获得一组测序信号s’;b)对所述测序信号s进行信号校正,获得校正信号c,所述校正信号c可直接转换成碱基序列;c)将转换出的碱基序列比对到参考序列上,得到比对结果,再根据所述比对结果将碱基标记为测序正确或测序错误;d)对所述测序正确或测序错误的碱基,比较其在测序信号s和校正序列c中对应部分的信号差异,并建立信号差异和碱基测序准确率之间的联系;e)用与步骤b)相同的校正方式对所述测序信号s’进行信号校正,获得校正信号c’,再将c’转换成碱基序列;f)对转换出的碱基序列中的每个碱基,比较其在s’和c’中对应部分的信号差异,利用步骤d)中建立的信号差异和碱基准确率之间的联系,预测该碱基的测序准确率。2.一种核酸测序数据的筛选方法,其特征在于,包括:a)对待测核酸样品进行测序,获得一组测序信号;b)对所述测序信号进行信号校正,获得校正信号,所述校正信号可直接转换为碱基序列;c)对转换出的碱基序列,比较其在测序信号和校正信号中对应部分的信号差异;d)若测序信号和校正信号之间的所述信号差异大于给定的阈值,则丢弃该测序信号,否则予以保留。3.根据权利要求1所述的方法,其特征在于,所述参考核酸样品所属物种的基因组序列已知;所述参考核酸是dna时,所述参考序列为参考核酸所属物种的基因组序列;所述参考核酸是rna时,所述参考序列为参考核酸所属物种的转录组序列。4.根据权利要求1所述的方法,其特征在于,将转换出的碱基序列比对到参考序列上,得到比对结果,从中进一步筛选出高质量比对的碱基序列,再将所述高质量比对的碱基序列中的碱基标记为测序正确或测序错误。5.根据权利要求1或2所述的方法,其特征在于,所述测序信号是测序仪直接采集到的信号,或者是经过归一化后的信号;相对应地,对测序信号的校正过程,可以是失相校正,所述校正信号是失相校正后的信号。6.根据权利要求1或2所述的方法,其特征在于,在纠错码测序或采用了精准化学读出的solid等测序技术中,所述测序信号可以是失相校正后的信号;相对应地,对测序信号的校正过程,可以是纠错校正过程,所述校正信号是纠错校正后的信号。7.根据权利要求1或2所述的方法,其特征在于,在采用环形一致性测序模式的单分子实时测序中,或利用dna复制、反复多次测序来提高准确度的纳米孔测序技术中,所述测序信号可以是原始序列;相对应地,对测序信号的校正过程,可以是求一致性序列的过程。8.根据权利要求1所述的方法,其特征在于,所述建立信号差异和碱基准确率之间联系的方法,是构建信号差异和碱基准确率之间的对照表。9.根据权利要求1所述的方法,其特征在于,所述建立信号差异和碱基准确率之间联系的方法,是将一个或多个预测器划分成若干个区间,统计每个区间内碱基的准确率及准确
率对应的质量值;评估的方法是计算所测核酸中的每个碱基落入哪个预测器的区间,再将该区间对应的质量值赋给该碱基。10.根据权利要求1所述的方法,其特征在于,所述建立信号差异和碱基准确率之间联系的方法及对应的评估方法,是phred算法。11.根据权利要求1所述的方法,其特征在于,所述建立信号差异和碱基准确率之间联系的方法,是机器学习。12.根据权利要求8-11任一项所述的方法,其特征在于,在使用测序信号s和校正信号c的差异的基础上,利用其他预测器来共同评估碱基质量,所述其他预测器包括但不限于:1)碱基在序列中的位置;2)碱基所处同源多聚物的长度;3)碱基在所处同源多聚物中的位置;4)碱基所处测序信号接近整数的程度;5)碱基所处测序信号的失相程度;6)碱基所处测序信号的衰减程度;7)碱基所处测序信号在校正过程中估计所得的参数,包括单位信号、背景信号、衰减系数、超前系数、滞后系数。13.根据权利要求1所述的方法,其特征在于,在纠错码测序中,在使用测序信号s和校正信号c的差异的基础上,结合碱基所处简并多聚物的长度作为预测器,来共同评估碱基质量。14.根据权利要求1所述的方法,其特征在于,在纠错码测序中,在使用测序信号s和校正信号c的差异的基础上,结合碱基所处简并多聚物中较多的那一种碱基的数目作为预测器,来共同评估碱基质量。15.一种核酸测序数据的质量评估系统,其特征在于,包括:处理器,存储器,以及用于对核酸测序数据进行质量评估的程序,所述程序包括如下指令:a)将参考核酸样品测序获得的测序信号s进行信号校正,获得校正信号c,所述校正信号c可直接转换成碱基序列;b)将转换出的碱基序列比对到参考序列上,得到比对结果,再根据所述比对结果将碱基标记为测序正确或测序错误;c)对所述测序正确或测序错误的碱基,比较其在测序信号s和校正信号c中对应部分的信号差异,并建立信号差异和碱基准确率之间的联系;d)将待测核酸样品测序获得的新的一组测序信号s’用与步骤a)相同的校正方式进行信号校正,获得校正信号c’,再将c’转换为碱基序列;e)对转换出的碱基序列中的每个碱基,比较其在s’和c’中对应部分的信号差异,利用步骤c)中建立的信号差异和碱基准确率之间的联系,预测该碱基的测序准确率。16.根据权利要求2所述的方法,其特征在于,可以比较测序信号和校正信号的局部差异;所述局部差异是指对于编号为i的测序信号s
i
和校正信号c
i
,其前后若干个子信号(s
i-m
,s
i-m+1
,s
i-m+2
,

,s
i+m-1
,s
i+m
)和(c
i-m
,c
i-m+1
,c
i-m+2
,

,c
i+m-1
,c
i+m
)之间的差异,即对每个子信号均可计算一个局部差异,得到一组局部差异;m为小于i的整数;如果所述一组局部差异
中,某个局部差异大于给定的阈值,则在序列中切除局部差异过大的部分,输出截短后的序列;如果截短后的序列的长度小于预设值,可以丢弃该整条序列。17.一种核酸测序数据的筛选系统,其特征在于,包括:处理器,存储器,以及用于对核酸测序数据进行筛选的程序,所述程序包括如下指令:a)将待测核酸样品测序获得的测序信号进行信号校正,获得校正信号,所述校正信号可直接转换为碱基序列;b)对转换出的碱基序列,比较其在测序信号和校正信号中对应部分的信号差异;c)若测序信号和校正信号之间的所述信号差异大于给定的阈值,则丢弃该测序信号,否则予以保留。

技术总结
本发明提供一种核酸测序数据的质量评估方法和筛选方法,利用测序信号和校正后的信号之间的差异,来评估碱基测序质量或者来筛选核酸测序数据,尤其是利用失相校正后的信号和纠错校正后的信号之间的差异,这是首个专门适用于纠错码测序的质量评估方法和筛选方法,本发明的方法还适用于其他测序方法所得测序数据,适用范围广。适用范围广。适用范围广。


技术研发人员:周文雄 黄家蔚 司二玲 陈子天 吴思彧
受保护的技术使用者:赛纳生物科技(北京)有限公司
技术研发日:2022.01.28
技术公布日:2022/4/29
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1