一种校正核酸测序产生的序列信息误差的方法与流程

文档序号:34811202发布日期:2023-07-19 13:00阅读:39来源:国知局
一种校正核酸测序产生的序列信息误差的方法与流程

本发明涉及一种校正核酸测序产生的序列信息误差的方法,属于基因测序领域。


背景技术:

1、在高通量测序中,由于测序反应不完全、杂质引起的副反应、碱基错配等原因,核酸新生链的长度会随着测序反应的进行而逐渐变得不一致,进而导致测序信号强度发生偏差,该现象被称为失相。失相是限制高通量测序的读长和准确度的主要因素。在实践中,为降低失相的影响,一方面可以优化测序的试剂和反应条件以降低失相的程度,另一方面也可以对测序原始信号进行信号处理,以校正失相造成的信号紊乱。

2、专利us8364417b2公开了一种校正失相所造成的信号紊乱的方法,该方法特别适合以单核苷酸添加(single-nucleotide addition,sna)为原理的测序技术。简单地讲,该方法试图通过一组参数来校正测序原始信号。在监督模式下,该参数通过一组已知序列的核酸分子的测序信号估计得到;在非监督模式下,该方法试图找到一组这样的参数,使得校正信号的最小值恰好大于0。

3、专利cn107958138b公开了另一种校正失相所造成信号紊乱的方法,该方法不仅适用于以sna为原理的测序技术,还适用于以纠错码(error-correction code,ecc)测序为原理的测序技术。该方法是监督式的,即需要通过一组已知序列的核酸分子的测序信号来估计失相的程度,然后来校正待测dna的测序信号。然而,该方法需要在测序中添加已知序列的核酸分子,操作繁琐,并且已知序列的核酸分子通常复杂度较低,其所估结果往往具有较强的偏向性。因此,需要开发一种非监督式的校正方法来校正基因测序产生的序列信息误差。


技术实现思路

1、本专利公开一种校正核酸测序产生的序列信息误差的方法,不需要额外添加已知序列的核酸分子,即可校正待测核酸的测序信号。简单来讲,该方法试图找到一组参数,使得在该参数下得到的校正信号尽量接近整数值。

2、一种校正核酸测序产生的序列信息误差的方法,其特征在于,包括:

3、a.对待测核酸进行测序,获得对应于核酸序列的原始信号;

4、b.通过一组参数构造相位失配量,并利用相位失配量推算待测核酸的校正信号;

5、c.优化所述参数,使得校正信号尽可能接近整数;

6、d.输出对应于校正信号的核酸序列;

7、所述参数包括超前系数、滞后系数;

8、所述相位失配量指的是,由于超前和/或滞后导致的测序结果的变化。

9、根据优选的实施方式,所述一组参数还包括单位信号、偏移量、衰减系数等。

10、根据优选的实施方式,所述测序中,每次测序反应中加入的核苷酸底物分子可以是一种或两种或三种或四种。

11、根据优选的实施方式,所述测序,指的是3’端开放的测序过程;测序反应加入的核苷酸种类可以是一种或两种或三种。

12、根据优选的实施方式,在所述测序中,包括两种不同的测序试剂:第一测序试剂和第二测序试剂;两种测序试剂循环加入;其中所述第一测序试剂包含具有可检测标记的至少两种不同的核苷酸单体;所述第二测序试剂包含具有可检测标记的一种或多种核苷酸单体,且所述核苷酸单体不同于所述第一测序试剂中存在的所述核苷酸单体,并且其中所述第二测序试剂是在提供了所述第一测序试剂随后提供的,将所述核苷酸单体掺入待测核酸之后检测所述可检测标记生成的信号。

13、根据优选的实施方式,所述测序中,检测的信号可以是电信号、生物荧光信号、化学荧光信号或者它们的组合。

14、根据优选的实施方式,设校正信号c=(c1,c2,…,cn),所述的“使得校正信号尽可能接近整数”,指的是,使得校正信号的某个目标函数取得最值,所述某个目标函数及其最值包括但不限于:

15、1)使最小化;

16、2)使最小化;

17、3)使最小化

18、4)使max|ci-[ci]|最小化;

19、5)使最小化;

20、6)使最小化;

21、7)使最小化;

22、其中,[ci]是ci的取整,此处的取整是四舍五入,或是向上取整,或是向下取整。在某些实现中,当ci<0时,可以令[ci]取其他有意义的值,例如1。还要满足其他合法性检验,例如强度小于0或大于测量最大合理值。

23、根据优选的实施方式,使校正信号的一部分(而非全部)尽可能接近整数。此处的一部分可以是校正信号的前端若干cycle、尾部若干cycle、中间若干cycle、奇数cycle、偶数cycle等,也可以是校正信号中大于或小于某给定阈值的cycle,此处给定阈值可取1、1.5、2、3等正数。

24、根据优选的实施方式,可以对多条核酸测序信号组成的群体一起进行校正,即群体性校正。

25、根据优选的实施方式,所述的测序中,待测核酸序列上连接有已知序列的碱基,测序的时候,可以通过该已知序列的碱基的信号获得单位信号。

26、根据优选的实施方式,每个采样点的单位信号的是不相同的。

27、根据优选的实施方式,信号归一化和失相校正可以是先后两个步骤,例如:

28、1.利用一组归一化参数,如单位信号、偏移量等,将原始信号f归一化为归一化信号s;该步骤中的归一化参数在后续步骤中不再发生改变;

29、2.利用一组失相参数,如超前、滞后等,将归一化信号s校正为校正信号c;优化该步骤中的失相参数,使得校正信号c尽可能接近整数。

30、根据优选的实施方式,前述“使得校正信号足够接近整数”,指的是,前述校正信号的某个目标函数的最值小于或大于某个给定的阈值,例如目标函数的最小值应当小于阈值0.5n,否则认为该核酸序列的测序信号质量过差。

31、根据优选的实施方式,优化参数的方法,包括但不限于网格搜索法、穷举法、梯度下降法、随机梯度下降法、牛顿法、hessian矩阵法、内点法、顺序二次规划法(sequentialquadratic programming)、有效集法(active set)、可信域法(trust region)、levenberg-marquardt法、启发式搜索等,其中启发式搜索包括但不限于遗传算法、模拟退火算法、蚁群算法、谐和算法、火花算法、粒子群算法、免疫算法、基因表达算法等。这里提到的优化方法均为数学中的常规知识。

32、根据优选的实施方式,(由于c、s、f可以互相可逆推算)信号归一化和失相校正可以以迭代的方式进行,例如:

33、1.利用归一化参数的经验值p0,将原始信号f归一化为归一化信号s0;

34、2.利用失相参数的经验值q0,将归一化信号s0校正为校正信号c0;

35、3.试图找到一组归一化参数p1,使得校正信号c0按照参数p1和q0推算出的理论原始信号f0尽量接近实测的原始信号f;

36、4.试图找到一组失相参数q1,使得原始信号f按照参数p1和q1推算出的校正信号c1尽量接近整数;

37、5.重复步骤3-4,得到一系列的校正信号(c0,c1,c2,…)和理论原始信号(f0,f1,f2,…),直到校正信号收敛。

38、根据优选的实施方式,(由于c、s、f可以互相可逆推算)信号归一化和失相校正可以以迭代的方式进行,例如:

39、1.利用归一化参数的经验值p0,将原始信号f归一化为归一化信号s0;

40、2.利用失相参数的经验值q0,将归一化信号s0校正为校正信号c0;

41、3.试图找到一组失相参数q1,使得原始信号f按照参数p0和q1推算出的校正信号c1尽量接近整数;

42、4.试图找到一组归一化参数p1,使得校正信号c1按照参数p1和q1推算出的理论原始信号f0尽量接近实测的原始信号f;

43、5.重复步骤3-4,得到一系列的校正信号(c0,c1,c2,…)和理论原始信号(f0,f1,f2,…),直到校正信号收敛。

44、根据优选的实施方式,在使得校正信号尽可能接近整数的基础上,进一步优化参数,使得:

45、(a).校正信号c的前后轮之间的相关性最小,举例如下:

46、a)使(c1,c2,…,cn-1)和(c2,c3,…,cn)之间的相关系数最小化;或者,

47、b)使(c1,c2,…,cn-2)和(c3,c4,…,cn)之间的相关系数最小化;

48、前述相关系数包括但不限于皮尔逊相关系数、斯皮尔曼相关系数、余弦距离

49、的相反数、欧氏距离的相反数、曼哈顿距离的相反数等;

50、(b).校正信号的分布尽量接近参考分布,举例如下:

51、a)参考分布为使校正信号的分布与参考分布的kullback-leibler散度最小化;或者,

52、b)参考分布为使校正信号的分布与参考分布的kullback-leibler散度最小化;

53、校正信号的分布可以通过多种方式获得,例如划区间统计或核密度估计。

54、根据优选的实施方式,如果无法找到一组参数,使得校正信号足够接近整数,认为该核酸序列的测序信号质量过差,此时可以作出如下任意一种选择或其组合:

55、1)不输出该核酸序列的校正结果;

56、2)输出提示校正失败的某种结果,如nan、none、null、nil、空值等;

57、3)输出校正结果,同时在日志中报告相关信息;

58、4)输出校正结果,同时给该校正结果打上提示失败的某种标记。

59、根据优选的实施方式,并行执行多个测序反应,对每个测序反应执行步骤a-d。

60、本发明还公开了一种基因测序系统,包括:(a)测序仪,其检测响应于在测序期间引入的多个核苷酸底物而产生的多个信号;(b)包括存储在其上的可执行代码的计算机,利用前面任一项实施方式所述的校正核酸测序产生的序列信息误差的方法获得校正的核酸序列。

61、有益效果

62、本发明的方法是使校正信号尽量接近整数,背景技术提到的us8364417b2的非监督模式是使校正信号的最小值恰好大于0,本发明的方法具有以下优势:

63、1.us8364417b2仅适用于单核苷酸添加(sna)测序,在纠错码(ecc)测序上的效果很有限,本方法在sna测序和ecc测序上均有效。

64、2.cn107958138b是一种监督式方法,而本方法是非监督式的,不依赖于已知序列的核酸分子,操作简便,且偏向性低。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1