一种基因组测序数据序列组装方法

文档序号:8430796阅读:554来源:国知局
一种基因组测序数据序列组装方法
【技术领域】
[0001]本发明涉及基因组序列组装技术,尤其涉及具有近缘参考序列情况下的基因组组装方法。
技术背景
[0002]随着测序技术的不断进步,已经有大量的微生物基因组被完成并提交到数据库。具有工业用途的微生物,其工业用菌株大多是对已有菌株进行不断筛选和改造得到的。因此,这些出发菌株或者近缘菌株的基因组序列可以为基因组组装过程提供一定的指导和借鉴意义。
[0003]为了获取一株工业用菌株的基因组全图,目前常用的分析方案有De novo(从头测序)。De novo是指在没有任何背景信息的基础上使用测序和常规分子生物学实验手段对目的物种基因组进行测序,组装,框架搭建和空白(Gap)填补的技术流程。这一方案在面对较为复杂或者较大的基因组时,会耗费大量时间和成本,但其获得的结果是最为可靠的,可以获得一个物种的质粒、质体、特异性序列和突变结果,进而能够获取一个物种的全部功能序列并分析得到其生理生化能力,重构其生活史。
[0004]目前De novo最常用的是“overlap-layout-consensus”方案,通过序列比对的方法对所有测序所得的读序(又称为read,是指测序得到的一条序列)的边缘序列进行侦测,寻找可能存在的重叠区域。而后,根据这些读序的重叠关系对这些读序进行合并,构成重叠群从而完成组装。
[0005]图1所不为现有技术De novo中“overlap-layout-consensus”算法的不意图。如图1所示,假设在基因组上存在两个高度相似序列REPl和REP2。Readl和Read2分别位于REPl两侧,并且其重叠区域坐落于REPl中,两者重叠区域长度为LI ;Read3和Read4位于REP2两侧,并且其重叠区域位于REP2内,这两者重叠长度为L2,并且L2>L1。
[0006]如果组装程序使用贪婪算法,假设在遍历序列过程中首先遍历到Readl,由于其具有最好重叠关系的序列为Read4,因此,Readl_>Read4这个连接结果被带入到最终结果中,导致组装结果发生错误。因此,只有Read3或者Read4的遍历顺序大于Readl、Read2时,才能得到正确的结果。
[0007]如果组装程序使用图论理论,虽然能够识别出贪婪算法可能导致的错误,但也是有局限性的。假设在读序重叠侦测(overlap)步骤中设定一个参数L,如果两个序列的重叠长度大于L才认为两个序列具有重叠关系,假设L1〈L〈L2 ;那么在读序重叠侦测过程中,由于参数选择的原因,Readl->Read2这个关系就不会被识别到,导致在读序摆放(layout)过程中,如果Readl或者Read2首先被遍历到,由于其只有一种连接方式(Readl_>Read4,Read2->Read3 )被识别到,该部分会被认为是可信的,进而被带入到最终结果中导致组装错误。
[0008]此外,对于长度远超测序读长的重复序列区域,目前常用的组装算法只能将相关的测序片段强行组装形成一个一致性片段。目前公布的其他相关方法虽然可以根据覆盖深度估算重复片段在基因组上的重复次数,却无法准确确定该片段在基因组上的准确摆放位置。

【发明内容】

[0009]本发明实施例提供一种基因组测序数据序列组装方法,可以简便而准确的对测序数据重叠关系集合中的“不确定”连接关系进行确认以及对基因组序列进行准确还原。
[0010]为了达到上述目的,本发明实施例提供的一种基因组测序数据序列组装方法,已知测序数据比对到一参考序列后生成的基于参考序列获得的基因组测序序列的拟定序列遍历路径以及基因组测序数据的重叠关系集合,所述重叠关系集合包括“确定”关系子集和“不确定”关系子集,该方法包括:
[0011]按照拟定序列遍历路径的顺序逐个检查拟定序列遍历路径中的每个节点,根据重叠关系集合的“确定”关系子集和/或“不确定”关系子集中的连接关系来修正拟定序列遍历路径,并更新重叠关系集合;
[0012]基于更新后的拟定序列遍历路径以及重叠关系集合,检查下一个节点,直至最后一个节点;
[0013]其中,当检查某一节点时,所述方法包括:
[0014]如果在重叠关系集合的“确定”关系子集中存在以当前节点出发的“确定”关系,并且所述关系在拟定序列遍历路径中不存在;则将所述关系添加到拟定序列遍历路径中来,并将所述关系从“确定”关系子集中删除。
[0015]其中,当检查某一节点时,所述方法进一步包括:
[0016]在拟定序列遍历路径中以当如节点为出发节点的关系在重置关系集合中存在,则在拟定序列遍历路径中保留当如关系,并将对应连接关系从重置关系集合中删除;和/或
[0017]如果在拟定序列遍历路径中以当前节点为出发点节点的关系在重叠关系集合中不存在,则将所述拟定序列遍历路径从拟定序列遍历路径中删除。
[0018]其中,当检查某一节点时,所述方法进一步包括:
[0019]如果在重叠关系集合的“不确定”关系子集中存在唯一一个以当前节点为出发节点的重叠关系,同时,所述连接关系的终结节点是所述“不确定”关系子集中另一连接关系的起始节点;则将所述“不确定”关系子集中以所述节点为起始节点的连接关系添加到拟定序列遍历路径中,并从所述“不确定”关系子集中删除对应连接关系。
[0020]其中,当检查某一节点时,所述方法进一步包括:
[0021]当在重叠关系集合中不具有所述节点的任何记录,和/或在“不确定”关系子集中不存在唯一以所述节点为起始节点的连接关系,和/或在“不确定”关系子集中存在唯一以所述节点为起始节点的连接关系,但所述连接关系的终结节点不是“不确定”关系子集中另一连接关系的起始节点,则在所述拟定序列遍历路径中删除所述节点。
[0022]其中,在遍历流程结束后,进一步包括:
[0023]将最终的修正完成的拟定序列遍历路径以及“确定”关系子集中的连接关系作为所述被测基因组测序数据的拟定序列遍历路径。
[0024]利用本发明实施例提供的技术方案,在基因组测序数据序列组装过程中,可以对可疑序列重叠关系集合中的“不确定”连接关系进行确认,并进一步确定其重复次数还原其摆放方式,实验结果表明,本发明实施例提供的方法可以获得更为准确有效的结果。
【附图说明】
[0025]图1是现有技术中De novo中“overlap-layout-consensu” s算法的不意图。
[0026]图2是本发明实施例中基因组测序数据序列组装方法的流程示意图。
[0027]图3是本发明实施例中参考序列利用方法的流程示意图。
[0028]图4a和图4b是本发明实施例提供的参考序列重置关系图构建不意图。
[0029]图5是本发明实施例中参考序列利用方法的示例示意图。
[0030]图6是本发明实施例中基因组测序数据序列组装方法的示例示意图。
[0031]图7是本发明另一实施例中参考序列利用方法的流程示意图。
图8是本发明一实施例中参考序列读序重叠关系示意图。
【具体实施方式】
[0032]为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
[0033]图2是本发明实施例中基因组测序数据序列组装方法的流程示意图。如图2所示,该方法包括:
[0034]步骤201:根据测序得到的读序之间的重叠关系,构建重叠关系图以及反向互补图。重叠关系图及其反向互补图中的所有的对应节点彼此之间都是反向互补等效的关系。由于我们通常只知道两个序列是否具有重叠关系,但不确定组装结果中序列组的最终摆放顺序,因此,我们需要同时构建两个图,重叠关系图G以及其反互补序列图G’。只要两个序列片段之间有重叠关系,即可在重叠关系图中给予标记。
[0035]步骤202:判断重叠关系图G中是否每一个节点均被检查过;如果是,则结束整个流程;否则转向步骤203。
[0036]步骤203:任取重叠关系图G中的未被检查过的节点1,以任意方向D遍历G和G’。其中任意方向D可以是出度方向(从该节点出发)或入度方向(指向该节点)。
[0037]步骤204:判断任意方向D中是否存在某一节点ny与节点nx有连接关系;如果存在,则进入步骤205 ;否则转入步骤206。
[0038]步骤205:如果节点ny与节点nx为双向唯一关系,则进入步骤208 ;否则进入步骤209。
[0039]这里,当且仅当在G中,找到一节点ny为该节点~在D方向下游的唯一路径;并且在G’中,节点nx是节点ny在D方向下游唯一路径时,认定节点ny与节点nx为双向唯一关系O
[0040]步骤206:判断在方向D’中是否存在某一节点nz与节点nx有连接关系;如果存在,则进入步骤207。这里,由于nx必然会与一个节点相连,所以如果执行到步骤206,则此处的判断结果一定为存在节点nz有连接关系。
[0041]步骤207:如果节点nz与节点nx为双向唯一关系,则进入步骤208 ;否则进入步骤209。
[0042]步骤208:将该ny与nx的关系,和/或该nz与nx的关系确认为可信连接关系,并将该可信连接关系nx->ny,和/或nz->nx放入可靠序列片段重叠群中;并转入步骤210。
[0043]步骤209:将该ny与nx的关系,和/或该nz与nx的关系确认为”不确定”连接关系,将该”不确定”连接关系nx->ny,和/或nz->nx放入到可疑序列片段关系集合中;并转入步骤210。
[0044]步骤210:将已经检查过的关系,包括关系nx->ny、关系ny->nx,和/或关系ηχ->ηζ、关系ηζ->ηχ分别从G和G’中删除,同时将该节点ηχ设置为“已检查”。
[0045]这样,通过双向检察方法对重叠关系图进行修剪,获得可靠序列片段重叠群以及可疑序列片段关系集合。
[0046]在本发明一实施例中,以上步骤204和步骤205与步骤206和步骤207可以平行执行,这样进一步提高运算效率。在本发明一实施例中,还提供了一种方法,进一步将可疑序列片段关系集合中的“不确定”连接关系确认为“确定”连接关系。可以借助参考序列来整合
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1