系图的检查结果不变。
[0144]而后,对4+进行检查,发现在重叠关系检查结果中已经没有任何关于4+的记录,并且4+不是最后的一个节点,因此,4+节点被删除,4+ —关系一并丢失,此时拟定序列遍历路径变为:I+ — 2+ — 3+ — 4+ — 5+ — 2+ — 6+和5+ — 7- — 6-两个部分,重叠关系图的检查结果不变。
[0145]下一步检查5+,基于同样的原因,5+应被删除,则此时拟定序列遍历路径变为:1+ — 2+ — 3+ — 4+ — 5+ — 2+ — 6+和7- — 6-两个部分,重叠关系图的检查结果不变。
[0146]而后,对7_进行检查,发现7 6_与6+ — 7+是等效的,并且6+ — 7+在重叠关系检查结果中存在,因此,该关系在拟定序列遍历路径中被保留,同时在重叠关系图中被删除。则拟定序列遍历路径变为:1+ — 2+ — 3+ — 4+ — 5+ — 2+ — 6+和7- — 6-两个部分,其中7 *■ 6-被6+ — 7+等同替代。则整个拟定序列遍历路径最后为:
[0147]1+ — 2+ — 3+ — 4+ — 5+ — 2+ — 6+ — 7+,重叠关系图的检查结果变为:
[0148]------------------------------------------------------------
[0149]“确定”关系子集:
[0150]7~!—^ 8+,9~ι—^ 10~ι—^ I In—^ 9+
[0151]“不确定”关系子集:
[0152]8+— 1+,6+— 1+
[0153]---------------------------------------------------------------
[0154]而后检查7+节点,发现在重叠关系检查结果中存在以7+为出发节点的“确定”关系7+ —8+,因此,将该关系添加到拟定序列遍历路径中,整个遍历关系变为:1+ — 2+ — 3+ — 4+ — 5+ — 2+ — 6+ — 7+ — 8+,重叠关系图的检查结果变为:
[0155]------------------------------------------------------------
[0156]“确定”关系:
[0157]9h—^ 1h—>.IlH—^ 9+
[0158]“不确定”关系:
[0159]8+— 1+,6+— 1+
[0160]---------------------------------------------------------------
[0161]而后,检查8+,发现在拟定序列遍历路径中8+节点已经不具有任何的未检查的关系,并且,在重叠关系图中不具有以8+出发的任何的“确定”关系,在“不确定”连接关系中存在以8+出发的连接关系8+ — 1+但是更新后的连接关系图中不具有任何1+出发的关系,并且8+是拟定序列遍历路径的最后一个节点,因此,该节点保留。
[0162]最后,检查重叠关系检查结果的“确定”关系子集,发现,还有一个9+ — 10+ — 11+ —9+没有用上,因此,放入遍历结果之中。则遍历结果为In—*■ 2~f—*■ 3h—*■ 4H—*■ 5h—*■ 2~f—*■ 6h—*■ 7H—*■ 8+ 和 9h—*■ 1h—*■ I In—*■ 9+。
[0163]至此,“确定”关系为空,整个遍历关系所有的节点从头到尾都被检查完毕。
[0164]本发明实施例提供的一种基因组测序数据序列组装方法,利用双向最优算法构建序列重叠图,很好地解决了 De novo的错拼问题。结合参考序列、使用重测序相关方法对Denovo重叠图进行简化,使得组装结果和实际序列最相近。该方法对参考序列进行了充分的挖掘,并对De novo方法的局限性和复杂性进行了弥补和化简。根据优化后的重叠图,本发明实施例的方法还可以自动地对已有的序列片段重叠群进行错误检查和错误拆分,防止错拼发生。
[0165]另外,此方法还有助于细胞内质粒序列的组装。在微生物中,大部分质粒都是环状序列存在,在重叠关系图中的表现形式是Ii1On2On3……Ii1,即在重叠关系图中存在一个欧拉回路。因此,在构建结果序列过程中,该方法能够自动筛选出较长的在参考序列上比对不到的序列作为质粒寻找的种子,使用弗勒里算法,寻找能够通过这些种子节点的欧拉回路作为可能存在的质粒候选;而后通过组装结果的长度(不超过1MB),对质粒序列进行筛选。
[0166]因此,对仍具有不确定连接关系的重叠图,本发明实施例的方法还能够进行质粒拆分和质粒猜测,最大可能地将可能存在的质粒序列进行筛选、分离、并进行自动化成环,方便进一步的分析。
[0167]对大肠杆菌K12MG1655菌株的基因组、大肠杆菌某苏氨酸产生菌株、Me1thermusRuber DSMl299>Pedobacter heparinus DSM2366、黄色短杆Z15进行测序,并利用本专利发明的基因组测序数据组装方法进行测试,测试结果将从以下几个方面进行评价:
[0168]组装得到的基因组的完整性,得到的组装结果是否能还原所有的基因组区域,是否能够完成一个微生物基因组;
[0169]组装得到的基因组的整体可靠性,组装结果与参考序列相比是否具有结构性差异,是否有区域被遗漏或者错误带入;
[0170]组装需要使用测序数据的获取成本,以及完成同一个样本基因组测序数据组装所需要的数据量下限。
[0171]根据测试结果显示,利用本发明实施例提供的方法,得到的初步组装结果与真实情况相比,几乎不存在结构性错误,其结果明显优于已经公布的其他工具。在具有较为近缘的参考序列的情况下,本发明实施例提供的方法只需要其他方法所需约2/3的数据量,就可以得到相同或者更优的分析结果。
[0172]这里,本领域技术人员可以理解,上文中出现的可疑、不可信、不确认可以为同一意思;同样,可信、可靠、确认也可以为同一意思;同时,序列关系组合、序列集合、关系图检查结果、关系集合等根据上下文理解也可以为同一意思;本发明对这些用词并不给予严格区分。同时,本发明也不严格区分拟定序列遍历路径和拟定序列遍历路径,本领域技术人员可以根据上下文理解某些地方指代的是一个连接关系,某些地方指代的是连接关系的集合。
[0173]以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换等,均应包含在本发明的保护范围之内。
【主权项】
1.一种参考序列的利用方法,已知将基因组测序数据比对到一近缘参考基因组后得到的一基于参考序列获得的基因组测序序列的拟定序列遍历路径和基因组测序数据的重置关系集合,所述重叠关系集合包括“确定”关系子集和“不确定”关系子集,其特征在于,包括: 按拟定序列遍历路径的顺序迭代检查遍历路径中的每个节点,根据重叠关系集合的“确定”关系子集和/或“不确定”关系子集中的连接关系来修正拟定序列遍历路径,并同时更新重叠关系集合; 基于更新后的拟定序列遍历路径以及重叠关系集合,检查下一个节点,直至最后一个节点; 其中,当检查某一节点时,所述方法包括: 如果在重叠关系集合的“确定”关系子集中存在以当前节点出发的重叠关系,并且所述重叠关系在拟定序列遍历路径中不存在;则将所述连接关系添加到拟定序列遍历路径中来,并将所述连接重叠关系从“确定”关系子集中删除。
2.如权利要求1所述的方法,其特征在于,当检查某一节点时,所述方法进一步包括: 如果在重叠关系集合中存在当前节点出发的重叠关系,并且在的拟定序列遍历路径中该连接关系也存在,则在拟定序列遍历路径中保留该关系,并将该连接关系从重置关系集合中删除;和/或 如果在拟定序列遍历路径中以当前节点为出发节点的关系在重叠关系集合中不存在,则将以当前节点为出发节点的关系从拟定序列遍历路径中删除。
3.如权利要求1或2所述的方法,其特征在于,当检查某一节点时,所述方法进一步包括: 如果在更新后的重叠关系集合的“不确定”关系子集中存在唯一一个以所述节点为起始节点的连接关系,同时,所述连接关系的终结节点是所述“不确定”关系子集中另一连接关系的起始节点,则将所述节点为起始节点的连接关系添加到基因组测序序列的拟定序列遍历路径中,并从所述“不确定”关系子集中删除所述连接关系。
4.如权利要求1或2所述的方法,其特征在于,当检查某一节点时,所述方法进一步包括: 当在重叠关系集合中不具有所述节点的任何记录,和/或在“不确定”关系子集中不存在唯一以所述节点为起始节点的连接关系,和/或在“不确定”关系子集中存在唯一以所述节点为起始节点的连接关系,但所述连接关系的终结节点不是“不确定”关系子集中另一连接关系的起始节点,则在所述拟定序列遍历路径中删除所述节点。
5.如权利要求1或2所述的方法,其特征在于,在遍历流程结束后,进一步包括: 将最终的拟定序列遍历路径以及“确定”关系子集中的连接关系作为所述被测基因组测序数据的拟定序列遍历路径。
【专利摘要】本发明实施例提供了一种基因组测序数据序列组装方法,可以整合从头测序和重测序的算法的优点,实现基因组测序数据序列的高效组装。已知测序数据比对到一参考序列后生成的一基于参考序列获得的基因组测序序列的拟定序列遍历路径以及基因组测序数据的重叠关系集合:该集合包括“确定”关系子集和“不确定”关系子集。该方法包括:将测序数据序列比对到一个近缘参考基因组后获得一个基于参考序列获得的基因组测序序列的拟定序列遍历路径,逐个检查拟定序列遍历路径中的每个节点,根据重叠关系集合的“确定”关系子集和/或“不确定”关系子集中的连接关系来对拟定序列遍历路径进行迭代修正,并更新重叠关系集合;基于更新后的拟定序列遍历路径以及重叠关系集合,检查下一个节点,直至最后一个节点。
【IPC分类】G06F17-30
【公开号】CN104750765
【申请号】CN201410096283
【发明人】孙际宾, 李澎鹏, 郑平, 马延和
【申请人】中国科学院天津工业生物技术研究所
【公开日】2015年7月1日
【申请日】2014年3月17日