基于数值特征表达的基因组二四代融合组装方法及系统

文档序号:32699659发布日期:2022-12-27 22:13阅读:80来源:国知局
基于数值特征表达的基因组二四代融合组装方法及系统

1.本发明涉及机器学习技术领域,尤其涉及基于数值特征表达的基因组二四代融合组装方法及系统。


背景技术:

2.第二代测序技术大大提高了基因测序的通量,但其获得的单条序列长度很短,往往只在50~300bp,相对于整个基因组而言是极小的,并且因为测序的覆盖范围更深,导致基因组项目中需要处理的序列数量迅速增加。二代测序获得的原始碱基数据准确度大于99.94%,在15x覆盖率时的准确度就可以达到99.999%。
3.自2014年牛津纳米孔科技有限公司(oxford nanopore technologies, ont)发布第一台纳米孔测序仪minion以来,纳米孔测序技术及其应用研究飞速增长。纳米孔测序技术(又称第四代测序技术)是最近几年兴起的新一代测序技术,目前测序长度可以达到150kb。随着ont纳米孔测序技术不断升级和改进,目前最新的ont测序芯片能够达到接近99.999%的准确率。
4.第四代测序技术在开发组装算法时不适合利用ngs数据组装的de bruijn graph进行组装,主要存在两方面的原因。首先,de bruijn graph等方法依赖测序reads拆分的k-mer测序准确,而高错误率的minion测序reads不能保证这一点;其次,de bruijn graph的结构不适用长reads,其会导致截取后产生的k-mer片段急剧增加从而加大内存开销。因此minion测序数据的长reads更适合sanger测序时期基于overlap-layout-consensus(olc,重叠-分布-共识)的方法获得一致性序列,再通过一致性序列进行数据矫正,矫正后的准确率可达99.9%到99.99%;并且同时使用二代数据进行纠错,准确率可以更高。但是一步组装,两步纠错的从头组装算法需要大量重复测序,因此增加了极高的测序成本。
5.基因组组装是进行生物信息学分析的第一步,许多物种的基因组未知,得到高质量的参考基因组,对开展该物种进一步的分析具有重大意义。高准确率的长读长,相比二代测序能够更好地跨越重复区域,组装出更高质量的基因组,但已有的组装方法均需要进行两轮纠错消耗算力成本和时间成本。


技术实现要素:

6.本发明的目的是提供一种基于数值特征表达的基因组二四代融合组装方法及系统,以解决现有基因组组装方法成本较高的技术问题。
7.本发明的目的是采用以下技术方案实现的:基于数值特征表达的基因组二四代融合组装方法,包括如下步骤:s1:读入测序文件,进行基因解析获得测序序列reads的自定义编号和碱基序列;s2:截取测序序列reads的碱基序列,获得质心特征值,并生成二代测序数据特征值矩阵和四代测序数据特征值矩阵;s3:按照设定误差阈值a搜索四代测序数据之间相似特征值对应的序列,将四代测
序数据组装为基因序列骨架;s4:按照设定误差阈值b搜索二代测序数据和四代测序数据相似特征值对应的序列,将二代测序数据回帖至基因序列骨架;s5:输出最终组装结果和snp信息表。
8.进一步的,步骤s1具体为:从磁盘读入测序文件,所述测序文件包括fasta和/或fastq文件,,并通过识别文件标识行对测序文件进行基因解析,获得测序序列reads的自定义编号和碱基序列。
9.进一步的,所述测序序列reads包括二代测序数据和四代测序数据。
10.进一步的,步骤s2包括如下子步骤:s21:按照预设长度滑动截取测序序列reads的碱基序列,并将其映射为坐标系散点,采用kmeans聚类获得质心特征值;s22:按照预设间隔向前滑动截取,依次获得所截取测序序列reads碱基序列的质心特征值,直到该条测序序列reads的最后一位停止;s23:将计算得到的一系列质心特征值作为该条测序序列reads的特征值矩阵,所述特征值矩阵包括二代测序数据特征值矩阵和四代测序数据特征值矩阵。
11.进一步的,步骤s3包括如下子步骤:s31:将四代测序数据特征值矩阵进行数值快排;s32:按照设定误差阈值a搜索四代测序数据之间相似特征值对应的序列;s33:将筛选出来的特征值相似的四代测序数据组装为基因序列骨架。
12.进一步的,步骤s3还包括如下子步骤:s34:生成读长id,以及读长id在基因序列骨架中位置的对应索引表。
13.进一步的,步骤s4包括如下子步骤:s41:将二代测序数据特征值矩阵进行数值快排;s42:按照设定误差阈值b搜索二代测序数据和四代测序数据相似特征值对应的序列,得到与二代读长特征值相似的四代读长id和该四代读长id在基因序列骨架中的定位;s43:将二代测序数据按照位置比对定位到基因序列骨架上进行对比,根据比对结果,将二代测序数据回帖至基因序列骨架。
14.进一步的,步骤s43具体为:若重合区域超过阈值c,则判定该二代测序数据已经回帖定位至基因序列骨架;若重合区域低于阈值c,则判定该二代测序数据不能回帖至基因序列骨架,此时,需要缩小阈值c,进行下一轮搜索回帖。
15.基于数值特征表达的基因组二四代融合组装系统,包括读取模块、截取模块、四代测序数据搜索模块、二代测序数据搜索模块和输出模块,所述读取模块用以读入测序文件,进行基因解析获得测序序列reads的自定义编号和碱基序列;所述截取模块用以截取测序序列reads的碱基序列,获得质心特征值,并生成二代测序数据特征值矩阵和四代测序数据特征值矩阵;所述四代测序数据搜索模块用以按照设定误差阈值a搜索四代测序数据之间相似特征值对应的序列,将四代测序数据组装为基因序列骨架;所述二代测序数据搜索模块用以按照设定误差阈值b搜索二代测序数据和四代测序数据相似特征值对应的序列,将二代测序数据回帖至基因序列骨架;所述输出模块用以输出最终组装结果和snp信息表。
16.本发明的有益效果在于:本发明相较于现有的基因组组装算法,依托高准确度的
四代测序数据将其组装为准确的基因序列骨架,无需自纠错,减少算力成本,使用无监督机器学习获得二四代或参考基因组的特征值矩阵,从而进行模糊匹配定位,无需传统的比对算法构建fm-index。总而言之,本发明是一种集高精准度、低算力需求、高效率于一体的二四代融合组装方案,大幅提高了涉及二四代组装和有参映射组装分析的生物信息学分析流程的速度,有助于生信分析人员以更快的速度、更短的时间获得准确的分析结果。
17.依托于基因测序技术以及生物信息学等科学领域的快速发展,本发明为低成本、快速高效的二四代融合组装和有参映射组装分析提供了有力保障,在真正意义上实现了以计算机科学技术为工具,对生物信息进行储存、检索与分析。同时,生物信息学是21世纪自然科学的核心领域之一,本发明作为生物信息学中dna-seq分析的关键技术,在基因组学中具有极高技术优势和市场价值,适合于基因分析的实际应用与技术上的进一步推广。
附图说明
18.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
19.图1为本发明流程图;图2为本发明系统框图。
具体实施方式
20.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
21.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
22.下面结合附图,对本发明的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
23.实施例1:参阅图1,基于数值特征表达的基因组二四代融合组装方法,包括如下步骤:s1:读入测序文件,进行基因解析获得测序序列reads的自定义编号和碱基序列;s2:截取测序序列reads的碱基序列,获得质心特征值,并生成二代测序数据特征值矩阵和四代测序数据特征值矩阵;s3:按照设定误差阈值a搜索四代测序数据之间相似特征值对应的序列,将四代测序数据组装为基因序列骨架;s4:按照设定误差阈值b搜索二代测序数据和四代测序数据相似特征值对应的序列,将二代测序数据回帖至基因序列骨架;s5:输出最终组装结果和snp信息表。
24.在本实施例当中,步骤s1具体为:从磁盘读入测序文件,所述测序文件包括fasta
和/或fastq文件,,并通过识别文件标识行对测序文件进行基因解析,获得测序序列reads的自定义编号和碱基序列,所述测序序列reads包括二代测序数据和四代测序数据。
25.在本实施例当中,步骤s2包括如下子步骤:s21:按照1-100(长度可根据实际情况进行相应调整)滑动截取测序序列reads的碱基序列,并将其映射为坐标系散点,采用kmeans聚类获得质心特征值;s22:按照11-110、21-120

(间隔可根据实际情况进行相应调整)间隔向前滑动截取,依次获得所截取测序序列reads碱基序列的质心特征值,直到该条测序序列reads的最后一位停止;s23:将计算得到的一系列质心特征值作为该条测序序列reads的特征值矩阵,所述特征值矩阵包括二代测序数据特征值矩阵和四代测序数据特征值矩阵。
26.虽然二代测序数据和四代测序数据之间可能存在测序错误导致某部分的特征值不一致的问题,但在整体的特征值矩阵中,该部分偏差不会造成严重影响。针对有参映射组装,按照相同方法将参考基因组和重测序reads进行特征数值化即可。
27.在本实施例当中,步骤s3可视为四代测序数据组装,具体包括如下子步骤:s31:将四代测序数据特征值矩阵进行数值快排;s32:按照设定误差阈值80%(数值相识度可根据实际情况进行相应调整)搜索四代测序数据之间相似特征值对应的序列,并进行提取,找到四代测序数据之间的一致性序列;s33:将筛选出来的特征值相似的四代测序数据组装为基因序列骨架(一致性序列骨架);s34:生成读长id,以及读长id在基因序列骨架中位置的对应索引表。
28.在本实施例当中,步骤s4可视为二代测序数据定位,具体包括如下子步骤:s41:将二代测序数据特征值矩阵进行数值快排;s42:按照设定误差阈值80%(数值相识度可根据实际情况进行相应调整)搜索二代测序数据和四代测序数据相似特征值对应的序列,得到与二代读长特征值相似的四代读长id和该四代读长id在基因序列骨架中的定位;s43:将该二代测序数据按照位置比对定位到基因序列骨架上进行对比,根据比对结果,将二代测序数据回帖至基因序列骨架。
29.进一步的,步骤s43具体为:若重合区域超过阈值80%(可根据实际情况进行相应调整),则判定该二代测序数据已经回帖定位至基因序列骨架,并同时生成snp信息表;若重合区域低于阈值80%,则判定该二代测序数据不能回帖至基因序列骨架,此时,需要缩小阈值80%,进行下一轮搜索回帖。
30.针对有参映射组装,只需将重测序读长按照相同方法定位到参考基因组而不是一致性序列骨架上即可。
31.参阅图2,基于同一发明构思,本发明还提供了一种基于数值特征表达的基因组二四代融合组装系统,以实现上述基于数值特征表达的基因组二四代融合组装方法,该系统包括读取模块、截取模块、四代测序数据搜索模块、二代测序数据搜索模块和输出模块,所述读取模块用以读入测序文件,进行基因解析获得测序序列reads的自定义编号和碱基序列;所述截取模块用以截取测序序列reads的碱基序列,获得质心特征值,并生成二代测序数据特征值矩阵和四代测序数据特征值矩阵;所述四代测序数据搜索模块用以按照设定误
差阈值a搜索四代测序数据之间相似特征值对应的序列,将四代测序数据组装为基因序列骨架;所述二代测序数据搜索模块用以按照设定误差阈值b搜索二代测序数据和四代测序数据相似特征值对应的序列,将二代测序数据回帖至基因序列骨架;所述输出模块用以输出最终组装结果和snp信息表。
32.本发明相较于现有的基因组组装算法,依托高准确度的四代测序数据将其组装为准确的基因序列骨架,无需自纠错,减少算力成本,使用无监督机器学习获得二四代或参考基因组的特征值矩阵,从而进行模糊匹配定位,无需传统的比对算法构建fm-index。总而言之,本发明是一种集高精准度、低算力需求、高效率于一体的二四代融合组装方案,大幅提高了涉及二四代组装和有参映射组装分析的生物信息学分析流程的速度,有助于生信分析人员以更快的速度、更短的时间获得准确的分析结果。
33.依托于基因测序技术以及生物信息学等科学领域的快速发展,本发明为低成本、快速高效的二四代融合组装和有参映射组装分析提供了有力保障,在真正意义上实现了以计算机科学技术为工具,对生物信息进行储存、检索与分析。同时,生物信息学是21世纪自然科学的核心领域之一,本发明作为生物信息学中dna-seq分析的关键技术,在基因组学中具有极高技术优势和市场价值,适合于基因分析的实际应用与技术上的进一步推广。
34.需要说明的是,对于前述的实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例属于优选实施例,所涉及的动作并不一定是本技术所必须的。
35.上述实施例中,描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1