靶向基因二代测序数据自动化分析系统及方法与流程

文档序号:11707934阅读:987来源:国知局
靶向基因二代测序数据自动化分析系统及方法与流程

本发明属于生物医学检测领域,涉及二代测序数据的单核苷酸变异(snv,singlenucleotidevariant)和段片段插入缺失(indel,shortinsertion-deletion)检测,具体为靶向基因二代测序数据的snv和indel检测的自动化分析系统及方法。



背景技术:

二代基因测序技术,其核心思想为边合成边测序。用不同颜色的荧光分别标记四种不同的脱氧核糖核酸a,t,c,g,在通过聚合酶链式反应(pcr,polymerasechainreaction)合成基因模板的互补链时,脱氧核糖核苷酸依次添加到互补链的末端,通过捕捉末端的荧光信号,鉴定添加的脱氧核糖核苷酸种类,从而确定合成的基因序列。二代基因测序技术具有高通量的特点,可一次测序数百万条序列。靶向基因二代测序,即利用二代测序技术测序靶向的dna序列。为了捕获靶向基因,首先要设计并合成与靶向基因互补配对的探针,根据探针与靶向序列的互补结合将靶向基因序列捕获出来。然后根据捕获的dna序列建库并进行二代测序。靶向基因测序的优点是定向测序目标dna序列,可以降低成本并提高数据的利用率。

二代测序数据包含多个分析步骤。以snv和indel检测为例,如图3所示,需要进行序列比对,比对结果排序,标记重复(duplication),数据质量评估,indel重比对,碱基质量校正,snv和indel检测以及检测结果过滤。二代测序数据的分析实现大多数分为两种方式:1)将所有步骤整合为一个流程,通过命令行提交一次分析任务,完成数据分析;2)将每个分析步骤分别提交分析任务,一步一步完成数据分析。这两种方式的缺点是必须人工投递任务,消耗人力成本,延长分析周期,且分析结果的稳定性也存在隐患。

目前已有的一类二代测序数据自动化分析系统的实现过程可归纳为:用户输入个性化参数及数据,系统接收用户输入,根据输入参数调用相关分析软件和脚本对输入数据进行数据分析,再输出分析结果。如专利cn106021993a“肿瘤外显子组测序分析系统及方法”,cn105653893a“一种基因组重测序分析系统及方法”,首先需要用户在web应用单元输入待分析数据以及相关参数,再经过java交互单元接收这些用户输入并启动相关分析脚本进行数据分析。专利cn105550536a“一种基于生物云平台的外显子测序数据分析方法及系统”实现过程也相似,只是分析平台放到了云端。这类专利均需要用户输入,根据输入进行自动化分析,且分析流程固定。这类专利的优点是分析参数可灵活调整,缺点是不利于大样本量的数据分析。

另一类二代测序数据自动化分析系统的实现过程可归纳为:创建项目并根据项目需求选择相关分析模块及相关参数,根据选择的分析模块和相关参数对项目对应的测序数据进行分析,再输出分析结果。相关专利如cn104484750a“生物信息项目的产品参数自动匹配方法及系统”,cn104484582a“通过模块化选择实现的生物信息项目自动分析方法及系统”。这类专利需要用户首先创建相关项目并选择该项目所需要的分析模块及其他参数。这类专利的优点是可灵活选择数据分析内容,适用于不同类型项目的分析管理。缺点是人工操作步骤较多,需要创建项目,选择项目对应的分析内容,项目对应的测序样本等。

鉴于已有的二代测序数据自动化分析系统存在人工操作较多,不适用于大规模数据全自动分析的缺点,亟需研发一种适用于大规模数据全自动分析的系统,降低人工操作失误及成本。另外,鉴于一些基因检测对时效性有较高的要求,亟需研发稳定且快速的分析系统。



技术实现要素:

本发明要解决的技术问题之一是提供一种靶向基因二代测序数据自动化分析系统,克服了现有技术存在人工操作较多,不适用于大规模数据全自动分析的缺点。

本发明要解决的技术问题之二是提供基于靶向基因二代测序数据自动化分析系统的实现方法。

为解决上述技术问题,本发明采用如下技术方案:

在本发明的一方面,提供一种靶向基因二代测序数据自动化分析系统,包括待分析数据存储单元、分析方式决策单元、云端数据分析单元、备用数据分析单元和分析结果存储单元;

所述待分析数据存储单元用于存储待分析的数据,如该单元存储有数据,则进入分析方式决策单元;

所述分析方式决策单元,用于决定数据通过云端进行分析或者备用方式进行分析,分别进入云端数据分析单元或者备用数据分析单元;

所述云端数据分析单元,将上传到云端的待分析数据,以样本为单位,进行数据分析;

所述备用数据分析单元,在本地分析平台上进行数据分析;

所述分析结果存储单元,用于存储来自所述云端数据分析单元和所述备用数据分析单元质量检测合格数据的分析结果。

作为本发明优选的技术方案,所述分析方式决策单元的实现步骤包括如下:首先将检测到的待分析数据以样本为单位,上传到云端;如果上传成功,进入云端数据分析单元;若上传失败,会再进行总共三次尝试;如果再次尝试成功,将进入云端数据分析单元;如果上传最终失败,数据将会拷贝到本地服务器,并进入备用数据分析单元。

作为本发明优选的技术方案,所述云端数据分析单元进行数据分析,若数据分析失败,将重新进行数据第二次分析;若第二次分析仍失败,需进行人工纠错修复;若数据分析成功,将对数据进行质量控制检测。

作为本发明优选的技术方案,所述备用数据分析单元在本地分析平台上进行数据分析,本地分析平台借助资源管理软件sge提交分析任务,不同样本并行起始分析,当资源不足时,分析任务需要排队等待;拷贝到本地服务器的待分析数据,以样本为单位,进行数据分析,若数据分析失败,需进行人工纠错修复;若数据分析成功,将对数据进行质量控制检测。

作为本发明优选的技术方案,所述分析结果存储单元,以样本为单位,存储于特定位置,便于用户进行数据查询和浏览。

作为本发明优选的技术方案,该系统还包括日志记录单元,用于记录数据分析的全步骤,包括数据传输,数据分析,质量检测以及结果存储。

作为本发明优选的技术方案,所述日志记录单元用于记录数据分析的全步骤,其中任意一步的失败,该单元都为自动化发送邮件至指定的邮箱,提醒具体失败信息;当所有步骤都成功时,该单元会自动化发送邮件至指定的邮箱,提醒样本成功完成。

在本发明的另一方面,提供一种靶向基因二代测序数据自动化分析系统的实现方法,包括如下步骤:

步骤1,系统自动检测待分析数据,判断待分析数据存储单元是否存储有数据,如果有,则进入分析方式决策单元;

步骤2,将数据上传至云端操作;数据上传成功,进入步骤3;数据上传失败,进入步骤6;

步骤3,数据上传成功,进入云端数据分析单元,启动云端数据分析;

步骤4,监测云端数据分析状态,分析失败,再启动一次数据分析任务;

步骤5,云端分析完成,进入步骤8;

步骤6,数据上传失败,将数据拷贝至本地服务器,进入备用数据分析单元,启动本地数据分析;

步骤7,监测数据分析状态,进入步骤8;

步骤8,对数据进行质量检测;

步骤9,质量检测合格,数据放置于分析结果存储单元。

作为本发明优选的技术方案,步骤2中,所述将数据上传至云端操作,若第一次上传失败,再尝试三次。

作为本发明优选的技术方案,步骤3和步骤6中,所述的数据分析包括如下步骤:

1)序列比对:将测序数据比对到参考基因组上;

2)比对结果排序:对序列比对的结果,以参考基因组坐标为单位,重新排列;

3)标记duplication:标记比对结果中比对位置一致的部分;

4)数据质量评估:根据序列比对结果,计算比对率,靶向区域覆盖深度,pcrduplication比例等信息,用户借此信息判断测序数据质量;

5)indel重比对:对因indel而产生比对错误的区域进行重新比对;

6)碱基质量校正:利用机器学习方法对碱基质量进行校正,以获取更准确的碱基质量;

7)snv检测和indel检测:根据处理后的序列比对文件,分别进行snv和indel检测;

8)snv质量过滤和indel质量过滤:对检测到的snv和indel位点,对其质量高低进行评估并标记不同标签。

与现有技术相比,本发明的有益效果在于:

1.自动化

现有的二代测序数据相关自动化分析系统需要进行前期人工输入,包括测序数据,数据分析模块以及分析相关参数等,才可开始数据自动化分析。与现有的二代测序数据相关自动化分析系统相比,本系统无需任何输入操作,可自动检测待分析数据,并开启数据分析。因此本系统可以做到全自动化,全程无需人工操作,可节省人力成本,缩减分析周期,减少人工操作的出错概率,适用于大规模数据的批量分析。

2.操作步骤可追踪

与其他二代测序数据相关自动化分析系统相比,本系统包括日志记录单元,记录了进入系统的每个样本的每个操作步骤的日志文件。对于操作失败,可自动发送邮件提醒,便于用户及时进行相关处理。对于在自动化系统运行成功的样本,也会发送邮件提醒用户运行成功。因此本系统可追踪对测序数据的全部操作步骤,并具有自动提示功能。

3.稳定性

本系统的稳定性体现在以下方面:1)结果稳定,所有数据分析步骤和相关参数具有一致性,从而保证分析结果的稳定性。2)功能稳定,本系统设置了关键步骤监测,整合了云端和本地两个分析平台,该双平台策略保证稳定、快速地实现数据自动化分析功能。第一个监测点为数据上传云端,尝试多次上传。第二个监测点为云端数据分析,尝试数次分析。此外对于各种原因导致的数据不能上传云端,系统会自动切换本地备用分析平台,保证数据分析的正常进行。

4.分析结果易于管理

本系统将分析结果以样本为单位,存储于特定位置,便于进行分析结果检索和浏览。

5.适用于大规模数据

本系统添加了分析数据自动检测并起始分析的功能,因此本系统更适用于大规模数据的全自动化分析处理。考虑到数据分析平台的稳定性,本系统整合了两个分析平台,即云端分析平台和本地分析平台。系统优先选择云平台,并可根据情况自动切换到本地分析平台进行数据分析,保证系统稳定运行。云平台的计算资源丰富,不同样本可并行起始分析,因此可一次性处理大量的测序样本。本地分析平台可借助资源管理软件sge提交分析任务,不同样本也可并行起始分析,但是受限于本地分析平台计算资源的限制,当资源不足时,分析任务需要排队等待。基于时间周期的考量,本系统优先选择云平台。

附图说明

图1为本发明靶向基因二代测序数据自动化分析系统的整理构架图;

图2为本发明靶向基因二代测序数据自动化分析方法的具体流程图;

图3为本发明靶向基因二代测序数据自动化分析系统的数据分析流程图。

具体实施方式

下面结合具体实施例进一步阐明本发明,但这些实施例只是用于说明本发明,而不是来限制本发明的范围。

如图1所示,本发明靶向基因二代测序数据自动化分析系统,包括以下方面:

1.待分析数据存储单元

本单元用于存储待分析的数据。本系统会在规定的时间间隔内检测该存储单元是否存储有数据,如果有,将会进入分析方式决策单元。

2.分析方式决策单元

本单元的功能是决定数据通过云端进行分析或者备用方式进行分析。首先将检测到的待分析数据以样本为单位,上传到云端。如果上传成功,进入云端数据分析单元;若上传失败,会再进行总共三次尝试;如果再次尝试成功,将进入云端数据分析单元;如果上传最终失败,数据将会拷贝到本地服务器,并进入备用数据分析单元

3.云端数据分析单元

云平台的计算资源丰富,不同样本可并行起始分析,因此可一次性处理大量的测序样本。上传到云端的待分析数据,以样本为单位,进行数据分析。若数据分析失败,将重新进行数据第二次分析。若第二次分析仍失败,需进行人工纠错修复。若数据分析成功,将对数据进行质量控制检测,将质量检测合格数据的分析结果进入分析结果存储单元进行存储。

数据分析步骤如图3所示,具体为:

1)序列比对

将测序数据比对到参考基因组上,所用软件为bwa。

2)比对结果排序

对序列比对的结果,以参考基因组坐标为单位,重新排列,所用软件为bamsormadup。

3)标记duplication

标记比对结果中比对位置一致的部分。

4)数据质量评估

根据序列比对结果,计算比对率,靶向区域覆盖深度,pcrduplication比例等信息。用户可借此信息判断测序数据质量。

5)indel重比对

对因indel而产生比对错误的区域进行重新比对,所用软件为gatk。

6)碱基质量校正

利用机器学习方法对碱基质量进行校正,目的是为了获取更准确的碱基质量,所用软件为gatk。

7)snv检测和indel检测

根据处理后的序列比对文件,分别进行snv和indel检测,所用软件为gatk。

8)snv质量过滤和indel质量过滤

对检测到的snv和indel位点,对其质量高低进行评估并标记不同标签,所用软件为gatk。

4.备用数据分析单元

备用数据分析单元是本系统的备选方案,在本地分析平台上进行数据分析。本地分析平台可借助资源管理软件sge提交分析任务,不同样本可并行起始分析,但是受限于本地分析平台计算资源的限制,当资源不足时,分析任务需要排队等待。拷贝到本地服务器的待分析数据,以样本为单位,进行数据分析,数据分析步骤和云端保持一致。若数据分析失败,需进行人工纠错修复。若数据分析成功,将对数据进行质量控制检测,将质量检测合格数据的分析结果进入分析结果存储单元进行存储。

数据分析步骤如图3所示,具体为:

1)序列比对

将测序数据比对到参考基因组上,所用软件为bwa。

2)比对结果排序

对序列比对的结果,以参考基因组坐标为单位,重新排列,所用软件为bamsormadup。

3)标记duplication

标记比对结果中比对位置一致的部分。

4)数据质量评估

根据序列比对结果,计算比对率,靶向区域覆盖深度,pcrduplication比例等信息。用户可借此信息判断测序数据质量。

5)indel重比对

对因indel而产生比对错误的区域进行重新比对,所用软件为gatk。

6)碱基质量校正

利用机器学习方法对碱基质量进行校正,目的是为了获取更准确的碱基质量,所用软件为gatk。

7)snv检测和indel检测

根据处理后的序列比对文件,分别进行snv和indel检测,所用软件为gatk。

8)snv质量过滤和indel质量过滤

对检测到的snv和indel位点,对其质量高低进行评估并标记不同标签,所用软件为gatk。

考虑到数据分析平台的稳定性,本系统整合了两个分析平台,即云端分析平台和本地分析平台。系统优先选择云平台,并可根据情况自动切换到本地分析平台进行数据分析,保证系统稳定运行。云平台的计算资源丰富,不同样本可并行起始分析,因此可一次性处理大量的测序样本。本地分析平台可借助资源管理软件sge提交分析任务,不同样本也可并行起始分析,但是受限于本地分析平台计算资源的限制,当资源不足时,分析任务需要排队等待。基于时间周期的考量,本系统优先选择云平台。

5.分析结果存储单元

将质量检测合格数据的分析结果存储于特定位置,便于用户进行数据查询和浏览。

6.日志记录单元

该单元以样本为单位,记录数据分析的全步骤,包括数据传输,数据分析,质量检测以及结果存储。其中任意一步的失败,该单元都为自动化发送邮件至指定的邮箱,提醒具体失败信息,方便相关人员及时处理。当所有步骤都成功时,该单元会自动化发送邮件至指定的邮箱,提醒样本成功完成。为了能实时监控样本在自动化系统中的状态,本系统添加了日志记录功能。正常情况下,各个操作步骤的日志文件会分散在不同的服务器中,不利于批量管理,本系统会在每个样本的每个操作步骤结束后将对应的日志文件以及操作步骤的运行成功或失败的状态发送到日志记录单元,对于失败的操作本系统会实时发送邮件提醒。

如图2所示,本发明靶向基因二代测序数据自动化分析系统的实现方法,具体包括如下流程步骤:

1.系统自动(在规定的时间间隔内)检测待分析数据,判断待分析数据存储单元是否存储有数据,如果有,将会进入分析方式决策单元。

2.将数据进行上传至云端操作,若第一次上传失败,再尝试三次;数据上传成功,进入步骤3;数据上传失败,进入步骤6。

3.数据上传成功,进入云端数据分析单元,启动云端数据分析。

4.监测云端数据分析状态,分析失败,再启动一次数据分析任务。

5.云端分析完成,进入步骤8。

6.数据上传失败,将数据拷贝至本地服务器,进入备用数据分析单元,启动本地数据分析。

7.监测本地数据分析状态,进入步骤8。

8.对数据进行质量检测。

9.质量检测合格,数据放置于分析结果存储单元。

实施例1靶向基因测序数据的云端自动化分析

1.将样本1的测序数据按要求放置一个样本的靶向基因二代测序数据于指定位置。

2.系统自动检测到待分析样本1。

3.将数据上传至云端。

4.数据上传成功,启动云端数据分析。

5.监测云端数据分析状态,分析成功。

6.质检合格,数据放置于分析结果存储单元。

实施例2靶向基因测序数据的本地自动化分析

1.将样本2的测序数据按要求放置一个样本的靶向基因二代测序数据于指定位置。

2.系统自动检测到待分析样本2。

3.将数据上传至云端。

4.数据上传失败,将数据拷贝至本地服务器。

5.启动本地数据分析。

6.监测本地数据分析状态,分析成功。

质检合格,数据放置于分析结果存储单元。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1