本发明涉及生物信息,具体而言,涉及一种评估基因组重复区探针捕获安全性的方法及其装置。
背景技术:
1、随着ngs(next generation sequencing,ngs)的蓬勃发展,科研及医疗人员对人类基因组研究愈发深入,靶向测序技术可以将感兴趣的基因组区域富集出来进行测序,可以大规模应用于科研、临床诊断、健康筛查等领域。人类基因组大约31.6亿个碱基,其中约50%属于基因组重复区,约110万个重复区域,共1395种重复区域类型,同种重复区域间序列相似度很高。当靶向测序技术设计的探针涉及重复区域时,该探针可能会在全基因组捕获与之相似的核酸片段,从而造成“脱靶”,由此带来的数据浪费和数据分析难题一直困扰着从业人员。
2、考虑到基因组重复区探针带来的弊端,市场上绝大多数公司均尽量避免在此区域设计探针,即使设计后投入使用也无法判断其是否会造成脱靶以及是否会严重降低捕获效率,然而随科研及医学的发展,在基因组重复区域设计探针的情况在所难免,但重复区探针风险程度仍未得到有效评估,使后续实验与分析充满不确定性。因此,推出一种评估基因组重复区探针捕获安全性的方法显得尤为重要。
技术实现思路
1、本发明旨在提供一种评价基因组重复区探针捕获安全性的方法及装置,以区分涉及基因组重复区的探针中的高风险探针和低风险探针,以此来解决现有技术的探针在基因组重复区域容易脱靶、低捕获效率等问题。
2、为实现上述目的,本发明提供如下技术方案:
3、在一实施方式中,提供一种评估探针捕获安全性的方法,包括以下步骤:
4、(1)注释待评估探针集中的每一条探针;
5、(2)对添加了上述待评估探针的探针集和另一未添加上述待评估探针的探针集进行测序和实际捕获情况进行统计;
6、(3)依据统计结果研究构建探针的脱靶影响力模型;
7、(4)利用上述脱靶影响力模型和实际脱靶数据对基因组不同重复区的探针进行脱靶等级划分;
8、(5)对经过等级划分的探针进行差异模体分析,得到高危模体库;
9、(6)利用高危模体库对所有待评估探针进行捕获安全性评估。
10、在一实施方式中,提供一种评估基因组重复区探针捕获安全性的方法,包括以下步骤:
11、(1)构建基因组重复区探针集,注释每种重复区域类型的探针并统计其探针数。
12、(2)构建中靶率在85%以上的高中靶探针集,对实验样本测序并注释在每种重复区域类型的脱靶探针,统计每种重复区域类型的第一总脱靶读段数和第一脱靶读段涉及的区域数。
13、(3)将上述高中靶探针集与上述基因组重复区探针集混合形成混和探针集,对上述实验样本测序并注释每种重复区域类型的脱靶探针,统计每种重复区域类型的第二总脱靶读段数和第二脱靶读段涉及的区域数。
14、(4)计算每种重复区域类型中的探针的脱靶影响力并排序;
15、依据排序结果对在重复区域类型中的探针,划分为高影响力重复类型集、中影响力重复类型集、低影响力重复类型集不同脱靶影响力,前述高影响力重复类型集、前述中影响力重复类型集、前述低影响力重复类型集分别与上述高中靶探针集混合,得到高中靶-高影响力重复类型集、高中靶-中影响力重复类型集、高中靶-低影响力重复类型集。
16、(5)上述高影响力重复类型集、上述中影响力重复类型集、上述低影响力重复类型集的探针依据所属的重复区域类型进行一次以上的划分,得到多个高影响力重复类型集组、多个中影响力重复类型集组、多个低影响力重复类型集组;前述多个高影响力重复类型集组、前述多个中影响力重复类型集组、前述多个低影响力重复类型集组分别与上述高中靶探针集混合得到第一探针集组、第二探针集组、以及第三探针集组。
17、(6)上述高中靶-高影响力重复类型集、上述高中靶-中影响力重复类型集、上述高中靶-低影响力重复类型集探针集分别对上述实验样本进行捕获测序,计算每条探针的脱靶读段数并进行划分,得到高脱靶探针、较高脱靶探针、
18、低脱靶探针、无脱靶探针。
19、(7)上述高脱靶探针、上述较高脱靶探针组成高风险序列集,上述无脱靶探针组成低风险序列集。以上述低风险序列集作为对照,使用吉布斯采样(gibbs sampling)算法对上述高风险序列集和上述低风险序列集进行差异模体
20、(motif)分析,得到重复区域类型的高危模体集。
21、(8)依次分析上述基因组重复区探针集的所有重复区域类型,每个重复区域类型分析得到对应的基因组高风险序列集和基因组低风险序列集,上述基因组高风险序列集对照上述基因组低风险序列集,得到基因组重复区高危模体集;合并多个前述基因组重复区高危模体集,并合并上
22、述重复区域类型的高危模体集,以得到高危模体数据库。
23、(9)使用上述高危模体数据库对上述基因组重复区探针集或另一基因组重复区探针集中的每一条探针进行分类。若某探针含有高危模体数据库中任意一种模体,则此探针为高危探针,否则则为安全探针。
24、进一步地,上述基因组重复区中探针数量应大于50条。当以人类为参考基因组时,全基因组重复区域类型注释文件来自于加州大学圣克鲁兹分校ucsc数据库(ucsc genomedatabase)。
25、进一步地,上述高中靶探针集内探针条数建议范围=2000±1500,中靶率建议范围85%~95%。
26、更进一步地,上述脱靶读段数计算原理为:将脱靶读段的序列与探针序列进行比对,当成功比对时,该脱靶读段属于该探针的脱靶读段。
27、进一步地,上述高风险序列集与上述低风险序列集具有相同的重复区域类型。
28、更进一步地,上述高影响力重复类型集、上述中影响力重复类型集、上述低影响力重复类型集中的探针可以出现在多个重复类型集组。进一步地,每种重复区域类型中的探针的上述脱靶影响力计算方法为:
29、
30、;其中重复类型集划分方式具有一定的弹性,优选排序后数列中数值变化率较大的拐点作为划分的边界。
31、进一步地,上述第一探针集组、第二探针集组、以及第三探针集组的数量应均大于2,优选地每个探针集组数量大于3。
32、进一步地,上述高脱靶探针、上述较高脱靶探针、上述低脱靶探针、上述无脱靶探针划分方法为:
33、a.当一探针的脱靶读段数的条数高于其所在探针集总脱靶读段数的条数的1%时,将该探针判定为前述高脱靶探针;
34、b.当一探针在各探针集中均无脱靶读段时或均为零,将该探针判定为前述无脱靶探针;
35、c.当一探针在一探针集中无脱靶读段但在另外探针集中有脱靶读段时,将该探针判定为前述低脱靶探针;
36、d.除高脱靶探针、无脱靶探针、低脱靶探针外的探针均为前述较高脱靶探针。
37、进一步地,上述高风险序列集和上述低风险序列集中的序列条数均应大于20条。
38、进一步地,上述高危模体数据库构建完成后可以针对上述基因组重复区探针集中的探针,但不局限于该基因组重复区探针集中的探针进行评估分类,前提是待评估的重复区探针所属的重复区域类型包含在高危模体数据库中。
39、在另一实施方式中,本发明提供了一种评估基因组重复区探针捕获安全性的装置,该装置包括:
40、(1)待估探针集注释单元,设置为对待评估探针集中每一条探针进行重复区域类型注释,根据注释结果统计每种重复区域类型涉及的探针数;
41、(2)基础探针集分析单元,设置为分析基础探针集对实验样本的测序并注释在每种重复区域类型的脱靶探针,统计每种重复区域类型的第一总脱靶读段数和第一脱靶读段涉及的区域数;
42、(3)待估探针集分析单元,设置为分析上述基础探针集与上述待估探针集混合形成的混合探针集,对上述实验样本测序并注释每种重复区域类型的脱靶探针,统计每种重复区域类型的第二总脱靶读段数和第二脱靶读段涉及的区域数;
43、(4)脱靶影响力计算单元,设置为计算每种重复区域类型中的探针的脱靶影响力并对上述探针的脱靶影响力排序,依据排序结果划分为多个重复类型集,并分别与上述基础探针集混合,得到多个对应的第二重复类型集;
44、(5)重复类型划分及重组单元,设置为将上述多个重复类型集中的探针依据所属的重复区域类型进行一次以上的划分,得到多个重复类型集组;前述多个重复类型集组分别与上述基础探针集混合得到多个对应的重复类型-基础探针集组;
45、(6)待估探针集划分单元,设置为将上述多个第二重复类型集分别对上述实验样本进行捕获测序,以及将上述多个重复类型-基础探针集组分别对上述实验样本进行捕获测序,计算每条探针的脱靶读段数并进行划分,得到多个不同程度的脱靶探针;
46、(7)高危模体计算单元,设置为将多个不同程度的脱靶探针依据特定阈值划分为高风险序列集和低风险序列集;将前述高风险序列集对照前述低风险序列集,分析差异模体,得到重复区域类型的高危模体集;
47、(8)高危模体数据库生成单元,设置为依次分析上述待估探针集的所有重复区域类型,每个重复区域类型分析得到对应的待估-高风险序列集和待估-低风险序列集,上述待估-高风险序列集对照上述待估-低风险序列集,得到待估-重复区高危模体集;合并多个上述待估-重复区高危模体集,并合并上述重复区域类型的高危模体集,以得到高危模体数据库;
48、(9)探针风险评估单元,设置为使用上述高危模体数据库对上述待估探针集或另一待估探针集中的每一条探针进行分类。
49、进一步地,上述待估探针集注释单元中,上待估探针集中探针数量应大于50条。当以人类为参考基因组时,全基因组重复区域类型注释文件来自于ucsc数据库。
50、进一步地,上述基础探针集分析单元中,上述基础探针集内探针条数=2000±1500;
51、更进一步地,上述脱靶读段数计算原理为:将脱靶读段的序列与探针序列进行比对,当成功比对时,该脱靶读段属于该探针的脱靶读段。
52、进一步地,上述待估探针集分析单元中,上述实验样本必须与上述基础探针集分析单元中的实验样本相同。
53、进一步地,上述脱靶影响力计算单元中,每一种重复类型单探针的上述脱靶影响力计算方法为:
54、
55、更进一步地,上述脱靶影响力计算单元中重复类型集划分方式具有一定的弹性,优选排序后数列中数值变化率较大的拐点作为划分的边界。
56、进一步地,上述重复类型划分及重组单元中,上述第一探针集组、上述第二探针集组、上述第三探针集组的数量均须大于2,优选地每个探针集数量大于3。
57、进一步地,上述待估探针集划分单元中,上述中高脱靶探针、较高脱靶探针、上述低脱靶探针、上述无脱靶探针划分方法为:
58、a.当一探针的脱靶读段数其条数高于其所在探针集总脱靶读段数其条数的1%时,将该探针判定为高脱靶探针;
59、b.当一探针在各探针集中均未无脱靶读段时,将该探针判定为无脱靶探针;
60、c.当一探针在某探针集中无脱靶读段,但在另一探针集中有脱靶读段时,将该探针判定为低脱靶探针;
61、d.除高脱靶探针、无脱靶探针、低脱靶探针外的探针均为较高脱靶探针。
62、进一步地,上述待估探针集划分单元中中的实验样本必须与上述基础探针集分析单元中的实验样本相同。
63、进一步地,上述高危模体计算单元中,上述高风险序列集与上述低风险序列集中的序列条数均应大于20条。
64、进一步地,上述探针风险评估单元中,上述高危模体数据库构建完成后可以针对上述待估探针集中的探针,但不局限于前述待估探针集中的探针进行评估分类,前提是待评估的基因组重复区探针其所属的重复区域类型包含在高危模体数据库中。
65、与现有技术相比,本发明的评估方法和其装置,有益效果在于:
66、(1)应用本发明的技术方案,可评估在基因组重复区的探针捕获安全性,被评估为安全探针的探针可用于后续捕获实验,而被评估为风险探针的探针不建议直接用于后续实验。
67、(2)依本发明的标准进行评估的探针在后续应用过程中有着良好的表现,被评估为安全探针的探针即使属于重复区也不会在实际捕获过程中造成严重脱靶。
68、(3)本发明的技术方案可以降低在重复区设计探针而脱靶的风险,利于后续实验与分析,降低实验成本。