一种从核酸样品富集目标序列核酸的方法

文档序号:10565467阅读:290来源:国知局
一种从核酸样品富集目标序列核酸的方法
【专利摘要】本发明提供了一种从核酸样品富集目标序列核酸的方法,所述方法包括:提供包含目标核酸序列的核酸样品和与目标核酸序列一致或对目标序列具有特征性的诱饵序列;以所述诱饵序列为模板进行体外转录制备核酸类似物,所述核酸类似物带有结合部分;使所述核酸样品片段化;所述核酸类似物与所述核酸样品杂交,使得所述核酸类似物与所述目标序列核酸形成核酸类似物/DNA杂交复合物;通过所述结合部分,从非特异性杂交核酸中分离所述核酸类似物/DNA杂交复合物,去除非目标序列核酸。在优选的实施方案中,所述方法还包括对所述核酸类似物/DNA杂交复合物进行扩增,达到富集目标序列核酸的目的。
【专利说明】
-种从核酸样品富集目标序列核酸的方法
技术领域
[0001] 本发明设及核酸序列的捕获、富集与分析。更具体来说,本发明设及基于液相捕获 的目标序列富集方法。
【背景技术】
[0002] 全基因组测序可W获得全基因组水平范围的突变、插入、缺失W及结构变异。然 而,由于基因组容量较大,W30X进行测序就会产生接近IOOG的数据量。而肿瘤等相关的低 突变频率测序则需要至少1000 X的覆盖度,如果进行全基因组测序,则会产生多达3000G的 数据量。运样规模的数据量除了会对数据的分析工作造成极大的困难之外,还会使测序成 本巨大。运个时候,目标区域捕获技术应运而生。
[0003] 目标区域捕获技术是指通过特定的技术手段定向的捕获目标区域的核酸序列,然 后进行建库测序,W达到在对目标区域进行深度测序的目的的同时使得测序成本大大降 低。PCR是一种常见的用于富集目标区域的技术,更为常见的是利用多重PCR技术一次性地 捕获多个目标区域。多重PCR更适用于热点区域或者长度较小的目标区域的捕获;对于长度 较大的目标区域,例如长度超过IOOK的目标区域,多重PCR从其成本W及技术复杂度上来 看,都不再适合。
[0004] 因此,本领域中需要适合对长度较大的目标区域进行捕获的新方法。

【发明内容】

[0005] 为了解决上述问题,本发明提供了一种基于液相捕获的目标序列富集方法。
[0006] 在第一方面,本发明提供了一种从核酸样品富集目标序列核酸的方法,所述方法 包括:
[0007] a)提供包含目标核酸序列的核酸样品和与目标核酸序列一致或对目标序列具有 特征性的诱巧序列;
[000引b) W所述诱巧序列为模板进行体外转录制备核酸类似物,所述核酸类似物带有结 合部分;
[0009] C)使所述核酸样品片段化,优选制备文库;
[0010] d)所述核酸类似物与所述核酸样品杂交,使得所述核酸类似物与所述目标序列核 酸形成核酸类似物/DNA杂交复合物;
[0011] e)通过所述结合部分,从非特异性杂交核酸中分离所述核酸类似物/DNA杂交复合 物,去除非目标序列核酸。
[0012] 在一个实施方案中,在步骤C)的制备文库中在所述核酸样品片段两端连接接头序 列,并且在步骤e)还包括步骤f)根据所述接头序列对所述核酸类似物/DNA杂交复合物进行 扩增,达到富集目标序列核酸的目的。
[0013] 在一个实施方案中,其中所述诱巧序列具有选自如下的特性:i)自身不产生发夹 结构并且相互之间无二聚体产生,ii)拷贝数根据所述目标核酸序列的GC含量和/或空间结 构进行补偿,和iii)当所述目标区域是极高或者极低GC含量区域时或者当目标区域是低复 杂度区域时,用所述目标区域两侧区域作为替代区域设计诱巧,设计方法与所述目标区域 一致,iv)与核酸样品中目标核酸序列之外的其他序列无特异性结合。
[0014] 在一个实施方案中,所述诱巧序列的拷贝数还根据所述目标核酸序列受关注情况 进行补偿。
[0015] 在一个实施方案中,其中所述核酸样品是基因组0魁、3酷、〇0魁、1111?酷,在所述核酸 样品是RNA或mRNA的情况下,中步骤C)之前有将所述RNA或mRNA反转录成DNA的步骤。
[0016] 在一个实施方案中,所述诱巧序列在固体载体上,例如在微阵列载玻片上。
[0017] 在一个实施方案中,所述固体载体也为多种珠子或者为微阵列。
[0018] 在一个实施方案中,部分或者全部所述核酸类似物带有结合部分。
[0019] 在一个实施方案中,步骤b)中利用核酸类似物GNA、LNA、PNA、TNA或吗嘟核酸进行 体外转录,制备核酸类似物,优选所述核酸类似物带有结合部分。
[0020] 在一个实施方案中,其中所述结合部分为生物素结合部分。
[0021] 在一个实施方案中,根据所述目标序列的GC含量对所述诱巧序列拷贝数进行补 偿,GC含量越小或者越大,所述目标序列对应的诱巧序列拷贝数增加的就越多。
[0022] 在一个实施方案中,拷贝数根据所述目标核酸序列的GC含量进行补偿是指:WGC 含量在50 %的诱巧序列拷贝数系数为基准1,GC含量在10 % -90 %之间偏离50 %每1 %,诱巧 序列拷贝数系数增加0.08-0.12。
[0023] 在一个具体实施方案中,诱巧序列拷贝数补偿方法为:根据所述目标序列的GC含 量大小从高到低分为6档,其中第1档:10 %-30 % ;第2档:30 %-40 % ;第3档:40 %-60% ;第4 档:60%-70% ;第5档:70%-90% ;第6档:小于10%或大于90%,其中第3档的诱巧序列的拷 贝数为基准拷贝数,第2档和第4档的诱巧序列的拷贝数多于第3档,例如是第3挡的2.2-2.8 倍,第1档和第5档的诱巧序列的拷贝数更多,例如是第3挡的3-4倍。对于第6档,GC含量小于 10%或大于90%,W及目标区域是低复杂序列的情况,诱巧序列设计方法是:用所述目标区 域两侧区域作为替代区域设计探针,一般选择目标区域两侧3(K)bp W内区域作为替代区域, 优选15化P W内的区域。
[0024] 在一个实施方案中,其中所述诱巧序列长度为60-150bp,优选80-120bp。
[0025] 在一个实施方案中,其中所述与目标核酸序列一致或者对目标序列具有特异性是 指,诱巧序列在非目标区域上结合的热力学稳定性要显著弱于在目标区域上结合的热力学 稳定性,优选与目标区域Tm-与非特异区域Tm>5°C,更优选与目标区域Tm-与非特异区域Tm >l〇°C ;优选化的值基于SantaLucia 2007热力学参数表的最邻近法计算。
[0026] 在一个实施方案中,其中所述无二聚体产生是指,任意两个诱巧序列之间形成的 二聚体,其Tm《47°C,优选《37°C ;优选Tm的值基于SantaLucia 2007热力学参数表的最邻 近法计算。
[0027] 在一个实施方案中,其中所述无发卡结构产生是指,任一诱巧序列自身形成发卡 结构,其Tm《47°C,优选《37°C;优选Tm的值基于SantaLucia 2007热力学参数表的最邻近 法计算。
[0028] 在一个实施方案中,其中对每个目标区域,所述诱巧序列是在特异性、二聚体、发 卡结构W及与目标区域的相对位置方面综合评分最优的一个或者多个诱巧序列,所述综合 评分通过如下的打分函数进行:S = aX奇規^生+bXSzm+cXS发^?跑+dXS椒f醇,其中a = 0.26- 0.34、b = 0.08-0.12、c = 0.17-0.23、d = 0.35-0.45,具体的打分计算方法如下:
[0029] 奇規14的打分计算:对新设计的任一条诱巧序列,在基因组上对其进行序列比对,对 其每一条比对上的序列分别计算所述诱巧序列与比对上的序列之间Tm,所述诱巧序列与目 标区域Tm-其与任一比对上序列Tm之差>5°C,优选>10°C,计算所述诱巧序列与所有比对上 的序列之间的平均Tm,S概性=1 -Tm平罐/(Tm目标-5 ),优选對親性=1 -Tm平罐/(Tm目标-10 ),其中 Tnm姬是诱巧序列与所有非特异区域比对结果的平均化值,Tm厮是诱巧序列与目标区域Tm
[0030] 的打分计算:对新设计的任一条诱巧序列,与每一条已经设计的诱巧序列进 行二聚体比对分析,对其每一条比对上的序列分别计算所述诱巧序列与所述比对上的诱巧 序列之间的Tm,所述Tm<47°C,计算所述诱巧序列与所有比对上的诱巧序列之间的平均Tm, Sri齡=(47-T町划直)/47,优选所述Tm< 37 °C,计算所述诱巧序列与所有比对上的诱巧序列之 间的平均T'm.Szj齡=(37-町單姬)/37;
[0031] S发^的打分计算:对任一条诱巧序列,计算其最佳的自身比对结构,并计算所述 结构的Tm,所述Tm<47°C,并且坡唯前=(47-Tm)/47,优选所述Tm<37 °C,并且S鮮娜=(37- Tnm姬)/37;
[0032] S掀I醇的打分计算:对于目标区域坐标,对新设计的任一条诱巧序列,计算其与所 述目柄区域坐柄差值8Distance , 8Distance小于 150 , S椒f睛二(150-8Distance) /1 50。
[0033] 在第二方面,本发明还提供了实施本发明的方法的特异性诱巧序列,所述特异性 诱巧序列是本发明第一方面中设及到的诱巧序列。
[0034] 在一个实施方案中,所述特异性诱巧序列与目标核酸序列一致或对目标序列具有 特征性,并且i)自身不产生发夹结构并且相互之间无二聚体产生,ii)拷贝数根据所述目标 核酸序列的GC含量和/或空间结构进行补偿,iii)当所述目标区域是极高或者极低GC含量 区域时或者当目标区域是低复杂度区域时,用所述目标区域两侧区域作为替代区域设计探 针,设计方法与所述目标区域一致,iv)与核酸样品中目标核酸序列之外的其他序列无特异 性结合。
[0035] 在一个实施方案中,所述诱巧序列的拷贝数还根据所述目标核酸序列受关注情况 进行补偿。
[0036] 在第=方面,本发明还提供了一种试剂盒,所述试剂盒包括本发明第二方面所述 的诱巧序列,所述试剂盒还包括,但不限于,双链接头分子、多种不同的寡核巧酸探针。
[0037] 在一个实施方案中,所述试剂盒包含用于实现本发明第一方面的方法的组合物和 试剂。所述试剂盒包括,但不限于,双链接头分子、多种不同的寡核巧酸探针、与目标核酸序 列一致或对目标序列具有特征性的诱巧序列,所述诱巧序列:i )自身不产生发夹结构并且 相互之间无二聚体产生,ii)拷贝数根据所述目标核酸序列的GC含量、空间结构和/或受关 注情况进行补偿,iii)当所述目标区域是极高或者极低GC含量区域时或者当目标区域是低 复杂度区域时,用所述目标区域两侧区域作为替代区域设计探针,设计方法与所述目标区 域一致,iv)与核酸样品中目标核酸序列之外的其他序列无特异性结合。在某些实施方案 中,试剂盒包含两种不同双链接头分子。所述试剂盒可进一步包含至少一种或多种其他成 分,所述其他成分选自DNA聚合酶、W多核巧酸激酶、T4 DNA连接酶、杂交液、洗涂液和/或洗 脱液。在某些实施方案中,所述试剂盒包含磁体。在某些实施方案中,所述试剂盒包含一种 或多种酶,W及相应的试剂、缓冲液等,例如限制性内切酶,例如MlyI,W及用于使用MlyI进 行限制性酶切反应的缓冲液/试剂。
【具体实施方式】
[0038] 本发明提供了一种基于液相捕获的目标序列富集方法,所述包括:诱巧序列设计, 诱巧序列的核酸合成(用合成常规引物或固相合成的方法),用体外转录的方法制备核酸类 似物,所述核酸类似物包含结合部分;核酸样品前处理(按文库制备的方法进行),样品可W 是基因组DNA、RNA、cDNA、mRNA等;核酸类似物与目标序列核酸W互补配对原则形成核酸类 似物/DNA杂交复合物;洗脱去除低互补配对的核酸类似物/DNA杂交体,去除非目标序列核 酸;根据核酸样品前处理所加的接头序列,对互补配对的核酸类似物/DNA进行特异性扩增, 达到富集目标序列核酸的目的。
[0039] 在发明中,术语"样品"W其最广泛的意思使用,其意在包括从任何来源,优选从生 物来源获得的样本或培养物。生物样品可从动物(包括人)获得,并包括液体、固体、组织和 气体。生物样品包括血液制品,例如血浆、血清等等。因此,"核酸样品"包含任何来源的核酸 (例如0臟、3酷、。0魁、1111?酷、11?酷、11111?酷等)。在所述核酸样品是1?酷或1111?酷的情况下,中步骤 C)之前有将所述RNA或mRNA反转录成DNA的步骤。在本申请中,核酸样品优选源自生物来源, 例如人或非人细胞、组织等等。术语"非人"系指所有非人动物和实体,包括但不限于,脊椎 动物例如晒齿动物、非人灵长动物、绵羊、牛、反当动物、兔类动物、猪、山羊、马、犬、猫、鸟类 等等。非人还包括无脊椎动物和原核生物,例如细菌、植物、酵母、病毒等等。因此,用于本发 明的方法和系统的核酸样品为源自任何生物,无论真核或者原核的核酸样品。
[0040] 在发明中,发明人发现目标序列的GC含量对基于液相捕获的目标序列捕获效率有 较大影响。为了达到对多个目标序列的有效捕获,优选根据所述目标序列的GC含量对所述 诱巧序列拷贝数进行补偿,GC含量越小或者越大,所述目标序列对应的诱巧序列拷贝数增 加的就越多。
[0041] 发明人发现,对于GC含量在50%左右,例如±10%,的目标序列可W获得良好的目 标序列捕获效率;对于其他GC含量的目标序列,需要进行诱巧序列拷贝数补偿才能获得良 好的目标序列捕获效率。经过用人类基因组序列进行全面测试,发明人发现,为了达到更好 的目标序列捕获效率,WGC含量在50%的诱巧序列拷贝数系数为基准1,GC含量10%-90% 之间偏离50 %每1 %,诱巧序列拷贝数系数增加0.08-0.12。例如,GC含量为68%时,偏离 18%,诱导序列拷贝数系数为2.44-3.16。
[0042] 对于GC含量小于10%或大于90%属于低复杂序列的情况,运种情况下对应的诱巧 序列设计方法是:当所述目标区域是极高或者极低GC含量区域时或者当目标区域是低复杂 度区域时,用所述目标区域两侧区域作为替代区域设计探针,一般选择目标区域两侧3(K)bp W内区域作为替代区域,优选15化pW内的区域。
[0043] 在本发明中,低复杂度区域是指由很少种类的元素(如寡核巧酸)所组成的一个区 域,例如微卫星运种简单重复序列。
[0044] 在本发明中,优选对片段化后的样品DNA片段进行建库。
[0045] 在一个实施方案中,诱巧序列拷贝数补偿方法可W简单地表示为:根据所述目标 序列的GC含量大小从高到低分为6档,其中第1档:10%-30 % ;第2档:30 %-40% ;第3档: 40 %-60 % ;第4档:60 %-70 % ;第5档:70 %-90 % ;第6档:小于IO %或大于90 %,其中第3档 的诱巧序列的拷贝数为基准拷贝数,第2档和第4档对应的诱巧序列的拷贝数需要增加,例 如是第3挡的2.2-2.8倍,第1档和第5档的诱巧序列的拷贝数需要增加更多,例如是第3挡的 3-4倍。在一个实施方案中,对于第6档,GC含量小于10%或大于90%或者在GC含量是低复杂 序列的情况,诱巧序列设计方法是:用所述目标区域两侧区域作为替代区域设计探针,一般 选择目标区域两侧3(K)bpW内区域作为替代区域,优选15化pW内的区域。
[0046] 在一个实施方案中,其中对每个目标区域,所述诱巧序列是在特异性、二聚体、发 卡结构W及与目标区域的相对位置方面综合评分最优的一个或者多个诱巧序列,所述综合 评分通过如下的打分函数进行:S = aX奇規^生+bXSzm+cXS发^?跑+dXS椒f醇,其中a = 0.26- 0.34、b = 0.08-0.12、C = 0.17-0.23、d = 0.35-0.45。奇尉生等打分均为0到1之间的数值,具体 的打分计算方法如下:
[0047] 奇開4的打分规则:对新设计的任一条诱巧序列,在基因组上对其进行序列比对,采 用化AT软件,使用默认参数,对其每一条比对结果,分别计算热力学Tm参数,如果有与目标 区域Tm-与非特异区域Tm之差<5°C,优选< 10°C,则放弃该诱巧序列,重新设计;否则计算所 有非特异区域比对结果的平均Tm值,最终S特异性=I-Tm平罐/(Tmg标-5),其中优选對親性二1- Tm平繩/(Tm目标-10 ),其中Tm平均直是诱巧序列与所有非特异区域比对结果的平均Tm值,Tm目标是 诱巧序列与目标区域Tm;
[0048] 的打分规则:对新设计的任一条诱巧序列,与每一条已经设计的诱巧序列进 行二聚体比对分析,采用BLAT软件,使用默认参数,对其每一条比对结果,分别计算热力学 Tm参数,如果有Tm>47°C,则放弃该诱巧序列,重新设计;否则计算所有比对结果的平均Tm 值,最终S^= (47-Tn巧姬)/47;优选如果有Tm^37。°C,则放弃该诱巧序列,重新设计;否则 计算所有比对结果的平均化值,SzJ齡=(37-町單姬)/37;
[0049] S发惜拘的打分规则:对任一条诱巧序列,采用Sm i th-Wa t erman算法,计算其最佳的 自身比对结构,并根据此结构计算其热力学Tm参数值,如果有Tm>47°C,则放弃该诱巧序 列,重新设计;否则其S发唯朋=(47-Tm)/47,优选如果有Tm^37°C,则放弃该诱巧序列,重新 设计;否则其坡书前=(37-町單姬)/37;
[0050] S獅醇的打分规则:已知待设计目标区域坐标,对任一条诱巧序列,计算其与目标 区域坐标差值^Distance,设定可接受的差值为150,该数值是经验数值;如果差值大于150,则 放弃该诱巧序列,重新设计;否则其S椒f睛=(150-如13*3。。6)/150。在与目标区域坐标差值150 范围内无法设计出合适的诱巧序列,也可W将差值设置为300,其S椒I醇=(300-SDistance)/ 300。
[0051] 在本发明中,序列的Tm的计算不拘泥于具体的方法,各种方法计算的Tm值均可W 用于本发明,各种方法得到的Tm值基本不能逆转本发明的效果,只是效果的程度会有差异。 虽然SantaLucia 2007热力学参数表的最邻近法可W计算Tm,但其他方法计算的Tm值可W 与之相对应,本领域技术人员可W经过简单的试验比较各种方法计算得到的Tm,从而对各 种方法计算的化值作出适当选择。
[0052] 根据发明人的经验,对于人基因组编码区而言,超过99%的目标区域均可W设计 出适合本发明的诱巧序列,表明我们前述对GC区域的分档W及对Tm值的过滤都是合理的。
[0053] 在某些实施方案中,所述核酸类似物与目标核酸之间的杂交在优选地严格条件下 进行,所述严格条件足W支持所述核酸类似物/DNA之间的杂交,其中所述核酸类似物包含 连接化合物和所述目标核酸样品的互补区域,W提供所述核酸类似物/DNA杂交复合物。所 述复合物随后通过所述连接化合物捕获,并在足W去除非特应性结合核酸的条件下洗涂, 然后所杂交的目标核酸序列从所捕获的核酸类似物/DNA复合物中洗脱。
[0054] 在某些实施方案中,所述核酸类似物包含化学基团或连接化合物,例如结合部分 例如生物素、地高辛等等,其能结合于固体载体。所述固体载体可W包含相应的捕获化合 物,例如用于生物素的链霉亲和素或用于地高辛的地高辛抗体。本发明不限于所使用的连 接化合物,并且替代的连接化合物等同适用于本发明的方法、诱巧序列和试剂盒。
[0055] 在本发明中,所述化学基团或连接化合物,例如结合部分例如生物素、地高辛等 等,可W连接在核酸类似物(甘油核酸GNA、锁核酸LNA、肤核酸PNA、苏糖核酸TNA或吗嘟核 酸)中任何碱基上。优选地,所述核酸类似物链中可W包括核糖和/或脱氧核糖,所述化学基 团或连接化合物,例如结合部分例如生物素、地高辛等等,可W连接在核糖和/或脱氧核糖 上的碱基上。例如,所述核酸类似物合成中包括使用标记的ATP、CTP、GTP和/或UTP。标记用 核巧酸切dye、DIG、生物素、罗丹明、巧光素等的标记方法是本领域已知的。例如,生物素可 W用作核酸探针标记物,它能与核酸分子的UTP或dUTP 5 '位上的C原子相结合,并可与亲和 素结合而被检测。然而,本发明不限于已知的标记物和标记方法,未来发现的标记物和标记 方法也在本发明的考虑范围内。
[0056] 在本发明的实施方案中,所述多个目标核酸分子优选包含一种生物的全基因组或 至少一条染色体或一种任意大小分子量的核酸分子。优选地,所述核酸分子的大小至少约 200kb、至少约500kb、至少约IMb、至少约2Mb、或至少约5Mb,更优选大小约1 OOkb至约5Mb、约 200化至约5Mb、约500化至约5Mb、约IMb至约2Mb或约2Mb至约5Mb。
[0057] 在某些实施方案中,所述目标核酸来自动物、植物或微生物,在优选的实施方案 中,所述目标核酸分子选来自人。如果核酸样品的量比较少(例如某些情况下取得的人核酸 样品,例如发育中的胎儿的基因组),在实施本发明的方法之前可扩增所述核酸,例如通过 全基因组扩增。为进行本发明的方法,预先扩增可能是必须的,例如在法医应用中(例如在 法医学中用于遗传特征目的)。
[0058] 在某些实施方案中,所述多个目标核酸分子为一组基因组DNA分子。所述诱巧序列 可选自例如限定来自多个遗传基因座的多种外显子、内含子或调控序列的多个诱巧序列; 限定至少一个单独遗传基因座的全序列的多个诱巧序列,所述基因座大小任意,优选至少 1Mb,或至少上述特定大小之一;限定单核巧酸多态性(SNP)的多种诱巧序列;或限定一种阵 列的多种诱巧序列,例如设计为捕获至少一条完整染色体的全序列的嵌合阵列。
[0059] 在本文中,术语"杂交"系指互补核酸的配对。杂交和杂交强度(例如核酸之间结合 的强度)受多种因素的影响,例如核酸之间互补的程度、使用杂交条件的严格程度、所形成 杂交体的解链溫度(Tm) W及核酸的GC含量值。虽然本发明不受限于具体的杂交条件,但优 选使用严格的杂交条件。严格的杂交条件取决于序列并随杂交参数(例如盐浓度、有机物存 在等)而变化。通常,"严格的"条件选择为在规定的离子强度和抑下低于特定核酸序列的化 约5°C到约20°C。优选地,严格的条件为低于结合互补核酸的具体核酸的溫度烙点约5°C到 10°C。所述Tm是50%核酸(例如目标核酸)与完全配对探针杂交的溫度(在规定的离子强度 和抑下)。
[0060] 在本文中/严格的条件',例如可为50 %甲酯胺,5 X SSC(0.75M化Cl,0.075M巧樣 酸钢),50mM憐酸钢(P册.8 ),0.1 %焦憐酸钢,5 X Denhar化溶液、超声波处理的娃鱼精子DNA (50mg/ml),0.1 % SDS,W及10 %硫酸葡聚糖在42°C下杂交,在42°C Wo. 2 X SSC(氯化钢/巧 樣酸钢)和在55 °C W50 %甲酯胺洗涂,然后在55°C W含有抓TA的0.1 X SSC洗涂。例如,预计 包含35%甲酯胺、5 X SSC和0.1 % (w/v)十二烷基硫酸钢(SDS)的缓冲液适合在适度非严格 条件下在45°C杂交16-72小时。
[0061] 在本文中,术语"引物"系指寡核巧酸,无论天然存在经纯化、酶切后得到的或者经 合成方法产生的,当置于诱导与核酸链互补的引物延伸产物的合成的条件下(例如在核巧 酸和诱导试剂例如DNA聚合酶存在下,并在合适的溫度和pH下),能够作为合成的起点。所述 引物优选为具有最大扩增效率的单链。优选地,所述引物为寡脱氧核巧酸。所述引物必须足 够长W在所述诱导试剂存在下引发延伸产物的合成。所述引物的确切长度取决于很多因 素,包括溫度、引物来源和所使用方法。
[0062] 在本文中,术语"诱巧"或"诱巧序列"系指寡核巧酸(例如核巧酸序列),无论天然 存在经纯化、酶切后得到的或者经合成、重组或PCR扩增产生的,能够与另一目标寡核巧酸 例如目标核酸序列的至少一部分杂交。探针可为单链或双链。探针可用于特定基因序列的 检测、鉴别和分离。
[0063] 在本文中,术语"目标核酸分子"是指来自目标基因组区域的分子或序列。预选的 探针确定了目标核酸分子的范围。因此,所述"目标"试图与其它核酸序列区分出来。一个 "片段"定义为所述目标序列中的一个核酸区域,如作为核酸序列的一个"片段"或一"部 分"。
[0064] 在本文中,术语"分离"当用于设及核酸时,如用于"分离核酸"时,系指核酸序列从 其天然来源通常结合的至少一种其他组分或污染物中被鉴别并分离出来。分离的核酸W不 同于其天然存在的形式存在。相反,未分离的核酸例如DNA和RNA的核酸W其天然存在的状 态存在。所述分离的核酸、寡核巧酸或多核巧酸可W单链形式或双链形式存在。
[0065] 在本文中,术语"与目标核酸序列一致的诱巧序列"是指其互补序列可W与目标核 酸序列杂交的序列。优选,在严格的条件下进行杂交。当所述目标区域是极高或者极低GC含 量区域时或者当目标区域是低复杂度区域时,由于该区域无法设计诱巧序列,即诱巧序列 覆盖率为零,那么会在该目标区域左右两侧寻找合适区域设计诱巧序列;一般会在左右两 侧3(K)bp W内的范围设计诱巧序列;优选15化P W内的区域。
[0066] 在本发明的实施方案中,用于在本文所述的捕获方法和试剂盒中使用的诱巧序列 的转录引物包含连接化合物,例如结合部分。结合部分包含任何连接或引入用于随后捕获 核酸类似物/目标核酸杂交复合物的扩增引物的5'端的部分。结合部分为引入引物序列5' 端的任何序列,例如可捕获的6组氨酸(6HIS)序列。例如,包含細IS序列的引物可被儀捕获, 例如在儀包被或包含儀包被珠子、颗粒等的管子、微孔、或纯化柱中,其中所述珠子包装入 柱子中,样品装入并通过柱子W捕获复杂度降低的复合物(例如,和随后的目标洗脱)。用于 本发明的实施方案的另一种结合部分的实例包括半抗原,例如地高辛,例如其连接到扩增 引物的5'端。地高辛可使用地高辛抗体捕获,例如包被或包含抗地高辛抗体的基质。
[0067] 在某些实施方案中,所述结合部分为生物素,用链霉亲和素包被所述捕获基质,例 如珠子如顺磁颗粒,用于从非特异性杂交目标核酸中分离所述目标核酸/转录产物复合物。 例如,当生物素为结合部分时,链霉亲和素(SA)包被的基质,例如SA包被的珠子(例如磁珠/ 颗粒)用于捕获所述生物素标记的核酸类似物/目标复合物。洗涂所述SA结合的复合物,所 杂交的目标核酸从所述复合物洗脱进行测序。
[0068] 可使用无掩膜阵列合成技术在固体载体上并行提供序列中与所述基因组至少一 个区域对应的诱巧序列。替代性地,探针可使用标准DNA合成仪连续获得并应用到所述固体 载体,或可从有机体获得并固定于所述固体载体。杂交之后,未杂交或与所述核酸类似物非 特异性杂交的核酸通过洗涂从所述载体结合的核酸类似物中分离。剩余的核酸与所述核酸 类似物特异性结合,在例如热水中或在包含例如TRIS缓冲液和/或抓TA的核酸洗脱缓冲液 中从所述固体载体洗脱,W产生所述目标核酸分子富集的洗脱物。
[0069] 或者,用于目标分子的诱巧序列可如上所述在固体载体上合成,作为诱巧序列集 合从所述固体载体释放并扩增。所述转录的释放核酸类似物集合可共价或非共价固定于载 体,例如玻璃、金属、陶瓷、或聚合珠子或其它固体载体。所述核酸类似物可设计为从所述固 体载体方便释放,例如在最接近载体的核酸类似物末端或其附近提供酸或碱不稳定的核酸 序列,其分别在低或高抑条件下释放所述核酸类似物。本领域已知多种可剪切的连接化合 物。所述载体可W,例如,W具有液体进口和出口的圆柱提供。本领域熟悉将核酸固定到载 体的方法,例如通过将生物素标记的核巧酸结合到所述核酸类似物中,并使用链霉亲和素 包被所述载体,由此所述包被的载体非共价吸引并固定所述集合中的所述核酸类似物。所 述样品在杂交条件下通过所述包含核酸类似物的载体,由此与所述固定载体杂交的目标核 酸分子可洗脱,用于之后的分析或其它用途。
[0070] 术语"核酸"可包括,例如,但不限于:脱氧核糖核酸(DNA)、核糖核酸(RNA)和人工 核酸比如肤核酸(PM)、吗嘟核酸(mor曲olino)和锁核酸(LNA)、甘油核酸(glycol nucleic acid,GNA)和苏糖核酸(TM)。在本文中,术语"核酸"、"核酸序列"或者"核酸分子"应该从广 义解释,举例来说,可W是核糖核酸(RNA)或脱氧核糖核酸(DNA)或者其模拟物的寡聚物或 者聚合物。该术语包括由天然核碱基、糖类和共价核巧间(骨架)连接构成的分子W及具有 非天然核碱基、糖类和共价核巧间(骨架)连接构成的具有类似功能的分子或者其組合。因 为所需的性质,比如对核酸祀分子亲和力增强W及在核酸酶和其他酶存在时稳定性增加, 运样的经修饰或者取代的核酸可能比天然形式更优选,并且在本文中用术语"核酸类似物" 或者"核酸模拟物"来描述。核酸模拟物的优选实例是包含肤核酸(PM)、锁核酸化NA)、木- 锁核酸Uylo-LNA)、硫代憐酸酷、2'-甲氧基、2'-甲氧基乙氧基、吗嘟核酸和氨基憐酸醋的分 子或者功能上类似的核酸衍生物。
[0071 ]实施例
[0072] 实施例1:诱巧序列的设计
[0073] 随机选择人基因组上外显子和内含子上1000个位点(运些位点的分布见表)用于 测试本发明的方法。对运1000个随机祀序列设计诱巧序列用于后续测试。
[0074] 表1:随机选择的1000个位点的染色体分布
[0075]
[0076] 诱巧序列设计包括W下步骤:
[0077] 1.首先,目标序列特征性分析包括如下步骤:
[007引a)根据目标序列GC含量大小从高到低分为5档,其中1档:10%-30%;2档:30%- 40% ;3档:40%-60% ;4档:60%-70% ;5档:70%-90% ;
[0079] b)分析目标序列空间结构,标记能形成稳定空间结构的目标序列;
[0080] 2.其次,对诱巧序列的设定标准W及评分:
[0081 ] a)目标序列长度在60-150bp范围;
[0082] b)保持特异性,特异性的原则是,诱巧序列在非目标区域上结合的热力学稳定性 要显著弱于在目标区域上结合的热力学稳定性;一般分析的指标为Tm(目标区域)-Tm(非特 异区域)>(非特异区域)5°c;部分数据Tm(目标区域)-Tm(非特异区域)>10°C进行对比(强 特异性限制);不同热力学计算方法,对计算结果影响较大,运里是基于SantaLucia 2007热 力学参数表的最邻近法计算;
[0083] C)无二级结构产生,二级结构包括二聚体和发卡结构,即所设计的诱巧序列不允 许产生二聚体或者发卡结构;任意两个诱巧序列之间形成的二聚体,其Tm《47°C,部分数据 《37°C进行对比(严格二聚体限制);任一诱巧序列自身形成发卡结构,其Tm《47°C,部分数 据《37°C进行对比(严格发夹结构限制);不同热力学计算方法,对计算结果影响较大,运里 是基于SantaLucia 2007热力学参数表的最邻近法计算;
[0084] d)对每个目标区域,分析候选诱巧序列,根据每个候选序列的特异性、二聚体、发 卡结构W及与目标区域的相对位置,设计综合评分,然后根据评分结果,选择最优的一个或 者多个诱巧序列(即打分函数值最大的),:S = a X &崩牲+6 X Sz3B$+c X Ss指解+d X S椒I睛,其中 a = 0.26-0. :M、b = 0.08-0.12、c = 0.17-0.23、d = 0.35-0.45,打分通过自有软件计算提供, 规则如下:
[0085] 奇開4的打分规则:对新设计的任一条诱巧序列,在基因组上对其进行序列比对,采 用化AT软件,使用默认参数,对其每一条比对结果,分别计算热力学Tm参数,如果有与目标 区域Tm-与非特异区域Tm之差<5°C,则放弃该诱巧序列,重新设计,其中部分数据<10°C作 为对比;否则计算所有比对结果的平均Tm值,最终奇崩tt= I-TnFi難/(Tm献-5),部分数据奇就?生 = I-Tnm姬/(Tmg标-10)作为对比,其中Tnm姬是诱巧序列与所有非特异区域比对结果的平均 化值,化厮是诱巧序列与目标区域Tm;
[0086] 的打分规则:对新设计的任一条诱巧序列,与每一条已经设计的诱巧序列进 行二聚体比对分析,采用BLAT软件,使用默认参数,对其每一条比对结果,分别计算热力学 Tm参数,如果有Tm>47°C,则放弃该诱巧序列,重新设计;否则计算所有比对结果的平均Tm 值,最终S^= (47-Tm平均值)/47,部分数据Tm^ 37 °C作为对比,则放弃该诱巧序列,重新设 计;否则计算所有比对结果的平均化值,SzJ齡=(3 7-町單姬)/3 7;
[0087] S发特跑的打分规则:对任一条诱巧序列,采用Sm i th -Wa t e rman算法,计算其最佳的 自身比对结构,并根据此结构计算其热力学Tm参数值,如果有Tm>47°C,则放弃该诱巧序 列,重新设计;否则其S鮮娜=(47-Tm)/47,部分数据如果有Tm^37°C作为对比,则放弃该诱 巧序列,重新设计;否则其坡书前=(37-町單姬)/37;
[0088] S掀I醇的打分规则:已知待设计目标区域坐标,对任一条诱巧序列,计算其与目标 区域坐标差值^Distance,设定可接受的差值为150,该数值是经验数值;如果差值大于150,则 放弃该诱巧序列,重新设计;否则其S椒f睛=(150-如13*3。。6)/150。在与目标区域坐标差值150 范围内无法设计出合适的诱巧序列,作为对比还将部分差值设置为300,其句酣^醇=(300- Soistance ) /300 〇
[0089] 3.再次,根据具体目标区域情况,进行诱巧序列拷贝数补偿:
[0090] a)根据目标序列的稳定性分类情况,W3档的诱巧序列拷贝数作为基准拷贝数(即 基准1);1档和5档对应的诱巧序列需要增加较多的拷贝数,是第3挡的2.5倍;其次是2档和4 档,其对应的诱巧序列也需要稍多的拷贝数是第3挡的3.5倍;
[0091] b)对于形成稳定空间结构的目标序列,诱巧序列拷贝数翻倍;
[0092] C)对于目标区域可能是重点关注区域时,例如可能是融合事件发生的区域,诱巧 序列拷贝数翻倍;
[0093] d)另外在相同条件下进行诱巧序列拷贝数不补偿的平行试验作为对照。
[0094] 4.最后,当目标序列无法设计探针时,例如,当目标区域是极高或者极低GC含量区 域时,或者当目标区域是低复杂度区域时(低复杂度区域是指由很少种类的元素如寡核巧 酸所组成的一个区域,例如微卫星运种简单重复序列),由于该区域无法设计诱巧序列,即 诱巧序列覆盖率为零,那么会在该目标区域左右两侧寻找合适区域设计诱巧序列;一般会 在左右两侧3(K)bp W内的范围设计诱巧序列;如果15化P W内的区域能设计出合适的诱巧序 列,则记录作为对照。本实施例中随机选择的目标序列中有138个属于运种情况,68个在其 左右15化PW内的区域成功设计出诱巧序列,另外22个在其左右150-3(K)bp内成功设计出诱 巧序列,仍有48个在运些区域都无法设计探针。
[00M] 5.最终设计的诱巧序列见情况见表2。
[0096] 表2:诱巧序列设计情况
[0097]
[0098] 其中严格打分函数限制的条件是:与目标区域Tm-与非特异区域Tm^ior,奇親性= TiffTO(t/37; Tm<37 °C,Sz?= (37-Tmw3(t)/37; Tm< 37 °C,(37-Tmw3(t)/37。
[0099] 实施例2:诱巧序列的制备
[0100]按照实施例1设计的诱巧序列进行序列制备,诱巧序列制备方法如下:
[0101 ] 1.在诱巧序列5 '端和3 '端分别添加长度为20个碱基的特异性序列,特异性序列设 计原则是:1)不会在目标(待捕获)基因组上产生非特异扩增产物;2)GC含量位于30%-70% 之间,优选40%-60%之间;3)两者不会形成二聚体,或者形成的二聚体自由能《47°C,优选 《37°C。从而形成待合成序列,所有诱巧序列同一对特异性序列,举例如下:
[0102] 5'端特异性序列-诱巧序列(60-15化P不等)-3'端特异性序列为(SEQ ID NO. 1):
[0103] ATATAGATGCCGTCCTAGCG-NNNNNNNNNN......NNNNNNNNNN-TGGGCACAGGAAAGATACTT〇 其中。順順順順順......順順順順腑'表示诱巧序列。
[0104] 2.特异性序列通过本发明人自主开发的液相杂交捕获测序探针设计软件生成。
[0105] 3.将待合成序列利用本领域公知的忍片方法大规模合成寡核巧酸,接着用用氨水 将忍片上的寡核巧酸洗脱下来,经过纯化后溶于双蒸水中,形成寡核巧酸池。
[0106] 4. W寡核巧酸池为模板,与5'端特异性序列和3'端特异性序列互补的5'端引物和 3'端引物为引物,利用hq聚合酶(JumpStart Taq DNA化Iymerase采购至Sigma,Catalog No. D6558)进行聚合酶链式反应扩增,获得大量的双链DNA池,具体操作步骤如下:
[0107] 1)巧府化系化下:
[010 引
[0109]
[0110]
[0111]
[0112] 3)使用QIAGEN PCR纯化试剂盒(QIAGEN、Cat No./ID 28104),根据其操作说明书 进行PCR产物纯化:
[0113] 4)使用5 '端引物的5 '端带T7序列(TAATACGACTCACTATAGGG)作为正向引物与3 '端 引物作为反向引物,利用Taq聚合酶(JumpStart Taq DNA Polymerase采购至Sigma, 化化log No.D6558)进行聚合酶链式反应扩增,形成5'端带T7序列的双链DNA池。操作如下:
[0114] 5)反应体系: 「01151
[0118] 采用凝胶电泳对上一步PCR反应产物进行分离,去除非特异条带,回收120-21化P 区域片段,采用Qiagen胶回收试剂盒(QIAquick Gel Extraction Kit,No./Id 28704) 进行纯化;
[0119] 7)采用T7 High Yield RNA Transcription Kit(化巧me,TR101-01/02),利用核 酸类似物(甘油核酸GNA、锁核酸LNA、肤核酸PNA、苏糖核酸TM或吗嘟核酸)的NTP和生物素 标记的UTP为底物,对上一步胶回收纯化产物进行体外转录,制备成含生物素标记的核酸类 似物池:
[0120]
[i
[0122] 37°C解育8-12小时,得到最高产量核酸类似物池,纯化后稀释至SOOngAil,置于- 80°C冰箱保存。
[0123] 另外W标准核酸41口、巧1\61口、1^^和81〇*111-1^^中相同条件下平行试验作为对 照。
[0124] 实施3:目标区域文库捕获
[0125] 1.用于高通量捕获测序的DNA文库制备:
[01%] 1)取被测物种的基因组DNA化g,使用超声波破碎仪Bioruptor pico进行随机打 断至150-250bp小片段;
[0127] 2)使用Illumina TruSeq DNA library pr邱aration试剂盒进行捕获前小片段文 库制备。
[0128] 2.使用制备的核酸类似物池和目标物种的小片段文库进行目标区域文库杂交捕 获:
[0129] 1)封闭引物准备:
[0130]
[0131] 按照W上引物序列进行合成,每种合成100 0D,将每种引物稀释至1000 iiM,并按照 等体积混合,命名为Block 1;
[0132] 2)将cot-1 DNA与salmon sperm DNA稀释至lOOng/ul,并等体积混合,标记为 Block 2;
[0133] 3)取化1 Block 1与化1 Block 2进行混合,标记为Block Mix;
[0134] 4)取化g小片段基因组文库与1化1 Block Mix混合,并使用低溫冷冻干燥离屯、机 进行浓缩至化1,标记为试剂Sl,置于冰上待用;
[0135] 6)取20山杂交液(20 X SS阳,2 X Dennard - S,ImM 抓TA,1 % SDS)置于65 °C 金属浴上 预热,标记为S2;
[0136] 7)取化1纯水,混匀后加入化1 SOOngAil核酸类似物池,缓慢吸打数次混匀,标记 为S3,置于冰上待用;
[0137] 8)将PCR仪参数设置成95°C,5min;65°C,1化;65°C,恒溫;热盖 105°C ;
[013引 9)将Sl置于PCR模块上,启动PCR程序,程序运行至65 °C5min后,将S2放入PCR仪模 块,继续解育5min后,将S3放入PCR仪模块,继续解育2min;
[0139] 10)将移液器调至13山,取13山S2转移至S3,取化1 SI转移至S3,缓慢吸打数次充 分混匀混合物,密封管盖,盖上PCR热盖,解育16小时进行探针与文库杂交;
[0140] 11)取SOul Dynabeads MyOne Streptavidin TlQnvitrogen,货号:65601)置于 1.5ml低吸附离屯、管内,加入20化1结合液[0.5M化Cl (Ambion,货号:AM9760G),2mM Tris- 肥 1,抑 8.0(Ambion,货号:AM9855G),0.2mM 抓TA(Ambion,货号:AM9260G)],吸打混匀后置 于磁力架上Imin,移除上清液;
[0141] 12)将离屯、管从磁力架上取下,再加入200iU结合液,吸打混匀后置于磁力架上 Imin,移除上清;
[0142] 13)重复步骤11两次,共进行3次磁珠清洗,最后用20化1结合液重悬磁珠;
[0143] 14)将探针、文库杂交混合液(步骤9产物)转移至磁珠重悬液内,密封管盖,置于旋 转混匀仪上混匀结合30min;
[0144] 15)将离屯、管置于磁力架上2min,移除上清液;
[0145] 16)将离屯、管从磁力架上取下,加入200iil清洗液UlOX SSCUmbion,货号: AM9763),1 % SDS( Invitrogen,货号:24730020)]重悬磁珠,密封管盖,置于旋转混匀仪上清 洗IOmin;
[0146] 17)将离屯、管置于磁力架上2min,移除上清;
[0147] 18)把离屯、管从磁力架上取下,加入20化1 65°C预热的清洗液2[ IX SSCUmbion, 货号:AM9763),5 % SDS(Invi化Ogen,货号:24730020)]重悬磁珠,并置于PCR仪模块上65°C 解育IOmin;
[0148] 19)将离屯、管置于磁力架上2min,移除上清;
[0149] 20)重复步骤17-18两次,共进行3次清洗;
[0150] 21)向离屯、管内加入200iil 80%乙醇溶液,静置30s,移除全部酒精,室溫惊干 2min,加入纯水缓慢吸打数次重悬磁珠;
[0151] 3. PCR富集目标区域捕获产物,采用NEB高保真PCR试剂盒(Phusion? High- Fidelity PCR Kit ,New England Biolabs ,&1:alog#E0553S):
[0152] I)反应体系: 「rn C01
[0156] 3)使用Beckman Agencoui't AMPure XP Kit[Beckman(p/n A63880)]进行PCR产物 纯化;
[0157] 4)使用Illumina测序平台进行目标区域捕获文库进行高通量测序,测序读长建议 使用PE150模式。
[015引3.结果
[0159] 1)采用11 Iumina高通量测序仪化seq 4000,对测序文库进行上机测序,得到1000 个位点的测序数据;
[0160] 2)利用BWA MEM软件,将测序数据与到人类参考基因组HG19进行比对,所用的参数 为:bwa mem-M-k 4〇-t 8-R"@RG\tID:Hiseq\tF*L:Ill皿ina\tSM:sample",从而得到与参考 基因组不同的单核巧酸多态性、插入或缺失,即所检测到的基因突变。
[0161 ] 3)采用samtools-1.2软件中的samtools stats工具统计数据的大小、比对率、重 复率、质量值,接着再用软件中的samtooIs depth工具,计算目标区域每个位置的测序深 度;
[0162] 4)根据目标区域每个位置的测序深度,分别统计测序深度>1、>4、>10及>20的 碱基数量,再将该碱基数量除W目标区域的总碱基数量,从而得到1 X覆盖率、4 X覆盖率、 10 X覆盖率及20 X覆盖率的参数。
[0163] 表3:1000位点捕获测序结果
[0164]
[01化] /AW丄巧JKI W看田,WLiN/ViTiyij,-rw休化巧4。丄.OJ后;4入復血半巧34.,I巧 20 X覆盖率也有93.64%,具有较好的覆盖率和均一性,而总数据量仅为8.52Mb reads。运 样的结果带来的有益效果有:1)测序量小,有效降低成本;2)平均测序深度高,即每一个目 标位点被测序多次,因而数据准确性高;3)覆盖率高,遗漏位点少;4)均一性好,即绝大多数 位点具有相近的覆盖深度。
[0166] 根据对作为比较的数据子集W及对照数据的分析,与LNA相比,诱巧序列拷贝数不 补偿的情况下覆盖率和均一性分别下降4.5和5.1个百分点;强特异性限制、严格二聚体限 审IJ、严格发夹结构限制和严格打分函数限制的情况下覆盖率和均一性分别增加6.3和7.8个 百分点;150bp W内的区域与150-300bp内的区域覆盖率和均一'性分别大2.3和3.8个百分 点;W相同比例的标准核酸41?、口1\61?、17^和81〇*111-17^平行试验覆盖率和均一性分别 降低5.3和4.8个百分点。
[0167] 虽然已经结合优选实施例对本发明进行了描述,但应当理解本发明的保护范围并 不局限于运里所描述的实施例。结合运里披露的本发明的说明和实践,本发明的其他实施 例对于本领域技术人员都是易于想到和理解的。说明和实施例仅被认为是示例性的,本发 明的真正范围和主旨均由权利要求所限定。
【主权项】
1. 一种从核酸样品富集目标序列核酸的方法,所述方法包括: a) 提供包含目标核酸序列的核酸样品和与目标核酸序列一致或对目标序列具有特征 性的诱t耳序列; b) 以所述诱饵序列为模板进行体外转录制备核酸类似物,所述核酸类似物带有结合部 分,例如生物素结合部分; c) 使所述核酸样品片段化,优选制备文库; d) 所述核酸类似物与所述核酸样品杂交,使得所述核酸类似物与所述目标序列核酸形 成核酸类似物/DNA杂交复合物; e) 通过所述结合部分,从非特异性杂交核酸中分离所述核酸类似物/DNA杂交复合物, 去除非目标序列核酸。2. 根据权利要求1的方法,还包括步骤f):对所述核酸类似物/DNA杂交复合物进行扩 增,达到富集目标序列核酸的目的。3. 根据权利要求1的方法,其中步骤b)中利用核酸类似物GNA、LNA、PNA、TNA或吗啉核酸 进行体外转录,制备核酸类似物。4. 根据权利要求1所述的方法,其中所述核酸样品是基因组DNA、RNA、cDNA、mRNA,在所 述核酸样品是RNA或mRNA的情况下,在步骤c)之前有将所述RNA或mRNA反转录成DNA的步骤。5. 根据权利要求1的方法,其中所述诱饵序列具有选自如下的特性:i)自身不产生发夹 结构并且相互之间无二聚体产生,ii)拷贝数根据所述目标核酸序列的GC含量和/或空间结 构进行补偿,i ii)当所述目标区域是极高或者极低GC含量区域时或者当目标区域是低复杂 度区域时,用所述目标区域两侧区域作为替代区域设计诱饵,设计方法与所述目标区域一 致,iv)与核酸样品中目标核酸序列之外的其他序列无特异性结合。6. 根据权利要求4的方法,其中ii)中拷贝数根据所述目标核酸序列的GC含量进行补偿 是指:以GC含量在50 %的诱饵序列拷贝数系数为基准I,GC含量10 % -90 %之间每偏离1 %, 诱饵序列拷贝数系数增加〇. 08-0.12。7. 所述诱饵序列在固体载体上,例如在微阵列载玻片上。8. 根据权利要求1的方法,其中对每个目标区域,所述诱饵序列是在特异性、二聚体、发 卡结构以及与目标区域的相对位置方面综合评分最优的一个或者多个诱饵序列,所述综合 评分通过如下的打分函数进行:S = a X Sj#异|4+b X Szm+c X S发^^构+(1 X S棚1璃,其中曰=0.26- 0.34、b = 0.08-0 · 12、c = 0.17-0.23、d = 0.35-0.45,具体的打分计算方法如下: 汾薪14的打分计算:对新设计的任一条诱饵序列,在基因组上对其进行序列比对,对其每 一条比对上的序列分别计算所述诱饵序列与比对上的序列之间Tm,所述诱饵序列与目标区 域Tm-其与任一比对上序列T m之差多5°C,优选多KTC,计算所述诱饵序列与所有比对上的序 列之间的平均 诱饵序列与所有非特异区域比对结果的平均Tm值,!'!!!睹示是诱饵序列与目标区域Tm; 的打分计算:对新设计的任一条诱饵序列,与每一条已经设计的诱饵序列进行二 聚体比对分析,对其每一条比对上的序列分别计算所述诱饵序列与所述比对上的诱饵序列 之间的Tm,所述Tm<47°C,计算所述诱饵序列与所有比对上的诱饵序列之间的平均Tm,Sj$ =(47-Tiffroe) /47,优选Tm< 37 °C,计算所述诱t耳序列与所有比对上的诱t耳序列之间的平均 Tm,Sz?= (37-?!?(直)/37; Sg的打分计算:对任一条诱饵序列,计算其最佳的自身比对结构,并计算所述结构 的Tm,所述Tm<47 °C,并且S发调(47-Tm)/47,所述Tm<47°C,并且S发调(37-Tm平罐)/ 37; 的打分计算:对于目标区域坐标,对新设计的任一条诱饵序列,计算其与所述目 丰不区域坐t不差值^Distance,5[)istance小于 150,3棍養^一( 150_5[)istance ) /1 50。9. 权利要求1-8任一项涉及到的诱饵序列。10. 包括权利要求9所述的诱饵序列的试剂盒,所述试剂盒包括,但不限于,双链接头分 子、多种不同的寡核苷酸探针。
【文档编号】C12Q1/68GK105925671SQ201610250133
【公开日】2016年9月7日
【申请日】2016年4月22日
【发明人】蔡万世, 王瑞超, 屈武斌, 杭兴宜
【申请人】艾吉泰康生物科技(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1