用于标记dna-编码文库的方法
【专利摘要】本发明涉及寡核苷酸编码的文库以及标记此类文库的方法。特别地,该方法和寡核苷酸可以包括:一种或多种2’-取代的核苷酸,如2’-O-甲基核苷酸或2’-氟代核苷酸;和,增强酶促连接的其他条件或试剂;或,支持化学连接的一种或多种化学官能度。
【专利说明】用于标记DNA-编码文库的方法
[0001]相关申请的引用
[0002]本申请要求于2011年9月7日提交的美国临时专利申请号US61/531,820和于2011年9月20日提交的美国临时专利申请号US61/536,929的权益,它们各自通过引用并入本文。 【背景技术】
[0003]总体上,本发明涉及化合物的DNA-编码文库以及使用和创建此类文库的方法。本发明还涉及在此类文库中使用的组合物。
[0004]DNA编码的组合文库为药物发现提供了许多益处。这些文库可以提供可快速筛选和询问(interrogate)的大量不同的化合物。为了进一步增加复杂性,可以将发现方法的各种步骤编程并自动化。这些步骤包括采用多步的、裂池合成(split-and-poolsynthesis)以将结构单元(building block)添加至原子或多原子支架(scaffold)并使用酶和/或化学连接反应以添加DNA标签,该DNA标签编码所述合成步骤和结构单元。
[0005]尽管有这些益处,但是当必需合成和解裙合(deconvoluted)非常大的或复杂的文库时,可能会出现很多问题。随着文库的大小增加,可能需要改良的方法以提供高产率的标签连接(tag ligation)。为了在不同的反应条件下创建文库,稳定连接后的核苷酸构建体将是有益的,例如在高PH和高温条件下是稳定的构建体。为了简化标签的解褶合,可以由DNA-或RNA-依赖性聚合酶来识别标签的序列,从而可以通过模板依赖性聚合和序列测定来确定标签群体统计。当要创建具有所有这些益处属性的文库时可能会出现困难。因此,需要在DNA-编码文库中筛选和识别小分子化合物的改进的、更可靠的方法。
【发明内容】
[0006]本发明描述了创建文库的方法以及在产生文库中使用的组合物,其中该方法包括改善标签的单链连接的一种或多种条件。示例性条件包括在标签中使用一种或多种2’-取代的碱基,如2’ -O-甲基或2’ -氟代;使用特定长度的标签;使用一种或多种酶;可选地在标签设计中包含错误识别能力;和/或在连接反应中使用一种或多种试剂。
[0007]因此,本发明描述了一种标记(tagging)第一文库的方法,该第一文库包括寡核苷酸编码的化学实体(chemical entity),该方法包括:(i)提供具有第一官能团和第二官能团的头片段(headpiece),其中该头片段包括至少一个2’ -取代的核苷酸;(ii)使该头片段的第一官能团结合至该化学实体的第一组分上,其中该头片段直接地连接至第一组分或者该头片段通过双官能接头(例如,聚乙二醇接头或-(CH2CH2O)nCH2CH2-,其η是I至50的整数)间接地连接至第一组分;和(iii)使该头片段的第二官能团结合至第一结构单元标签以形成复合物,其中可以以任何顺序来进行步骤(ii)和(iii)并且其中第一结构单元标签为步骤(ii)的结合反应进行编码,从而提供标记的文库。
[0008]在一些实施方式中,头片段在该头片段的5 ’ -末端、3 ’ -末端或内部位置中的一个或多个上包含2’ -取代的核苷酸。在特定的实施方式中,头片段在5’ -末端或3’ -末端处包含2’ -取代的核苷酸和第二官能团。
[0009]在其他实施方式中,第一结构单元标签包含至少一个(例如,至少两个、三个、四个、五个或更多个)2’ -取代的核苷酸。在特定的实施方式中,第一结构单元标签在该第一结构单元标签的5’ -末端、3’ -末端或内部位置中的一个或多个上包含2’ -取代的核苷酸(例如,在5’ -和3’ -末端同时具有2’ -O-甲基核苷酸或2’ -氟代核苷酸)。在一些实施方式中,第一结构单元标签在3’ -末端或在5’ -末端具有保护基团。
[0010]在本文的任一实施方式中,2 ’ -取代的核苷酸是2’ -O-甲基核苷酸(例如,2’ -O-甲基鸟嘌呤或2’ -O-甲基尿嘧啶)或2’ -氟代核苷酸(例如,2’ -氟鸟嘌呤或2’ -氟尿嘧啶)。
[0011]在任一上述实施方式中,步骤(ii)可以包括使头片段直接接合(joining)、结合(binding)或操作性地缔合(associating)至第一组分(例如,支架或结构单元)。在又另一个实施方式中,步骤(ii)包括通过双官能接头使头片段间接地结合至第一组分(例如,支架或第一结构单元)(例如,该方法包括使头片段与该接头的第一官能团结合以及使第一组分与该接头的第二官能团结合)。
[0012]在任一上述实施方式中,方法可以进一步包括(iv)使第二结构单元标签结合至复合物的5’ -末端或3’ -末端;和(V)使化学文库的第二组分(例如,第一结构单元或第二结构单元)结合至第一组分,其中可以以任何顺序进行步骤(iv)和(V)。在一些实施方式中,第二结构单元标签为步骤(V)的结合反应编码。在其他实施方式中,步骤(iv)可以包括使第二结构单元标签结合至复合物的5’ -末端;该复合物在5’ -末端包括磷酸酯基团;并且该第二结构单元标签在3’ -和5’ -末端都包含羟基。在其他实施方式中,步骤(iv)可以进一步包括在结合 第二结构单元标签之前纯化复合物并且使该复合物与多核苷酸激酶反应以在5’-末端上形成磷酸酯基团。在其他实施方式中,步骤(iv)可以包括将第二结构单元标签结合至复合物的3’ -末端;该复合物在3’ -末端包含保护基团;并且该第二结构单元标签在5’ -末端包括磷酸酯基团并且在3’ -末端包括保护基团。在又另一个实施方式中,步骤(iv)可以进一步包括在将第二结构单元标签结合至复合物之前使复合物与水解剂反应以从复合物中释放出保护基团。
[0013]在进一步的实施方式中,第二结构单元标签在该第二结构单元标签的5’ -末端、3’ -末端或内部位置中的一个或多个上包含2’ -取代的核苷酸(例如,2’-O-甲基核苷酸或2’ -氟代核苷酸)(例如在5’ -和3’ -末端上都有2’ -O-甲基核苷酸和/或2’ -氟代核苷酸)。
[0014]在一些实施方式中,步骤(iv)可以包括使用RNA连接酶(例如,T4RNA连接酶)和/或DNA连接酶(例如,ssDNA连接酶)将第二结构单元标签结合至复合物(例如,可以包括使用RNA连接酶和DNA连接酶两者)。
[0015]在其他实施方式中,步骤(iii)可以包括使用RNA连接酶(例如,T4RNA连接酶)和/或DNA连接酶(例如,ssDNA连接酶)将头片段结合至第一结构单元标签(例如,可以包括使用RNA连接酶和DNA连接酶两者)。
[0016]在进一步的实施方式中,步骤(iii)和/或步骤(iv),如果存在,可以包括使用聚乙二醇和/或一种或多种可溶性多价阳离子(例如,氯化镁、氯化锰(II)或六胺氯化钴
(III))。在一些实施方式中,聚乙二醇的量为约25% (w/v)至约35% (w/v)(例如,约25%(w/v)至约 30% (w/v)、约 30% (w/v)至约 35% (w/v)或约 30% (w/v))。在其他实施方式中,聚乙二醇具有约3,000至约5,500道尔顿(例如,约4,600道尔顿)的平均分子量。在其他实施方式中,一种或多种可溶性多价阳离子的量为约0.05mM至约10.5mM(例如,0.05mM 至 0.5mM、0.05mM 至 0.75mM、0.05mM 至 1.0mM、0.05mM 至 1.5mM、0.05mM 至 2.0mM>0.05mM 至 3.0mM、0.05mM 至 4.0mM、0.05mM 至 5.0mM、0.05mM 至 6.0mM、0.05mM 至 7.0mM>0.05mM 至 8.0mM、0.05mM 至 9.0mM、0.05mM 至 10.0mM、0.1mM 至 0.5mM、0.1mM 至 0.75mM、0.1mM 至 1.0mM、0.1mM 至 1.5mM、0.1mM 至 2.0mM、0.1mM 至 3.0mM、0.1mM 至 4.0mM、0.1mM 至
5.0mM>0.1mM 至 6.0mM>0.1mM 至 7.0mM>0.1mM 至 8.0mM>0.1mM 至 9.0mM>0.1mM 至 10.0mM>0.1mM 至 10.5mM、0.5mM 至 0.75mM、0.5mM 至 1.0mM、0.5mM 至 1.5mM、0.5mM 至 2.0mM、0.5mM至 3.0mM、0.5mM 至 4.0mM、0.5mM 至 5.0mM、0.5mM 至 6.0mM、0.5mM 至 7.0mM、0.5mM 至 8.0mM>0.5mM 至 9.0mM、0.5mM 至 10.0mM、0.5mM 至 10.5mM、0.75mM 至 1.0mM、0.75mM 至 1.5mM、0.75mM 至 2.0mM、0.75mM 至 3.0mM、0.75mM 至 4.0mM、0.75mM 至 5.0mM、0.75mM 至 6.0mM>
0.75mM 至 7.0mM、0.75mM 至 8.0mM、0.75mM 至 9.0mM、0.75mM 至 10.0mM、0.75mM 至 10.5mM、
1.0mM 至 1.5mM、1.0mM 至 2.0mM> 1.0mM 至 3.0mM> 1.0mM 至 4.0mM> 1.0mM 至 5.0mM> 1.0mM 至
6.0mM> 1.0mM 至 7.0mM> 1.0mM 至 8.0mM> 1.0mM 至 9.0mM> 1.0mM 至 10.0mM> 1.0mM 至 10.5mM、
1.5mM 至 2.0mM> 1.5mM 至 3.0mM> 1.5mM 至 4.0mM> 1.5mM 至 5.0mM> 1.5mM 至 6.0mM> 1.5mM 至
7.0mM> 1.5mM 至 8.0mM> 1.5mM 至 9.0mM> 1.5mM 至 10.0mM> 1.5mM 至 10.5mM、2.0mM 至 3.0mM>
2.0mM 至 4.0mM、2.0mM 至 5.0mM、2.0mM 至 6.0mM、2.0mM 至 7.0mM、2.0mM 至 8.0mM、2.0mM 至
9.0mM,2.0mM至10.0mM和2.0mM至10.5mM)。在一些实施方式中,一种或多种多价阳离子的量为约lmM(例如,0.5mM至1.5mM)。在特定的实施方式中,多价阳离子为六胺氯化钴(III)的形式。
[0017]在其他实施方式中,方法进一步包括在结合步骤(ii)至(V)中的任何一个之前,将复合物与任何未反应的标签或未反应的头片段分离。在其他实施方式中,方法进一步包括在结合步骤Qi)至(V)中的任何一个之前纯化复合物。在其他实施方式中,方法进一步包括在结合步骤(ii)至(V)中的任何一个之后以任何顺序结合一个或多个另外的组分(例如,支架或第一结构单元)和一个或多个另外的结构单元标签。
[0018]本发明还描述了一种标记第一文库的方法,该第一文库包括寡核苷酸编码的化学实体,该方法包括:(i)提供具有第一官能团和第二官能团的头片段,其中该头片段包含在5’ -末端的2’ -取代的核苷酸、可选的在该头片段的内部位置的一个或多个核苷酸、和在3’_末端的2’-位置和/或3’-位置的保护基团;(ii)使该头片段的第一官能团结合至该化学实体的第一组分,其中该头片段直接连接至该第一组分或该顶部物通过双官能接头间接连接至该第一组分;和(iii)使该头片段的第二官能团结合至第一结构单元标签,其中该第一结构单元标签包括在5’ -末端的2’ -取代的核苷酸和羟基、可选地在该标签的内部位置处的一个或多个核苷酸、和在3’ -末端的2’ -取代的核苷酸和羟基;其中可以以任何顺序来进行步骤(ii)和(iii),并且其中第一结构单元标签为步骤(ii)的结合反应编码,从而提供标记的(tagged)文库。
[0019] 在一些实施方式中,2’ -取代的核苷酸是2’-O-甲基核苷酸(例如,2’-O-甲基鸟嘌呤)或2’-氟代核苷酸(例如,2’-氟鸟嘌呤)。在其他实施方式中,在头片段的内部位置处的一个或多个核苷酸是2’ -脱氧核苷酸。在又另一个实施方式中,双官能接头是聚乙二醇接头(例如,-(CH2CH2O)nCH2CH2-,其中η为I至50的整数)。
[0020]在其他实施方式中,一个或多个核苷酸(例如,一个或多个2’-脱氧核苷酸)存在于头片段或标签的内部位置。
[0021]在其他实施方式中,步骤(iii)可以包括使用一种或多种可溶性多价阳离子(例如,氯化镁、氯化锰(II)或六胺氯化钴(III))、聚乙二醇(例如,具有约4,600道尔顿的平均分子量)和RNA连接酶(例如,T4RNA连接酶)。
[0022]在另一方面,本发明描述了用于识别和/或发现化学实体的方法,该方法包括标记包含寡核苷酸编码的化学实体的第一文库(例如,包括步骤(i)至(iii)和可选的包括步骤(iv)至(V))和选择特定的特征或功能(例如,选择至蛋白质祀的结合,包括使寡核苷酸编码的化学实体或化学实体暴露于蛋白质靶中并且选择结合至该蛋白质靶的一个或多个寡核苷酸编码的化学实体或化学实体(例如,通过使用尺寸排阻色谱法))。本发明还描述了一种包括头片段和结构单元标签的复合物,其中该标签包括5至20个核苷酸、在5’ -末端的2’ -取代的核苷酸、和在3’ -末端的2’ -取代的核苷酸。在一些实施方式中,在5’ -末端和/或3’ -末端的2’ -取代的核苷酸是2’-O-甲基核苷酸(例如,2’ -O-甲基鸟嘌呤或2’ -O-甲基尿嘧啶)或2’ -氟代核苷酸(例如2’ -氟鸟嘌呤或2’ -氟尿嘧啶)。在特定的实施方式中,头片段包括发夹结构。在一些实施方式中,头片段在该头片段的5’ -末端、3’ -末端或内部位置中的一个或多个上包含2’ -取代的核苷酸。在其他实施方式中,头片段进一步包括预先腺苷酸化的5’-末端。在又其他的实施方式中,头片段包括5至20个核苷酸。
[0023]在任一上述实施方式中,头片段、第一结构单元标签、第二结构单元标签或一个或多个另外的结构单元标 签(如果存在)包括预先腺苷酸化的5’ -末端。
[0024]在任一上述实施方式中,方法进一步包括使一个或多个(例如一个、两个、三个、四个、五个、六个、七个、八个、九个或十个)另外的结构单元标签结合至复合物以及使一个或多个(例如一个、两个、三个、四个、五个、六个、七个、八个、九个或十个)另外的组分(例如支架或结构单元)结合至复合物,其中该一个或多个另外的结构单元标签为一个或多个另外的组分编码或为一个或多个另外的组分的结合反应编码,从而提供标记的文库。
[0025]在任一上述实施方式中,2’ -取代的核苷酸是2’ -O-甲基核苷酸,例如2’ -O-甲基鸟嘌呤、2’ -O-甲基尿嘧啶、2’ -O-甲基腺苷、2’ -O-甲基胸腺嘧啶、2’ -O-甲基肌苷、2’-0_甲基胞苷或2’-0_甲基二氨基嘌呤。可替代地,在任一上述实施方式中,2’-取代的核苷酸是2’ -氟代核苷酸,例如2’ -氟鸟嘌呤、2’ -氟尿嘧啶、2’ -氟腺苷、2’ -氟胸腺嘧啶、2’ -氟肌苷、2’ -氟胞苷或2’ -氟二氨基嘌呤。
[0026]在任一上述实施方式中,RNA连接酶是T4RNA连接酶和/或DNA连接酶是ssDNA连接酶。
[0027]在任一上述实施方式中,方法包括多个头片段。在本方法的一些实施方式中,多个头片段中的每个头片段包括相同的序列区域和不同的编码区。在特定的实施方式中,相同的序列区域是引物结合区。在其他实施方式中,不同的编码区是为该头片段或为添加起始组分编码的起始结构单元标签。
[0028]在任一上述实施方式中,在步骤(ii)至(iv)(如果存在)中的至少一个中的结合包括酶促连接和/或化学连接。在一些实施方式中,酶促连接包括使用RNA连接酶(例如,T4RNA连接酶)或DNA连接酶(例如,ssDNA连接酶)。在其他实施方式中,酶促连接包括使用RNA连接酶(例如,T4RNA连接酶)和DNA连接酶(例如,ssDNA连接酶)。在一些实施方式中,化学连接包括使用一个或多个化学共反应性配对(chemically co-reactivepair)(例如,包括可选被取代的炔基与可选被取代的叠氮基的配对;包括可选被取代的具有4 ii电子体系的二烯(例如,可选被取代的1,3-不饱和化合物,如可选被取代的1,3-丁二烯、1-甲氧基-3-三甲基甲硅烷氧基-1,3-丁二烯、环戊二烯、环己二烯或呋喃)与可选被取代的亲双烯体或可选被取代的具有2 31电子体系的杂亲双烯体(例如,可选被取代的烯基或可选被取代的炔基)的配对;包括亲核体(例如,可选被取代的胺或可选被取代的硫醇)与应变的杂环亲电体(例如可选被取代的环氧化物、氮丙啶、吖丙啶鎗离子或表锍离子(episulfonium ion))的配对;包含硫代磷酸酯基团与碘基的配对(例如,硫代磷酸酯基团在3’-末端而碘基在5’-末端);或包含醛基与氨基(例如,伯氨基或仲氨基,包括酰肼基(hydrazido group)))的配对。在特定的实施方式中,化学共反应性配对产生具有约4至约24个原子(例如,约4至约10个原子)的产物间隔物(resultant spacer)。在其他实施方式,化学连接包括使用硫代磷酸酯基团(例如,在3’ -末端)和碘基(例如,在5’-末端)。在进一步的实施方式中,化学连接包括结合反应中的夹板寡核苷酸(splintoligonucleotide)。在一些实施方式中,化学连接包括使用硫代磷酸酯基团(例如,在头片段、第一结构单元标签、第二结构单元标签、一个或多个另外的结构单元标签、文库-识别标签、用途标签(use tag)和/或来源标签(origin tag)的3’-末端,如果存在)、碘基(例如,在头片段、第一结构单元标签、第二结构单元标签、一个或多个另外的结构单元标签、文库-识别标签、用途标签和/或来源标签的5’ -末端,如果存在)、和结合反应中的夹板寡核苷酸,其中该使用避 免了使用一个或多个保护基团。在其他实施方式中,多个标签的化学连接包括交替使用正交(orthogonal)化学共反应性配对(例如,本文所描述的两种或多个化学共反应性配对)用于连接连续的标签。
[0029]在任一上述实施方式中,头片段包括单链(例如,发夹)结构。
[0030]在任一上述实施方式中,头片段、第一结构单元标签、第二结构单元标签、一个或多个另外的结构单元标签、文库-识别标签、用途标签和/或来源标签(如果存在)包括与本文的任何序列(例如,SEQ ID N0:6-SEQ ID NO: 21、SEQ ID NO: 26、SEQ ID NO: 27 或 SEQID N0:29-SEQ ID NO:31中任一项的序列)基本相同(例如,至少50%、60%、70%、75%、80%,85%,90%,95%,96%,97%,98%,99%^; 100%相同)的序列或者和与本文的任何序列(例如,SEQ ID N0:6-SEQ ID N0:21、SEQ ID NO:26,SEQ ID N0:27或SEQ ID N0:29_SEQID NO:31中任一项的序列)基本相同(例如,至少50%、60%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%或100%相同)的序列互补的序列。在特定的实施方式中,第一结构单元标签、第二结构单元标签、一个或多个另外的结构单元标签、文库-识别标签、用途标签和/或来源标签(如果存在)进一步包括与SEQ ID NO:1或SEQ ID NO: 2的序列基本相同(例如至少 50%,60%,70%,75%,80%,85%,90%,95%,96%,97%,98%,99%^;100%相同)的序列。
[0031]在任一上述实施方式中,方法或复合物只包括单链分子,其中头片段、第一结构单元标签、第二结构单元标签和/或一个或多个另外的结构单元标签是单链的。在一些实施方式中,一个或多个单链分子具有发夹结构。在特定的实施方式中,头片段包含发夹结构并且一个或多个结构单元标签不包含发夹结构。
[0032]在任一上述实施方式中,如本文所描述的,方法进一步包括一个或多个可选的步骤以多样化文库或询问该文库中的成员。在一些实施方式中,方法进一步包括识别小类药性(small drug-like)文库成员,该小类药性文库成员结合或失活治疗目的的蛋白质。在其他实施方式中,方法进一步包括:在适合于该文库的至少一个成员结合至生物祀的条件下,使该文库的成员与该生物靶接触;去除不与靶结合的一个或多个文库成员;和分析与它们相关的一个或多个寡核苷酸标签。
[0033]如本文所描述的,使用单链分子(例如包括发夹分子)可以具有许多益处。因此,与包括一个或多个双链分子(例如,双链头片段或双链结构单元标签)的方法相比,在本文的任一实施方式中,方法和复合物包括具有降低的质量(mass)、增加的溶解度(例如在有机溶剂中)、降低的成本、提高的反应性、增加的靶可达性、降低的流体力学半径和/或提高的分析评估的准确度的头片段、一个或多个结构单元标签、复合物、化学实体、分子或标记的文库的任何成员。在一些实施方式中,结构单元标签(例如,第一结构单元标签、第二结构单元标签和/或一个或多个另外的结构单元标签,如果存在)中的每一个都具有大约相同的质量(例如,每个结构单元标签都具有两个或多个结构单元标签之间的平均质量的约+/-10%的质量)。在特定的实施方式中,与双链标签(例如具有约为15,000道尔顿、约14,000道尔顿、约13,000道尔顿或约12,000道尔顿的质量的双链标签)相比,结构单元标签具有降低的质量(例如,小于约15,000道尔顿、约14,000道尔顿、约13,000道尔顿、约12,000道尔顿、约11,000道尔顿、约10,000道尔顿、约9,000道尔顿、约8,000道尔顿、约7,500道尔顿、约7,000道尔顿、约6,000道尔顿、约6,500道尔顿、约5,000道尔顿、约5,500道尔顿、约4,000道尔顿、约4,500道尔顿或约3,000道尔顿)。在其他实施方式中,与双链标签(例如,具有小于约20个核苷酸、小于约19个核苷酸、小于约18个核苷酸、小于约17个核苷酸、小于约16个核苷酸、小于约15个核苷酸、小于约14个核苷酸、小于约13个核苷酸、小于约12个核苷酸、小于约11个核苷酸、小于约10个核苷酸、小于约9个核苷酸、小于约8个核苷酸或小于约7个核苷酸长度的双链标签)相比,结构单元标签具有减少的长度。在一些实施方式中,一个或多个结构单元标签或文库的成员缺少引物结合区和/或恒定区(例如,在选择步骤中,如使用尺寸排阻色谱法的选择)。在一些实施方式中,一个或多个结构单元标签或文库的成员具有减小的恒定区(例如,长度小于约30个核苷酸、小于约25个核苷酸、小于约20个核苷酸、小于约19个核苷酸、小于约18个核苷酸、小于约17个核苷酸、小于约16个核苷酸、小于约15个核苷酸、小于约14个核苷酸、小于约13个核苷酸、小于约12个核苷酸、小于约11个核苷酸、小于约10个核苷酸、小于约9个核苷酸、小于约8个核苷酸或小于约7个核苷酸)。在其他实施方式中,方法包括头片段,其为分子、化学实体的部分、一个步骤的结合反应(例如化学连接或酶促连接)或文库的同一性进行编码,其中该编码头片段排除了对用于编码此类信息的另外结构单元标签的需求。
[0034] 在任一上述实施方式中,寡核苷酸(例如,头片段、第一结构单元标签、第二结构单元标签和/或一个或多个另外的结构单元标签,如果存在)为文库的同一性编码。在一些实施方式中,寡核苷酸(例如,头片段、第一结构单元标签、第二结构单元标签和/或一个或多个另外的结构单元标签,如果存在)包括第一文库-识别序列,其中该序列为该第一文库的同一'I"生编码。在特定的实施方式中,寡核苷酸为第一文库-识别标签。在一些实施方式中,方法包括提供第一文库-识别标签和/或将该第一文库-识别标签结合至复合物,其中该标签包括为第一文库编码的序列。在一些实施方式中,方法包括提供第二文库和将第一文库与第二文库组合。在进一步实施方式中,方法包括提供第二文库-识别标签,其中该标签包括为第二文库编码的序列。
[0035]在任一上述实施方式中,寡核苷酸(例如,头片段和/或一个或多个结构单元)为文库的成员的用途(例如,如本文所描述的,在选择步骤中或结合步骤中的用途)编码。在一些实施方式中,寡核苷酸(例如,头片段、第一结构单元标签、第二结构单元标签、和/或一个或多个另外的结构单元标签,如果存在)包括用途序列(use sequence),其中该序列为文库中的成员的子集在一个或多个步骤(例如,选择步骤和/或结合步骤)中的用途编码。在特定的实施方式中,寡核苷酸为包括用途序列的用途标签。在一些实施方式中,寡核苷酸(例如,头片段和/或一个或多个结构单元)为文库的成员的来源(例如在该文库的特定部分中)编码。在一些实施方式中,寡核苷酸(例如,头片段、第一结构单元标签、第二结构单元标签、和/或一个或多个另外的结构单元标签,如果存在)包括来源序列(例如,具有约10、9、8、7或6个核苷酸长度的随机简并序列),其中该序列为文库中的成员的来源编码。在特定的实施方式中,寡核苷酸为包括来源序列的来源标签。在一些实施方式中,方法进一步包括将用途标签和/或来源标签接合、结合或操作性地缔合至复合物。
[0036]在任一上述实施方式中,方法、组合物和复合物可选地包括尾片段(tailpiece),其中该尾片段包括本文所描述的文库-识别序列、用途序列或来源序列中的一个或多个。在特定的实施方式中,方法进一步包括将尾片段(例如,包括文库-识别序列、用途序列或来源序列中的一个或多个)接合、结合或操作性地缔合至复合物。
[0037]在任一上述实施方式中,方法、组合物和复合物或其部分(例如,头片段、第一结构单元标签、第二结构 单元标签和/或一个或多个另外的结构单元标签,如果存在)包括在3’ -末端的末端核苷酸与邻接该末端核苷酸的核苷酸之间的经修饰的磷酸酯基团(例如硫代磷酸酯或5’ -N-亚磷酰胺键)。在特定的实施方式中,与两个缺少经修饰的磷酸酯基团的寡核苷酸之间的连接(例如,头片段与结构单元标签,或者第一结构单元标签与第二结构单元标签)相比,经修饰的磷酸酯基团在两个寡核苷酸之间的酶促连接过程中使改组(shuffling)最小化(例如,与待连接的两个寡核苷酸的序列(如在头片段与结构单元标签之间或在第一结构单元标签与第二结构单元标签之间)相比,使最终产物或复合物中内含另外核苷酸或切除核苷酸最小化)。在一些实施方式中,复合物可以包括硫代磷酸酯基团或三唑基团。
[0038]在任一上述实施方式中,方法、组合物和复合物或其部分(例如,头片段、第一结构单元标签、第二结构单元标签和/或一个或多个另外的结构单元标签,如果存在)包括支持在半水性、降低的水性或非水性(例如有机)条件下的溶解性的修饰。在一些实施方式中,双官能接头、头片段或一个或多个结构单元标签被修饰以提高所述DNA-编码的化学文库的成员在有机条件下的溶解度。在一些实施方式中,修饰为烷基链、聚乙二醇单元、具有正电荷的支链物质或疏水环结构中的一种或多种。在一些实施方式中,修饰包括具有疏水性部分的一个或多个经修饰的核苷酸(例如,以脂肪链在T或C碱基的C5位置进行修饰,如在5’ - 二甲氧三苯甲基-N4- 二异丁基氨基甲叉基-5- (1-丙炔基)-2’ -脱氧胞苷、3’-[(2-氰乙基)-(队N-二异丙基)]-亚磷酰胺;5’-二甲氧三苯甲基-5-(1-丙炔基)-2’_脱氧尿苷、3’-[(2-氰乙基)-(队N-二异丙基)]-亚磷酰胺;5’-二甲氧三苯甲基-5-氟-2’ -脱氧尿苷、3’ - [ (2-氰乙基)-(N, N- 二异丙基)]-亚磷酰胺;和5’ - 二甲氧三苯甲基-5-(芘-1-基-乙炔基)-2’_脱氧尿苷或3’-[(2-氰乙基)-(N,N-二异丙基)]-亚磷酰胺中)或具有疏水性基团的插入物(例如偶氮苯)。在一些实施方式中,文库的成员具有约1.0至约2.5 (例如约1.0至约1.5、约1.0至约2.0、约1.3至约1.5、约1.3至约2.0、约1.3至约2.5、约1.5至约2.0、约1.5至约2.5或约2.0至约2.5)的辛醇:水系数。
[0039]在任一上述实施方式中,头片段、尾片段、第一结构单元标签、第二结构单元标签、一个或多个另外的结构单元标签、文库-识别标签、用途标签和/或来源标签(如果存在)可以包括5至20个核苷酸(例如,5至7个核苷酸、5至8个核苷酸、5至9个核苷酸、5至10个核苷酸、5至11个核苷酸、5至12个核苷酸、5至13个核苷酸、5至14个核苷酸、5至15个核苷酸、5至16个核苷酸、5至17个核苷酸、5至18个核苷酸、5至19个核苷酸、6至7个核苷酸、6至8个核苷酸、6至9个核苷酸、6至10个核苷酸、6至11个核苷酸、6至12个核苷酸、6至13个核苷酸、6至14个核苷酸、6至15个核苷酸、6至16个核苷酸、6至17个核苷酸、6至18个核苷酸、6至19个核苷酸、6至20个核苷酸、7至8个核苷酸、7至9个核苷酸、7至10个核苷酸、7至11个核苷酸、7至12个核苷酸、7至13个核苷酸、7至14个核苷酸、7至15个核苷酸、7至16个核苷酸、7至17个核苷酸、7至18个核苷酸、7至19个核苷酸、7至20个核苷酸、8至9个核苷酸、8至10个核苷酸、8至11个核苷酸、8至12个核苷酸、8至13个核苷酸、8至14个核苷酸、8至15个核苷酸、8至16个核苷酸、8至17个核苷酸、8至18个核苷酸、8至19个核苷酸、8至20个核苷酸、9至10个核苷酸、9至11个核苷酸、9至12个核苷酸、9至13个核苷酸、9至14个核苷酸、9至15个核苷酸、9至16个核苷酸、9至17个核苷酸、9至18个核苷酸、9至19个核苷酸、9至20个核苷酸、10至11个核苷酸、10至12个核苷酸、10至13个核苷酸、10至14个核苷酸、10至15个核苷酸、10至16个核苷酸、10至17个核苷酸、10至18个核苷酸、10至19个核苷酸、10至20个核苷酸、11至12个核苷酸、1 1至13个核苷酸、11至14个核苷酸、11至15个核苷酸、11至16个核苷酸、11至17个核苷酸、11至18个核苷酸、11至19个核苷酸、11至20个核苷酸、12至13个核苷酸、12至14个核苷酸、12至15个核苷酸、12至16个核苷酸、12至17个核苷酸、12至18个核苷酸、12至19个核苷酸、12至20个核苷酸、13至14个核苷酸、13至15个核苷酸、13至16个核苷酸、13至17个核苷酸、13至18个核苷酸、13至19个核苷酸、13至20个核苷酸、14至15个核苷酸、14至16个核苷酸、14至17个核苷酸、14至18个核苷酸、14至19个核苷酸、14至20个核苷酸、15至16个核苷酸、15至17个核苷酸、15至18个核苷酸、15至19个核苷酸、15至20个核苷酸、16至17个核苷酸、16至18个核苷酸、16至19个核苷酸、16至20个核苷酸、17至18个核苷酸、17至19个核苷酸、17至20个核苷酸、18至19个核苷酸、18至20个核苷酸以及19至20个核苷酸)。在特定的实施方式中,头片段、第一结构单元标签、第二结构单元标签、一个或多个另外的结构单元标签、文库-识别标签、用途标签和/或来源标签(如果存在)具有小于20个核苷酸(例如,小于19个核苷酸、小于18个核苷酸、小于17个核苷酸、小于16个核苷酸、小于15个核苷酸、小于14个核苷酸、小于13个核苷酸、小于12个核苷酸、小于11个核苷酸、小于10个核苷酸、小于9个核苷酸、小于8个核苷酸或小于7个核苷酸)的长度。
[0040]在特定的实施方式中,第一结构单元标签和第二结构单元标签包括相同数量的核苷酸。在其他实施方式中,第一结构单元标签或者第二结构单元标签包括多于8个核苷酸(例如,多于9个核苷酸、多于10个核苷酸、多于11个核苷酸、多于12个核苷酸、多于13个核苷酸、多于14个核苷酸以及多于15个核苷酸)。在一些实施方式中,第一结构单兀标签为供体标签(例如,如本文所定义的),其具有8至20个核苷酸(例如,8至9个核苷酸、8至10个核苷酸、8至11个核苷酸、8至12个核苷酸、8至13个核苷酸、8至14个核苷酸、8至15个核苷酸、8至16个核苷酸、8至17个核苷酸、8至18个核苷酸、8至19个核苷酸、8至20个核苷酸、9至10个核苷酸、9至11个核苷酸、9至12个核苷酸、9至13个核苷酸、9至14个核苷酸、9至15个核苷酸、9至16个核苷酸、9至17个核苷酸、9至18个核苷酸、9至19个核苷酸、9至20个核苷酸、10至11个核苷酸、10至12个核苷酸、10至13个核苷酸、10至14个核苷酸、10至15个核苷酸、10至16个核苷酸、10至17个核苷酸、10至18个核苷酸、10至19个核苷酸、10至20个核苷酸、11至12个核苷酸、11至13个核苷酸、11至14个核苷酸、11至15个核苷酸、11至16个核苷酸、11至17个核苷酸、11至18个核苷酸、11至19个核苷酸、11至20个核苷酸、12至13个核苷酸、12至14个核苷酸、12至15个核苷酸、12至16个核苷酸、12至17个核苷酸、12至18个核苷酸、12至19个核苷酸、12至20个核苷酸、13至14个核苷酸、13至15个核苷酸、13至16个核苷酸、13至17个核苷酸、13至18个核苷酸、13至19个核苷酸、13至20个核苷酸、14至15个核苷酸、14至16个核苷酸、14至17个核苷酸、14至18个核苷酸、14至19个核苷酸、14至20个核苷酸、15至16个核苷酸、15至17个核苷酸、15至18个核苷酸、15至19个核苷酸、15至20个核苷酸、16至17个核苷酸、16至18个核苷酸、16至19个核苷酸、16至20个核苷酸、17至18个核苷酸、17至19个核苷酸、17至20个核苷酸、18至19个核苷酸、18至20个核苷酸以及19至20个核苷酸)。
[0041]定义
[0042]“2’ -取代的 核苷酸”是指在碱基的核糖的2’ -位上具有取代基的核苷酸碱基。
[0043]“约”是指所列举的数值的+/-10%。
[0044]“双官能”是指具有两个反应性基团,其允许结合两种化学基团。例如,本文的双官能接头为具有两个反应性基团以允许结合头片段和化学实体的接头。
[0045]“结合”是指通过共价键或非共价键的连接。非共价键包括通过范德华力、氢键、离子键、截留或物理封装、吸收、吸附和/或其他分子间力所形成的那些键。可以通过任何有用的方法来实现结合,如通过酶结合(例如酶促连接)或通过化学结合(例如化学连接)。
[0046]“结构单元”是指化学实体的结构单位(structural unit),其中该单位直接连接至其他化学结构单位或通过支架间接地连接。当化学实体为聚合物或寡聚物时,结构单元是该聚合物或寡聚物的单体单位。结构单元可以具有一个或多个多样性节点,其允许添加一个或多个其他结构单元或支架。在大多数情况下,每个多样性节点都是能够与一个或多个结构单元或支架反应以形成化学实体的官能团。一般而言,结构单元具有至少两个多样性节点(或反应性官能团),但一些结构单元可具有一个多样性节点(或反应性官能团)。可替代地,所编码的化学或结合步骤可以包括若干个化学组分(例如,多组分缩合反应或多步骤的过程)。在两个不同的结构单元上的反应性基团应该是互补的,即能够一起反应以形成共价键或非共价键。
[0047]“结构单元标签”是指文库的寡核苷酸部分,其编码组分(即支架或结构单元)的添加(例如通过结合反应)、文库中的头片段、文库的同一性、文库的用途和/或文库成员的来源。“受体标签”是指具有反应性实体(例如,在酶促连接的情形下在3’ -末端的羟基)的结构单元标签。“供体标签”是指具有能够与受体标签上的反应性实体进行反应的实体(例如,在酶促连接的情形下在5’ -末端的磷酰基)的结构单元标签。
[0048]“化学实体”是指包含一个或多个结构单元以及可选的支架的化合物。化学实体可以是设计或构建以具有一种或多种期望的性质的任何小分子或肽药物或药物候选物,一种或多种期望的性质例如结合生物靶的能力、溶解度、氢键供体和受体的可用度、键的自由旋转度、正电荷、负电荷等。在某些实施方式中,化学实体可以进一步作为双官能实体或三官能实体(或更多官能的实体)进行反应。
[0049]“化学共反应性配对”是指以高产率和高热力学增益参与分子反应的一对反应性基团,由此产生间隔物。示例性的反应和化学共反应性配对包括使用一对可选取代的炔基和可选被取代的叠氮基的惠斯更(Huisgen) I, 3-偶极环化加成反应;使用一对具有4 π电子体系的可选取代的二烯和具有2 31电子体系的可选取代的亲二烯体或杂亲二烯体的狄尔斯-阿尔德(Diels-Alder)反应;使用亲核试剂和应变的杂环亲电试剂的开环反应;使用硫代磷酸酯基团和碘基的夹板连接反应;以及使用醛基和氨基的还原胺化反应,如本文所描述的。
[0050]“复合物”或“连接的复合物”是指头片段其通过共价键或非共价键操作性地与化学实体和/或一个或多个寡核苷酸标签缔合。复合物可以可选地包括在该化学实体和该头片段之间双官能接头。
[0051]化学实体的“组分”是指支架或结构单元。 [0052]“多样性节点”是指在支架或结构单元中的位置处的官能团,其允许添加另一个结构单元。
[0053]“头片段”是指用于文库合成的起始寡核苷酸,其操作性地连接至化学实体的组分并连接至结构单元标签。可选地,双官能接头将头片段连接至组分。
[0054]“文库”是指分子或化学实体的集合。可选地,分子或化学实体结合至为该分子或该化学实体的部分编码的一个或多个寡核苷酸。
[0055]“接头”是指将头片段连接至化学实体的化学连接实体。
[0056]“多价阳离子”是指能够与多于一种配体或阴离子形成多于一个键的阳离子。多价阳离子可以形成离子复合物或配位复合物。示例性的多价阳离子包括来源于碱土金属(例如镁)和过渡金属(例如,锰(II)或钴(III))的那些阳离子以及可选地结合至一种或多种阴离子和/或一种或多种单价或多齿配体(例如氯、胺和/或乙二胺)的那些阳离子。
[0057]“寡核苷酸”是指核苷酸的聚合物,其具有5’ -末端、3’ -末端以及在该5’ -和3’-末端之间的位置处的一个或多个核苷酸。寡核苷酸可以包括DNA、RNA或本领域已知的可以合成并用于碱基对的识别的它们的任何衍生物。寡核苷酸不需要具有连续碱基,但是可以穿插有接头部分。寡核苷酸聚合物可以包括天然碱基(例如,腺苷、胸苷、鸟苷、胞苷、尿苷、脱氧腺苷、脱氧胸苷、脱氧鸟苷、脱氧胞苷、肌苷或二氨基嘌呤)、碱基类似物(例如,2-氨基腺苷、2-硫代胸苷、肌苷、吡咯并嘧啶、3-甲基腺苷、C5-丙炔基胞苷、C5-丙炔基尿苷、C5-溴尿苷、C5-氟尿苷、C5-碘尿苷、C5-甲基胞苷、7-脱氮腺苷、7-脱氮鸟苷、8-氧代腺苷、8-氧代鸟苷、(K6)-甲基鸟嘌呤和2-硫代胞苷)、修饰的核苷酸(例如,2’-取代的核苷酸,如2’ -O-甲基化碱基和2’ -氟碱基)、插入的碱基、修饰的糖(例如,2’ -氟核糖、核糖、2 ’ -脱氧核糖、阿拉伯糖和己糖)和/或修饰的磷酸基团(例如,硫代磷酸酯和5 ’ -N-亚磷酰胺键)。本文描述了其他修饰的碱基。“受体寡核苷酸”是指具有反应性实体的寡核苷酸(例如,在酶促连接的情况下在3’ -末端的羟基或在化学连接的情况下可选被取代的叠氮基)。“供体寡核苷酸”是指具有能够与受体寡核苷酸上的反应性实体反应的实体的寡核苷酸(例如,在酶促连接的情况下在5’ -末端的磷酰基或在化学连接的情况下可选被取代的炔基)。
[0058]“操作性地连接”或“操作性地缔合”是指两个或多个化学结构以它们预期将经历的各种操作下保持连接的方式直接或间接地连接在一起。典型地,化学实体和头片段以间接的方式(例如通过适合的接头共价地)操作性地连接。例如,接头可以是具有连接化学实体的位点和连接头片段的位点的双官能部分。此外,化学实体和寡核苷酸标签可以直接或间接地(例如通过适合的接头共价地)操作性地连接。
[0059]“保护基团”是指在标记DNA-编码的文库的一个或多个结合步骤过程中用以保护寡核苷酸的3’ -末端或5’ -末端以防止不期望的反应的基团。常用的保护基团公开于Greene, “Protective Groups in Organic Synthesis,,,第 4 版(John ffiley&Sons, NewYork, 2007)中,其通过引用并入本文结合于此。示例性的保护基团包括不可逆的保护基团,如双脱氧核苷酸和双脱氧核苷(ddNTP或ddN)和更优选地用于羟基的可逆的保护基团,如酯基(例如,0-(α-甲氧基乙基)酯、O-异戊酯和O-乙酰丙酸酯)、三苯甲基基团(例如,二甲氧基三苯甲基和单甲氧基三苯甲基)、咕吨基团(例如,9-苯基咕吨-9-基和9-(对甲氧基苯基)咕吨-9-基)、酰基(例如,苯氧基乙酰基和乙酰基)以及甲硅烷基(例如,叔丁基二甲基甲娃烷基)。
[0060]“纯化”是指去除存在于反应混合物中的可能降低将要在后续步骤中使用的化学试剂或生物试剂的活性的任何未反应的产物或任何试剂。纯化可以包括待除去的未反应的产物或试剂的色谱分离、电泳分离和沉淀中的一种或多种。
[0061]“支架”是指以特定特殊的几何形状表现出一种或多种多样性节点的化学基团。多样性节点典型地在文库合成过程中连接至支架,但是在一些情况下,在文库合成之前可以将一个多样性节点连接至支架(例如,添加一个或多个结构单元和/或一个或多个标签)。在一些实施方式中,支架是经衍生化的,以便其在文库合成过程中可以正交脱保护并且随后与不同的多样性节点反应。
[0062]“小分子”药物或“小分子”药物候选物是指具有低于约1,000道尔顿的分子量的分子。小分子可以是分离的(例如,分离自化合物文库或天然源)或通过衍生化已知化合物得到的有机或无机物。
[0063]“基本同一性(substantial identity) ”或“基本相同”是指分别与参考序列具有相同多肽或多核苷酸序列的多肽或多核苷酸序列,或者是指当两个序列进行最佳比对时,分别在对应于参考序列的位置具有特定百分比的氨基酸残基或核苷酸相同于该参考序列的多肽或多核苷酸序列。例如,“基本相同”于参考序列的氨基酸序列与该参考氨基酸序列具有至少 50%,60%,70%,75%,80%,85%,90%,95%,96%,97%,98%,99%^; 100%的同一性。对于多肽,比较序列的长度一般为至少5、6、7、8、9、10、11、12、13、14、15、16、
17、18、19 或 20 个连续氨基酸,更优选地至少 25、50、75、90、100、150、200、250、300 或 350个连续氨基酸,最优选全长氨基酸序列。对于核酸,比较序列的长度一般为至少5个连续核苷酸,优选地至少 10、11、12、13、14、15、16、17、18、19、20、21、22、23、24 或 25 个连续的核苷酸,且最优选全长核苷酸序列。可以使用序列分析软件以默认设置(例如,GeneticsComputer Group,University of Wisconsin Biotechnology Center, 1710UniversityAvenue, Madison, WI53705的序列分析软件包)来测量序列的同一性。此类软件可以通过对各种取代、缺失和其他修饰分配同源性程度来匹配相似的序列。
[0064]“尾片段”是指文库的寡核苷酸部分,其连接至添加完所有的结构单元标签之后的复合物,并且其为文库、文库的用途和/或文库成员的来源的同一性编码。
[0065]本发明的其他特征和优点在下列详细说明及权利要求中将是显而易见的。
【专利附图】
【附图说明】
[0066]图1示出使用通过酶和/或化学连接依次接合的单链DNA标签的一般合成化学文库的示例性方法。“BB”是指结构单元。
[0067]图2A至图2B示出使用酶促连接的单链DNA标记文库的示例性方法。图2A示出使用单链酶促连接以保护的(重新装配的)5’ -单磷酸酯(5’ -P)寡核苷酸标记文库的示例性方法,其中灰色方块是指2’ -OMe核苷酸,“X”是指保护基团或化学实体的组分,且“PNK”是指多核苷酸激酶。图2B示出使用单链连接以保护的3’ -OH寡核苷酸标记文库的示例性方法,其中连接至-O-的黑色方块是指3’-OH末端的保护基团且“LC”是指保护基团的液相色谱分离。
[0068]图3示出使用单链连接以5’ -预腺苷酸化的(标记为“5’ -App”)寡核苷酸(头片段)和由例如化学实体封闭的3’-末端(标记为“X-3”)标记文库的示例性方法。该方法可以用来将5’ -预腺苷酸化的寡核苷酸标签(标记为“标签A”)连接至头片段并且在ATP的存在下将具有3’ -OH末端的另外的标签(标记为“标签B”和“标签C”)连接至复合物。
[0069]图4A至图4E示出示例性的复合物,其各自具有头片段、接头以及包括支架(“S”)和多样性节点A、B和C的小分子。深灰色方块是指2’ -OMe核苷酸,虚线是指存在一个或多个互补碱基。图4A至图4B是具有单链线性寡核苷酸头片段的复合物的示意图,其中接头和小分子连接至头片段的3’ -末端(图4A)或5’ -末端(图4B)。图4C至图4D是具有单链发夹寡核苷酸头片段的复合物的示意图,其中接头和小分子连接至头片段的内部位置(图4C)或3’-末端(图4D)。图4E示出用于标记具有发夹寡核苷酸头片段的文库的示例性方法,其中星号是指化学基团且在3’ -末端的“Y”是指保护基团。寡核苷酸标签被识别为I至4,并且接头序列(adapter sequence)为在5’ _末端的黑线。
[0070]图5A至图5C示出由T4RNA连接酶或CircLigase?ssDNA连接酶的寡核苷酸连接。图5A为酶促连接反应的示意图。供体寡核苷酸是5’-磷酸化的并且带有3’-荧光素标记、以3’ -末端的化学实体模仿头片段。受体寡核苷酸是未磷酸化的。图5B示出在SM尿素/15%聚丙烯酰胺凝胶(PAAG)上的连接反应的凝胶电泳分析。“SM”是指荧光标记的供体,“产物”是指连接产物,且“腺苷酸化的供体”是指5’ App-供体,如上所描述的。图5C示出T4RNA连接酶在高酶和寡核苷酸浓度下实现的高产率连接。
[0071]图6A至图6B表示了优化PEG分子量(图6A)和浓度(图6B)以由T4RNA连接酶获得最大连接产率。反应条件如图5至图5C中所描述的。图6A为量化在使用25% (w/v)具有300至20,000 (20K)分子量的PEG孵育5小时或20小时后、用MNA/DNA15mer供体和受体标签的连接反应的电泳分析的图。图6B示出在5%至45% (w/v)的PEG4600的存在下孵育18至20小时后,浓度对连接的影响。
[0072]图7A至图7B示出由CircLigase?(图7A)和T4RNA连接酶(图7B)的连接效率与供体或受体寡核苷酸的长度之间的相关性。图7A描绘了量化CircLigase?连接反应中受体长度对连接产率的影响的图。图7B描绘了量化受体的核苷酸和供体MNA/DNA标签的长度对用T4RNA连接酶的单链连接的影响的图和表。这些数据表现通过荧光凝胶的光密度分析法在450nm激发下得到的两个独立实验的平均值。
[0073]图8A至图8B为在磷酸化之前和之后的MNA/DNA标签的LC-MS光谱。数据显示为在用T4多核苷酸激酶(每5nmol标签50单位)反应之前(图8A)和之后(图8B)的15mer标签 5’ -HO-mUAC GTA TAC GAC TGmG-OH-3’ (SEQ ID NO: 13)(在 250 μ M)。
[0074]图9示出标签A至标签C的顺序单链连接的电泳凝胶。3’-末端包括荧光素以表示文库化合物(或化学实体),且星号(*)指示在磷酸化之前纯化经连接的产物(或复合物)。
[0075]图1OA至图1OB示出得到5_原子“短”间隔物(图10A)和24-原子“长”间隔物(图10B)的供体与受体寡核苷酸之间的“化学共反应性配对”反应的示意图。
[0076]图1lA至图1lE示出含有图1OA至图1OB中所描绘的短或长单间隔物的75merDNA模板的逆转录(RT)和PCR分析的结果。图1lA为RT反应的示意图。同时在260nm和650nm下记录对照75mer DNA模板(图11B)、含有单个5-原子(“短”)间隔物的75mer DNA模板(图11C)和含有单个 24-原子(“长”)间隔物的75mer DNA模板(图11D)的RT的LC-MS图谱。图1lE示出对照75mer DNA模板(“templ75”)、具有5-原子间隔物的75merDNA模板(“短点击(click)”)和具有24-原子间隔物的75mer DNA模板(“长点击”)的RT-PCR 分析。
[0077]图12A至图12G示出在存在或不存在互补夹板寡核苷酸的条件下,5’ -碘-修饰的DNA寡核苷酸和3’-硫代磷酸酯DNA寡核苷酸之间的化学连接反应的结果。图12A示出该反应的示例性示意图。在3’ -末端用6-FAM标记5’ -碘寡核苷酸,而在5’ -末端用Cy5标记3’-硫代磷酸酯寡核苷酸。图12B示出在存在(+spl)或不存在(-spl)互补夹板的情况下连接反应的凝胶电泳分析。CCy5和CFL分别指示Cy5和荧光素-标记的起始材料的可见光波段。图12C示出在上述条件下的夹板连接反应的时间进程,使用Cy5(635nm)和荧光素(450nm)检测来对其进行定量。图12D示出在不存在(上,在260nm、495nm和650nm)和存在(下,在260nm、495nm和650nm)夹板的情况下,CFL和CCy5的连接的LC-MS分析,其中连接反应孵育了 7天。图12E示出在不存在夹板(在260nm、495nm和650nm)下的CFL和CCy5的连接的LC-MS分析,其中连接反应孵育了 8天。图12F示出CFL寡核苷酸与哌啶的反应的MS分析,其中该反应意在取代碘。反应条件包括100 μ M的寡核苷酸、40mM(400当量)的哌啶在IOOmM pH9.5的硼酸盐缓冲液中于室温下持续20小时(左);以及400 μ M的寡核苷酸、2Μ(4,000当量)的哌啶在200mM pH9.5的硼酸盐缓冲液中于65°C下持续2小时(右)。图12G示出在存在400当量哌啶在IOOmM pH9.5的硼酸盐缓冲液中于室温下持续20小时进行的50 μ M的CFL和CCy5寡核苷酸的夹板连接反应的MS分析。[0078]图13A至图13C示出使用经修饰的寡核苷酸以最小化改组。图13A示出5’-磷酸化的头片段ssHP(3,636Da)和具有2’ -O甲基核苷酸的标签(标签15 ;2,469Da)的单链连接反应的LC-MS分析。该LC-MS分析显示出三个峰:峰I为标签(2,469Da);峰2为腺苷化的头片段(3,96?a);且峰3具有两个(有时情况下为三个)子峰,含有具有6,089Da分子量(预计的连接产物)、5,769Da (预计 6,089Da_320Da)和 6,409Da (预计 6,089Da+320Da)的分子量的产物。这种320D的质量差异准确地对应于移除或添加一个另外的2’ -O-Me C核苷酸。图13B-1至图13B-3示出非限制性的提议的核苷酸改组的机制,其中约90%的反应提供预期的(正常的)连接产物且10%的反应提供异常连接产物(“产物-lnt”和“产物+lnt”)。图13C示出头片段HP-PS与标签15的连接的LC-MS分析。该头片段HP-PS具有头片段ssHP的序列,但在5’-末端包括硫代磷酸酯键。LC分析显示出三个峰:峰I为标签(2,469),峰2为腺苷酸化的头片段(3,984),且峰3为单一的连接产物(6,107),几乎没有观察到核苷酸改组。微量的+/-320峰可能对应于硫代磷酸酯键向天然磷酸二酯键的氧化转化或由于不完全硫化造成的。
[0079]图14为示出使用尺寸排阻色谱法分离文库成员的图,其中靶结合的文库成员(图的左边)比未结合的文库成员(图的右边)以更短的时间洗脱出。
[0080]图15A为示出使用非夹板依赖性的单一化学体(例如,5’-叠氮基/3’-炔基)化学连接编码DNA标签的示例性示意图。反应性基团存在于各标签(标签A、B和C)的3’和5’末端上,并且各末端上的反应基团中的一个(例如,3’末端)被保护以防止标签的环化、聚合或者错循环连接。标签连接的循环包括化学连接,随后通过对剩余的官能团脱保护以使得生长的连接的实体适用于连接的下一个循环。每个循环还包括添加一个或多个结构单元(BBA、BBB和BBC,它们分别是由标签A、B和C编码的)。化学连接过程可以可选地包括添加尾片段。 [0081]图15B为示出使用是夹板依赖性的单一化学来化学连接编码DNA标签的示例性示意图。这种途径的模板依赖性性质减少了标签聚合、标签环化以及错标记事件的发生频率。与图15A相似,这种示意图包括标签(标签A、B和C)以及一个或多个由标签(BBA、BBB和BBC)编码的结构单元。
[0082]图15C为示出使用一连串化学连接的标签作为用于模板依赖性聚合的模板、生成适用于PCR扩增和测序的cDNA以及使用能够读通(read through)化学连接的接点的模板依赖性聚合酶的示例性示意图。
[0083]图16A为示出使用TIPS-保护的炔基标签和“点击”化学进行化学连接编码DNA标签的示例性示意图。文库合成的每个循环包括将TIPS-保护的标签Cu(I)-催化化学连接至来自前一个循环的脱保护的炔。在该连接后,移除该TIPS基团(脱保护),由此激活用于下一个化学连接步骤的炔。
[0084]图16B示出DMT-琥珀酰基-3’-0_TIPS-炔丙基尿苷CPG的结构,其用于引发固相合成在3’ -末端携带有3’ -O-TIPS-炔丙基尿苷的寡核苷酸。
[0085]图16C为示出使用一连串“点击”化学连接的标签作为用于模板依赖性聚合的模板、生成适用于PCR扩增和测序的cDNA以及使用能够读通该“点击”化学连接的接点的模板依赖性聚合酶的示例性示意图。
[0086]图17A至图17C示出5’ -生物素化的、“单-点击”模板Y55和Y185的合成。图17A提供了示例性示意图。图17B和图17C分别示出Y55和Y185的LC-MS分析。
[0087]图18A至图18C提供了 “单-点击”模板的“读通”的示例性测定。图18A示出示意图,其中FAM-标记的引物被退火至生物素化的模板并且根据制造商推荐的条件用模板依赖性聚合酶进行孵育。随后使用链亲和素珠(bead)孵育该复合物、洗涤、用NaOH洗脱、然后中和。中和后,通过LC-MC分析样品。图18B和图18C分别示出模板Y55和Y185的克列诺片段(Klenow fragment)复制的LC-MS数据。
[0088]图19A至图19D提供了使用TIPS-保护的炔基标签合成5’ -生物素化的“双-点击”模板YDC和“三-点击模板” YTC。图19A和图19B示出这种合成的示例性示意图。图19C和图19D分别示出YDC和YTC模板的LC-MS分析。
[0089]图20A至图20C提供使用“双-点击”和“三-点击”模板的示例性点击“读通”检测。图20A为示意图,其中FAM-标记的引物被退火至生物素化的模板并且使用大肠杆菌DNA聚合酶I的克列诺片段根据制造商推荐的反应条件进行孵育。随后用链亲和素珠孵育该复合物、洗涤、用NaOH洗脱、并且中和。中和后,通过LC-MC分析样品。图20B和图20C分别示出克列诺片段复制的模板YDC和YTC的LC-MS数据。
[0090]图21是示出使用“单-点击”、“双-点击”和“三-点击”模板与对照“无点击”DNA模板的点击“读通”的效率的图。这些数据是使用本文所描述的“读通”测定获得的,并且通过LC-MS分析通过与内标物比较来测量产率。
[0091]图22A至图22C提供用正交化学的化学连接的示例性示意图。图22A用于DNA编码标签的化学连接策略的示意图,其(i)利用两个连续的正交化学用于(ii)可用的读通策略。每个标签含有两个正交反应性基团,由不同的符号标示出每个标签的5’-末端和3’-末端。在化学连接的每个连续的循环中,使用了正交化学。这种策略减少了错标记事件的发生频率并且也可以在未保护反应性末端基团的情况下使用。图22B为模板的模板依赖性聚合“读通”以生成cDNA的示意图,该模板是由正交DNA标签的正交化学连接来生成的,从该cDNA能够推导出该标签的序列。图22C与图22B相同,但是包括自吸式尾片段,其可以通过限制性消化来使得双链在PCR扩增过程中促进链分离。
[0092]图23为示出用于DNA编码标签的化学连接策略的示例性示意图,其利用两个特定的连续正交化学。每个标签都含有点击-反应性和硫代磷酸酯/碘反应性基团。在它们的3’和5’末端携带有正交反应性基团的标签不能聚合,并且具有降低的错标记事件的发生频率。为了不受到限制,这种途径可以消除对3’ -炔的TIPS-保护的需求。在循环A中,使用夹板依赖连接将5’ -碘/3’ -炔基标签连接至3’ -硫代磷酸酯头片段,留下反应性3’炔以在下一个化学连接循环中连接至5’ -叠氮/3’ -硫代磷酸酯标签。可以按所需的将正交连接循环重复多次。
[0093]图24A至图24B示出DNA标签上的3’ -硫代磷酸酯/5’ -碘基团的保护和使用。图24A示出为这些标签使用保护基团(PG)的示例性示意图。图24B示出使用3’-硫代磷酸酯/5’-碘基团以化学连接连续的编码DNA标签的示例性示意图,该编码DNA标签编码共价地装配在5’ -末端的化学文库。
[0094]图25A至图25B示出DNA标签上的3’ -硫代磷酸酯基团的保护和使用。图25A示出保护这些基团的方案。图25B示出使用3’ -硫代磷酸基/5’ -叠氮基和3’ -炔丙基/5’-碘标签以化学连接一连串正交编码DNA标签的方案,该正交编码DNA标签编码共价地装配在5’ -末端上的化学文库。
【具体实施方式】
[0095]本发明描述了使用单链连接以将寡核苷酸标签装配在化学实体-寡核苷酸复合物上的方法。这种方法通过确立特定标签与特定化学反应或结构单元之间的编码的关系,可以用来产生可选择性化学实体的多样文库。为了识别一种或多种化学实体,可以通过使用确立的关系来扩增、克隆、测序和关联寡核苷酸标签。特别地,识别出促进标签的单链连接的反应条件。这些条件包括在标签中使用一种或多种2’-取代的核苷酸(例如,2’-0_甲基核苷酸或2’ -氟代核苷酸)、使用特定长度的标签(例如,5至15个核苷酸)、使用一种或多种酶(例如,RNA连接酶和/或DNA连接酶)、和/或在连接期间使用一种或多种试剂(例如,聚乙二醇和/或可溶性多价阳离子,如Co(NH3)6Cl3)。这些方法另外地包括化学接合寡核苷酸的方法,从而该接合的寡核苷酸产物的序列可以被用作模板依赖性聚合酶反应的模板。以下详细的描述了产生和标记这些复合物的文库的方法。
[0096]用于标记编码的文库的方法
[0097]本发明描述了一种用于将寡核苷酸标签与化学实体操作性连接的方法,从而可以在该标签的序列与该化学实体的结构单位(或结构单元)之间确立编码关系。特别地,可以从寡核苷酸的碱基序列推断出化学实体的同一性和/或历史。使用这种方法,可以用特定的标签序列来处理(address)包括不同化学实体或成员(例如小分子或肽)的文库。
[0098]一般地,这些方法包括使用头片段,其具有可通过化学阐述(elaborate)的至少一个官能团以及单 链寡核苷酸可以结合的(或连接的)至少一个官能团。可以通过任何有用的方法来完成结合,例如通过酶结合(例如,使用一种或多种RNA连接酶和/或DNA连接酶的连接)或通过化学结合(例如,通过两个官能团(如亲核试剂和离去基团)之间的取代反应)。
[0099]为了在文库中产生许多化学实体,可以将含有头片段的溶液分为多个等分试样,然后放置于多个物理隔离的隔室中,例如多孔板的孔中。一般地,这是“分配”步骤。在每个隔室或孔中,以每个等分试样的单链标签进行连续化学反应和连接步骤。记录化学反应条件与单链标签的序列之间的关系。可以以任何顺序进行反应和连接步骤。然后,将所反应和连接的等分试样合并或“汇集”并且在该点上可以进行可选的纯化。可选地可以重复这些分配和汇集步骤。
[0100]接着,如本文所描述的,可以测试和/或选择特定特征或功能。例如,可以将经标记的化学实体的混合物分离为至少两个群体,其中第一群体组合至特定的生物靶而第二个群体则不结合。然后,可以选择性地捕获(例如通过在提供了目标靶的柱上洗脱或者通过使用目标靶孵育等分试样)第一群体,和可选地进一步分析和测试,例如使用可选的洗涤、净化、阴性选择、阳性选择或分离步骤。
[0101]最后,可以通过操作性连接的寡核苷酸的序列确定所选择的群体中的一个或多个成员(或化学实体)的化学历史。一旦使序列与特定的结构单元相关联后,这种方法可以用选择的特征(例如,增加的结合到靶蛋白的倾向以及由此引起治疗效果)来识别文库的个体成员。为了进一步测试和优化,然后可以通过合成经识别的文库成员(具有或不具有它们相关的寡核苷酸标签)来制备候选治疗化合物。[0102]图1至图3提供了使用单链连接以头片段标记文库的各种示例性方法,其中标签可以连接在头片段的5’-末端或3’-末端。为了控制其中标签被连接的顺序并且减少副反应,这些方法确保在连接过程中只有一个反应性5’ -末端和一个反应性3’ -末端存在。另外,这些示例性的方法在标签中使用2’ -取代的核苷酸(例如,混合的2’ -脱氧/2’ -O-甲基核苷酸),并且这些标签充当了能够以模板依赖性方式聚合核苷酸的DNA-或RNA-依赖性聚合酶的模板。为了不为理论所束缚,在标签中使用一种或多种2’-取代的核苷酸(例如,2’ -O-甲基核苷酸和/或2’ -氟代核苷酸)可以通过更加紧密地类似于RNA而促进由RNA连接酶的连接,同时保持记录介质的物理和化学耐用性以及使用模板依赖性聚合提取序列信息的能力。
[0103]图1提供了用于减少副反应的示例性方法,其中连接的复合物和标签经设计以避免反应性3’ -OH与5’ -单磷酸酯(“5’ -P”)基团之间不希望的反应。特别地,这种方案描绘了磷酸化-连接循环方法。在连接过程中,只有一个3’ -OH基团(在标签中)和一个5’-P基团(在头片段中)是可用的,由此,只可能有一个连接事件。在连接和纯化步骤之后,在复合物中形成了 5’-OH基团,并且该基团可以转化为5’-P以用于添加随后的寡核苷酸标签。复合物的3’-末端被X所封闭,X可以是保护基团或化学实体的组分(例如,可选地包括在化学实体与头片段之间充当间隔物的接头)。
[0104]如图1所示,该示例性的方法包括将结构单元标签I ( “标签I”)连接至头片段的5’ -末端,由此产生复合物,并且进行至该复合物的5’ -末端的连续连接。反应性5’ -末端是复合物上的磷酸酯基团,并且反应性3’-末端是标签上的羟基。在添加每个标签之后,将连接的复合物与未反应的、未连接的头片段和标签以及与其他试剂(例如,磷酸酯、钴或在连接步骤中存在的其他试剂)分离。可以通过任何有用的方法(例如,通过色谱或电泳分离连接和非连接的产物或通过试剂的沉淀)来完成分离。然后,将连接的复合物暴露于试剂(例如,多核苷酸激酶或化学磷酸化试剂)以在该复合物的5’ -末端上形成磷酸酯基团。可以以任何顺序进 行分离和磷酸化步骤。特别地,如果在磷酸化步骤中使用了激酶,那么在添加也可能含有5’ -OH基团的随后的标签之前应该失活或移除激酶,或者在磷酸化步骤之前应该从反应混合物中移除能够抑制激酶的任何试剂。
[0105]在另一个实施方式中,方法包括将从先前的连接的复合物的3’ -末端结合连续的标签。在该方法中,该连接的复合物刚在连接步骤之后缺少反应性3’-OH基团,但是含有可以转化为3’-OH基团的基团(例如通过释放保护基团)。图2A提供了示出用于标记复合物的3’ -末端的示例性方法的示意图,且图2B提供了含有可转化的3’ -OH基团的经保护的3’ -末端在释放3’ -连接的保护基团时的示例性反应方案。如图2A所示,结构单元标签1( “标签I”)具有3’-保护的基团。在第一步骤中,该示例性的方法包括将该标签连接至该头片段的3’-末端,由此产生复合物。对该复合物的3’-末端进行连续的连接。反应性5’ -末端是标签上的磷酸酯基团,并且反应性3’ -末端是复合物上的羟基基团。在添加每个标签之后,对经连接的复合物进行脱保护(例如通过加入水解剂)以释放出3’ -保护基团。
[0106]在又另一个实施方式中,方法包括通过使用5’ -预腺苷酸化的(5’ -App)寡核苷酸和连接酶(例如T4RNA连接酶)的结合连续的标签。在ATP的存在下,T4RNA连接酶在连接之前会使用ATP辅助因子以形成腺苷酸化的中间体。在没有ATP时,T4RNA连接酶将只连接预腺苷酸化的寡核苷酸,并且不会发生与5’ -P寡核苷酸的可能副反应。因此,在5’ -单磷酸化的标签的存在下,可以使用化学合成的5’ -App寡核苷酸来进行具有减少副反应的单链连接,其中5’ -App寡核苷酸可以在标记之前连接至头片段或在经过多轮标记之后连接至形成的复合物。
[0107]图3提供了示出用于标记预腺苷酸化的头片段的5’ -末端的示例性方法的示意图。腺苷酸化5’ -磷酸酯基团上的供体核苷酸是该连接反应中的第一步骤,并且这种反应一般需要一分子的ATP。在第二步骤中,受体寡核苷酸的3’ -OH基团与腺苷酸化的供体反应并且在两个寡核苷酸之间形成二酯键,由此释放一个AMP分子。供体寡核苷酸的化学腺苷酸化的5’ -磷酸酯基团模仿连接反应的第一步骤的产物,并且在没有ATP时可以连接至第二个寡核苷酸。在以下方案中,将5’-App头片段连接至5’-磷酸化的寡核苷酸标签(标记为“标签A”)的3’-OH基团。由于存在寡核苷酸的腺苷酸化的5’-末端,在没有ATP时可以发生连接。在这些条件下,标签A的5’-磷酸酯基团不作为连接供体。通过提供具有3’ -OH末端的核苷酸在ATP的存在下可以连接结构单元标签B(标记为“标签B”),并且可以包括另外的标签(标记为“标签C” )。
[0108]在图3中,可以使用任何保护基团(例如,不可逆的保护基团,如ddN,或可逆的保护基团)来封闭头片段的3’ -末端。在第一步骤中,方法包括在不存在ATP的情况下将标签连接至头片段的5’ -末端,由此产生复合物。在ATP的存在下对该复合物的5’ -末端进行连续式连接。这种方法可以被修改以对复合物的3’-末端进行连续式连接。例如,该方法可以包括使用5’ -预腺苷酸化的标签和具有反应性3’ -OH末端的头片段。这种方法可以进一步需要封闭标签的3’ -末端以避免标签之间的交叉反应,例如上文和图2中所描述的方法。 [0109]可以通过用头片段来替换引物来修改在图3中提供的通用方法。在这种情况下,头片段需要在5’ -末端被化学地腺苷酸化,并且标签A在5’ -末端被磷酸化。在本文所描述的相同标准条件但是省略ATP的情况下,发生这种磷酸化的标签A至腺苷酸化的头片段的连接。通过使用这种连接条件,可以防止磷酸化的5’末端的连接。在下一步骤中,标签B的连接要求这种标签在5’-末端具有游离的羟基(即,非磷酸化的)。可以在ATP的存在下进行连续式连接反应,如果期望进一步延伸标签(例如,图3中的标签C),随后磷酸化所得到的寡核苷酸的5’ -末端。
[0110]本文所描述的方法可以包括任意数量的可选步骤,以使文库多样化或询问该文库的成员。对于本文所描述的任何标记方法(例如,如图1至图3中的),可以用另外的“η”数目的连接、分离和/或磷酸化步骤添加连续的“η”数目的标签。示例性的可选的步骤可以包括使用一种或多种限制性核酸内切酶限制文库成员;将一个或多个衔接子序列连接至文库末端的一个或两个(例如,如一个或多个衔接子序列),以提供用于扩增和测序的引物序列或以提供用于固定序列的标记(如生物素);使用逆转录酶、转录酶或另一种模板依赖性聚合酶对复合物中装配的标签进行逆转录或转录、可选随后的逆转录;使用例如PCR扩增复合物中装配的标签;例如,通过使用细菌转化、乳液形成、稀释、表面捕获技术等,生成复合物中装配的标签的一个或多个群体的克隆分离株;例如,通过使用克隆分离株作为用于核苷酸的模板依赖性聚合的模板,扩增复合物中装配的标签的一个或多个群体的克隆分离株;以及例如,通过使用克隆分离株作为具有荧光标记的核苷酸的模板依赖性聚合的模板,对复合物中装配的标签的一个或多个群体的克隆分离株进行序列测定。本文中描述了用于扩增和测序寡核苷酸标签的另外的方法。
[0111]这些方法可以用来识别和发现任何数目的具有特定特性或功能的化学实体,例如在选择步骤中。期望的特征或功能可被用作将文库划分为至少两个部分的基础,伴随的是富集文库中具有期望功能的成员或相关成员中的至少一种。在特定的实施方式中,该方法包括识别小类药性文库成员,其结合或灭活治疗目标的蛋白质。在另一个实施方式中,设计顺序的(a sequence of)化学反应并选择一组结构单元,以便在所定义的化学条件下所选择的结构单元的反应将生成组合的多个分子(或分子的文库),其中一个或多个分子可具有作为用于特定蛋白质的治疗剂的效用。例如,选择化学反应和结构单元以产生具有通常存在于激酶抑制剂中的结构基团的文库。在任何这些情况下,标签编码文库成员的化学历史,并且在每种情况下,可以由任何特定的标签组合来表示化学可能性的集合。
[0112]在一个实施方式中,在适合于文库中的至少一个成员结合至祀的条件下,使化学实体的文库或其部分与生物靶接触,然后去除不与靶结合的文库成员,并且分析与它们相关联的一个或多个寡核苷酸标签。这种方法可以可选地包括通过本领域中已知的方法扩增标签。示例性的生物靶包括酶(例如,激酶、磷酸酶、甲基化酶、去甲基化酶、蛋白酶和DNA修复酶)、参与蛋白质:蛋白质相互作用的蛋白质(例如,用于受体的配体)、受体靶(例如,GPCR和RTK)、离子通道、细菌、病毒、寄生虫、DNA、RNA、朊病毒和糖类。
[0113]在另一个实施方式中,结合至靶的化学实体不进行扩增而是直接进行分析。示例性的分析方法包括微阵列分析,包括渐逝共振光子晶体分析;用于去卷积标签的以珠为基础的方法(例如,通过使用组氨酸标签(hig-tag));无标记的光子晶体生物传感器分析(例如,来自 SRU Biosystems, Inc.,Woburn, MA 的 BIND..K Reader);或以杂交为基础的方法(例如,通过使用与存在于标签的文库中的序列互补的固定化寡核苷酸的阵列)。
[0114]此外,化学共反应性配对(或官能团)可以容易地被包括于固相寡核苷酸合成方案中并且将支持寡核苷酸的有效的化学连接。此外,所得到的连接的寡核苷酸可以充当使用一种或多种聚合酶的模板依赖性聚合的模板。因此,可以修改本文的任何用于标记编码的文库的结合步骤,以包括酶促连接和/或化学连接技术中的一种或多种。示例性的连接技术包括酶促连接,如使用一种或多种RNA连接酶和/或DNA连接酶;以及化学连接,如使用化学共反应性配对(例如,包括可选取代的炔基和叠氮官能团的配对)。
[0115]另外,在分配-混合(split-and-mix)步骤中组合一个或多个文库。为了允许混合两个或多种文库,文库成员可以包含一种或多种文库-识别序列,如本文所描述的,例如在文库-识别标签中、在连接的结构单元标签中或作为头片段序列的一部分。
[0116]具有降低质量的方法
[0117]单链编码策略的许多机能是来自于当与双链标签相比时降低的单链标签质量(mass)。降低的质量潜在地赋予了多种益处,包括增加溶解度、降低的成本、提高的反应性、增加的靶可达性、降低的流体力学半径、提高的分析评估准确度等。除了使用单链标记方法之外,可以通过包括使用下列的一种或多种来进一步降低质量:具有减少长度的一种或多种标签、恒定质量的标签集、编码头片段、缺少引物结合区和/或恒定区的文库的一个或多个成员、具有减少了恒定区的文库的一个或多个成员或本文的任何其他方法。
[0118] 为了使得文库中的成员的质量最小化,可以减少一个或多个结构单元标签的长度,例如减少至尽可能短至编码每个分配大小的长度。特别地,标签可以少于20个核苷酸(例如,小于19个核苷酸、小于18个核苷酸、小于17个核苷酸、小于16个核苷酸、小于15个核苷酸、小于14个核苷酸、小于13个核苷酸、小于12个核苷酸、小于11个核苷酸、小于10个核苷酸、小于9个核苷酸、小于8个核苷酸或小于7个核苷酸)。如下列实施例中的,较短的标签(例如,约10个核苷酸或更短)可以用于标签连接。
[0119]也可以使用恒定的质量策略,其可以在文库合成过程中有助于分析。另外,恒定质量的标签集可以允许识别所有单个错误的出现(例如,由误读序列或由标签的化学或酶促连接所产生的错误)以及大多数多个错误的出现。以下表1中概述了恒定质量单链标签集的长度与编码能力的关系(例如,支持特定结构单元分配大小或文库同一性等的最小长度等)。因此,恒定质量的标签集的用途可以用来提供有效的编码能力,同时在文库形成的过程中维持错误识别。
[0120]表1
[0121]
【权利要求】
1.一种标记包含寡核苷酸编码的化学实体的第一文库的方法,所述方法包括: (i)提供具有第一官能团和第二官能团的头片段,其中,所述头片段包含至少一个2’ -取代的核苷酸; (?)使所述头片段的所述第一官能团结合至所述化学实体的第一组分,其中,所述头片段直接连接至所述第一组分或者所述头片段通过双官能接头间接地连接至所述第一组分;和 (iii)使所述头片段的所述第二官能团结合至第一结构单元标签以形成复合物, 其中,可以以任何顺序进行所述步骤(ii)和所述步骤(iii),并且其中,所述第一结构单元标签为所述步骤(ii)的所述结合反应编码,由此提供标记的文库。
2.根据权利要求1所述的方法,其中,所述头片段在所述头片段的5’-末端、3’-末端或内部位置中的一个或多个上包含2’ -取代的核苷酸。
3.根据权利要求2所述的方法,其中,所述头片段在5’-末端或3’ -末端处包含所述2’ -取代的核苷酸和所述第二官能团。
4.根据权利要求1至3中任一项所述的方法,其中,所述第一结构单元标签包含至少一个2’ -取代的核苷酸。
5.根据权利要求4所述的方法,其中,所述第一结构单元标签在所述第一结构单元标签的5’ -末端、3’ -末端或内部位置中的一个或多个上包含2’ -取代的核苷酸。
6.根据权利要求5所述的方法,其中,所述第一结构单元标签在5’-末端和3’ -末端上均包含所述2’ -取代的核苷酸。
7.根据权利要求1至6中任一项所述的方法,其中,所述2’-O-取代的核苷酸是2’ -O-甲基核苷酸或2’ -氟代核苷酸。
8.根据权利要求7所述的方法,其中,所述2’-O-取代的核苷酸是选自2’ -O-甲基鸟嘌呤或2’ -O-甲基尿嘧啶的2’ -O-甲基核苷酸。
9.根据权利要求7所述的方法,其中,2’-O-取代的核苷酸是选自2’ -氟鸟嘌呤或2’ -氟尿嘧啶的2’ -氟代核苷酸。
10.根据权利要求1至9中任一项所述的方法,其中,所述第一结构单元标签在所述3’ -末端或在所述5’ -末端包含保护基团。
11.根据权利要求1至10中任一项所述的方法,其中,步骤(ii)包括使所述头片段直接结合至所述第一组分。
12.根据权利要求11所述的方法,其中,所述组分是支架或第一结构单元。
13.根据权利要求1至10中任一项所述的方法,其中,步骤(ii)包括使所述头片段通过双官能接头间接地结合至所述第一组分。
14.根据权利要求13所述的方法,其中,所述方法包括使所述头片段与所述接头的第一官能团结合并且使所述第一组分与所述接头的所述第二官能团结合。
15.根据权利要求14所述的方法,其中,所述第一组分是支架或第一结构单元。
16.根据权利要求1至15中任一项所述的方法,进一步包括: (iv)使第二结构单元标签结合至所述复合物的5’-末端或3’ -末端;和 (v)使所述化学文库的第二组分结合至所述第一组分,其中,可以以任何顺序进行所述步骤(iv)和所述步骤(V)。
17.根据权利要求16所述的方法,其中,步骤(iv)包括使所述第二结构单元标签结合至所述复合物的5’ -末端;所述复合物在5’ -末端包含磷酸酯基团;并且所述第二结构单兀标签在3’ -末端和5’ -末端均包含羟基。
18.根据权利要求17所述的方法,其中,步骤(iv)进一步包括在结合所述第二单元标签之前纯化所述复合物并且使所述复合物与多核苷酸激酶反应以在5’ -末端上形成磷酸酯基团。
19.根据权利要求16所述的方法,其中,步骤(iv)包括使所述第二结构单元标签结合至所述复合物的3’ -末端;所述复合物在3’ -末端包含保护基团;并且所述第二结构单元标签在5’ -末端包含磷酸酯基团且在3’ -末端包含保护基团。
20.根据权利要求19所述的方法,其中,步骤(iv)进一步包括在使所述第二结构单元标签结合至所述复合物之前,使所述复合物与水解剂反应以从所述复合物释放所述保护基团。
21.根据权利要求16至20中任一项所述的方法,其中,所述第二结构单元标签在所述第二结构单元标签的5’ -末端、3’ -末端或内部位置中的一个或多个上包含2’ -取代的核苷酸。
22.根据权利要求16至21中任一项所述的方法,其中,所述第二组分为第一结构单元 或第二结构单元。
23.根据权利要求16至22中任一项所述的方法,其中,所述步骤(iv)包括RNA连接酶和/或DNA连接酶以将所述第二结构单元标签结合至所述复合物。
24.根据权利要求23所述的方法,其中,所述步骤(iv)包括所述RNA连接酶并且所述RNA连接酶是T4RNA连接酶。
25.根据权利要求23所述的方法,其中,所述步骤(iv)包括所述DNA连接酶并且所述DNA连接酶为ssDNA连接酶。
26.根据权利要求23所述的方法,其中,所述步骤(iv)包括所述RNA连接酶和所述DNA连接酶。
27.根据权利要求1至26中任一项所述的方法,其中,所述步骤(iii)包括RNA连接酶和/或DNA连接酶以将所述头片段结合至所述第一结构单元标签。
28.根据权利要求27所述的方法,其中,所述步骤(iii)包括所述RNA连接酶并且所述RNA连接酶是T4RNA连接酶。
29.根据权利要求27所述的方法,其中,所述步骤(iii)包括所述DNA连接酶并且所述DNA连接酶是ssDNA连接酶。
30.根据权利要求27所述的方法,其中,所述步骤(iii)包括所述RNA连接酶和所述DNA连接酶。
31.根据根据权利要求1至30中任一项所述的方法,其中,所述步骤(iii)和/或所述步骤(iv),如果存在,则包括聚乙二醇和/或一种或多种可溶性多价阳离子。
32.根据权利要求31所述的方法,其中,所述步骤(iii)和/或所述步骤(iv),如果存在,贝1J以约25% (w/v)至约35% (w/v)的量包含所述聚乙二醇。
33.根据权利要求32所述的方法,其中,所述聚乙二醇具有约3,000至约5,500道尔顿的平均分子量。
34.根据权利要求33所述的方法,其中,所述聚乙二醇具有约4,600道尔顿的平均分子量。
35.根据权利要求31至34中任一项所述的方法,其中,所述步骤(iii)和/或所述步骤(iv),如果存在,则以约0.05mM至约10.5mM的量包含所述一种或多种可溶性多价阳离子。
36.根据权利要求35所述的方法,其中,所述一种或多种多价阳离子选自由氯化镁、氯化锰(II)和六胺氯化钴(III)所组成的组。
37.根据权利要求35或36所述的方法,其中,所述一种或多种多价阳离子的量为约0.5mM 至约 1.5mM。
38.根据权利要求1至37中任一项所述的方法,其中,所述方法进一步包括在结合步骤(ii)至(V)中的任何一个之前,使所述复合物与任何未反应的标签或未反应的头片段分 离。
39.根据权利要求1至38中任一项所述的方法,其中,所述方法进一步包括在结合步骤(ii)至(V)中任何一个之前纯化所述复合物。
40.根据权利要求1至39中任一项所述的方法,其中,所述方法进一步包括使一个或多个另外的结构单元标签结合至所述复合物并且使一个或多个另外的组分结合至所述复合物。
41.根据权利要求1至40中任一项所述的方法,其中,所述头片段、所述第一结构单元标签、所述第二结构单元标签或所述一个或多个另外的结构单元标签,如果存在,则包含预腺苷酸化的5’ -末端。
42.根据权利要求1至41中任一项所述的方法,其中,所述头片段包含发夹结构。
43.根据权利要求1至42中任一项所述的方法,其中,所述头片段、所述第一结构单元标签、所述第二结构单元标签和/或所述一个或多个另外的结构单元标签,如果存在,则包含5至20个核苷酸。
44.根据权利要求43所述的方法,其中,所述第一结构单元标签、所述第二结构单元标签和/或所述一个或多个另外的结构单元标签,如果存在,则具有大约相同的质量。
45.根据权利要求1至44中任一项所述的方法,其中,所述头片段、所述第一结构单元标签、所述第二结构单元标签和/或所述一个或多个另外的结构单元标签,如果存在,则进一步包含第一文库-识别序列。
46.根据权利要求1至44中任一项所述的方法,其中,所述方法进一步包括使第一文库-识别标签结合至所述复合物。
47.根据权利要求45或46所述的方法,进一步包括提供第二文库并且使所述第一文库与所述第二文库组合。
48.根据权利要求1至47中任一项所述的方法,其中,所述头片段、所述第一结构单元标签、所述第二结构单元标签和/或所述一个或多个另外的结构单元标签,如果存在,进一步包括用途序列和/或来源序列。
49.根据权利要求1至47中任一项所述的方法,其中,所述方法进一步包括使用途标签和/或来源标签结合至所述复合物。
50.根据权利要求1至49中任一项所述的方法,其中,所述方法进一步包括使尾片段结合至所述复合物。
51.—种标记包含寡核苷酸编码的化学实体的第一文库的方法,所述方法包括: (i)提供具有第一官能团和第二官能团的头片段,其中,所述头片段包含在5’-末端处的2’-取代的核苷酸、可选的在所述头片段的内部位置的一个或多个核苷酸、以及在3’-末端的2’ -位置和/或3’ -位置的保护基团; (ii)使所述头片段的所述第一官能团结合至所述化学实体的第一组分,其中,所述头片段直接连接至所述第一组分或者所述头片段通过双官能接头间接地连接至所述第一组分;和 (iii)使所述头片段的所述第二官能团结合至第一结构单元标签,其中,所述第一结构单元标签包含在5’ -末端的2’ -取代的核苷酸和羧基、可选的在所述标签的内部位置的一个或多个核苷酸、以及在3’ -末端的2’ -取代的核苷酸和羟基; 其中,可以以任何顺序进行所述步骤(ii)和(iii),并且其中,所述第一结构单元标签为所述步骤(ii)的结合反应编码,由此提供标记的文库。
52.根据权利要求51所述的方法,其中,所述2’-取代的核苷酸是2’ -O-甲基鸟嘌呤的2’ -O-甲基核苷酸。
53.根据权利要求51或根据权利要求52所述的方法,其中,所述一个或多个核苷酸存在于所述头片段的 内部位置。
54.根据权利要求51至53中任一项所述的方法,其中,所述一个或多个核苷酸存在于所述标签的内部位置。
55.根据权利要求53或54所述的方法,其中,所述头片段和/或所述标签的所述一个或多个核苷酸是一个或多个2’ -脱氧核苷酸。
56.根据权利要求51至55中任一项所述的方法,其中,所述步骤(iii)包括一种或多种可溶性多价阳离子、聚乙二醇和RNA连接酶。
57.根据权利要求56所述的方法,其中,所述聚乙二醇具有约4,600道尔顿的平均分子量并且所述RNA连接酶是T4RNA连接酶。
58.根据权利要求56或57所述的方法,其中,所述一种或多种多价阳离子选自由氯化镁、氯化锰(II)和六胺氯化钴(III)所组成的组。
59.根据权利要求51至57中任一项所述的方法,其中,所述头片段和/或所述第一结构单元标签包含5至20个核苷酸。
60.根据权利要求59所述的方法,其中,所述第一结构单元标签、所述第二结构单元标签和/或所述一个或多个另外的结构单元标签,如果存在,则具有大约相同的质量。
61.根据权利要求51至60中任一项所述的方法,其中,所述头片段、所述第一结构单元标签、所述第二结构单元标签和/或所述一个或多个另外的结构单元标签,如果存在,则进一步包含第一文库-识别序列。
62.根据权利要求51至60中任一项所述的方法,其中,所述方法进一步包括使第一文库-识别标签结合至所述复合物。
63.根据权利要求61或62所述的方法,进一步包括提供第二文库并且使所述第一文库与所述第二文库组合。
64.根据权利要求51至63中任一项所述的方法,其中,所述头片段、所述第一结构单元标签、所述第二结构单元标签和/或所述一个或多个另外的结构单元标签,如果存在,则进一步包括用途序列和/或来源序列。
65.根据权利要求51至63中任一项所述的方法,其中,所述方法进一步包括使用途标签和/或来源标签结合至所述复合物。
66.根据权利要求51至65中任一项所述的方法,其中,所述方法进一步包括使尾片段结合至所述复合物。
67.根据权利要求1或51所述的方法,其中,所述2’-取代的核苷酸选自由以下组成的组:2’ -O-甲基鸟嘌呤、2’ -O-甲基尿嘧啶、2’ -O-甲基腺苷、2’ -O-甲基胸苷、2’ -O-甲基肌苷、2’ -O-甲基胞苷、2’ -O-甲基二氨基嘌呤、2’ -氟鸟嘌呤、2’ -氟尿嘧啶、2’ -氟腺苷、2’ -氟胸苷、2’ -氟肌苷、2’ -氟胞苷和2’ -氟二氨基嘌呤。
68.根据权利要求1至67中任一项所述的方法,其中,所述方法包括多个头片段。
69.根据权利要求68 所述的方法,其中,所述多个头片段中的每个头片段包含相同的序列区和不同的编码区。
70.根据权利要求69所述的方法,其中,所述相同的序列区是引物结合区。
71.根据权利要求69或权利要求70所述的方法,其中,所述不同的编码区是为所述头片段或为添加来源组分编码的起始结构单元标签。
72.根据权利要求1至71中任一项所述的方法,其中,在如果存在的步骤(ii)至步骤(iv)的至少一个中的所述结合包括酶促连接。
73.根据权利要求72所述的方法,其中,所述酶促连接包括使用RNA连接酶和/或DNA连接酶。
74.根据权利要求1至73中任一项所述的方法,其中,在如果存在的步骤(ii)至步骤(iv)的至少一个中的所述结合包括化学连接。
75.根据权利要求74所述的方法,其中,所述化学连接包括使用一种或多种化学共反应性配对。
76.根据权利要求75所述的方法,其中,所述化学共反应性配对是可选被取代的炔基和可选被取代的叠氮基。
77.根据权利要求75所述的方法,其中,所述化学共反应性配对是硫代磷酸酯基团和碘基团。
78.根据权利要求77所述的方法,其中,所述硫代磷酸酯基团在寡核苷酸的5’-末端而所述碘基团在寡核苷酸的3’ -末端。
79.根据权利要求77或78所述的方法,其中,所述化学连接进一步在所述化学共反应性配对之间的结合反应中包括夹板寡核苷酸。
80.根据权利要求75至79中任一项所述的方法,其中,所述化学共反应性配对产生具有约4至约24个原子长度的间隔物。
81.根据权利要求80所述的方法,其中,所述间隔物具有约4至约10个原子的长度。
82.根据权利要求74至81中任一项所述的方法,其中,一个或多个结构单元标签的所述化学连接包括用于连接连续的结构单元标签的正交化学共反应性配对。
83.根据权利要求82所述的方法,其中,所述正交化学共反应性配对包含(i)可选被取代的炔基和可选被取代的置氣基以及(ii)硫代憐酸酷基团和鹏基团。
84.根据权利要求1至83中任一项所述的方法,其中,所述复合物、所述头片段、所述第一结构单元标签、所述第二结构单元标签和/或所述一个或多个另外的结构单元标签,如果存在,则在3’ -末端的末端核苷酸和与所述末端核苷酸邻接的核苷酸之间包含经修饰的憐酸酷基团。
85.—种包含头片段和结构单元标签的复合物,其中,所述标签包含5至20个核苷酸、在5’ -末端的2’ -取代的核苷酸和在3’ -末端的2’ -取代的核苷酸。
86.根据权利要求85所述的复合物,其中,在所述5’-末端和/或3’ -末端的所述2’ -取代的核苷酸是2’ -O-甲基核苷酸或2’ -氟代核苷酸。
87.根据权利要求85或86所述的复合物,其中,所述头片段包含发夹结构。
88.根据权利要求85至87中任一项所述的复合物,其中,所述头片段在所述头片段的5’ -末端、3’ -末端或在内部位置中的一个或多个上包含2’ -取代的核苷酸。
89.根据权利要求85至88中任一项所述的复合物,其中,所述头片段进一步包含预腺苷酸化的5’ -末端。
90.根据权利要求85至89中任一项所述的复合物,其中,所述2’-取代的核苷酸是2’ -O-甲基核苷酸或2’ -氟代核苷酸。
91.根据权利要求90所述的复合物,其中,所述2’-取代的核苷酸选自由以下组成的组:2’ -O-甲基鸟嘌呤、2’ -O-甲基尿嘧啶、2’ -O-甲基腺苷、2’ -O-甲基胸苷、2’ -O-甲基肌苷、2’ -O-甲基胞苷、2’ -O-甲基二氨基嘌呤、2’ -氟鸟嘌呤、2’ -氟尿嘧啶、2’ -氟腺苷、2’ -氟胸苷、2’ -氟肌苷、2’ -氟胞苷和2’ -氟二氨基嘌呤。
92.根据权利要求85至91中任一项所述的复合物,进一步包含尾片段。
93.根据权利要求85至92中任一项所述的复合物,其中,所述复合物、所述头片段或所述结构单元标签在3’ -末端的末端核苷酸和与所述末端核苷酸邻接的核苷酸之间包含经修饰的磷酸酯基团。
94.根据权利要求85至93中任一项所述的复合物,其中,所述复合物包含硫代磷酸酯基团或三唑基。
【文档编号】C40B50/16GK103998658SQ201280053930
【公开日】2014年8月20日 申请日期:2012年9月7日 优先权日:2011年9月7日
【发明者】安东尼·D·基夫, 理查德·W·瓦格纳, 亚历山大·利托夫奇克, 马修·克拉克, 约翰·W·科佐, 保罗·A·森特雷拉, 克里斯托弗·D·赫普, 张颖 申请人:X-化学有限公司