专利名称:用于dna计算芯片的寡核苷酸序列的制作方法
技术领域:
本发明涉及的是一种基因技术领域的寡核苷酸序列,特别是一种用于DNA计算芯片的寡核苷酸序列。
背景技术:
DNA计算是近年来发展起来的一个新领域。1994年Adleman(Science,1994,2661021-1024)首次以DNA序列作为信息载体,在试管中利用分子生物学试验技术解决了七顶点的Hamilton路径问题。之后许多学者提出了针对不同NP问题的多种的DNA计算模型,这些DNA计算均是在溶液体系中的计算。尽管在溶液中可以实现多种DNA计算,然而溶液中的反应也存在若干难以克服的问题,如中间产物分离困难、反应体系复杂、中间过程难以监控、反应的可重复性较差、与电子计算机难以实现杂合等,为了解决这些问题,需要发展基于表面的DNA计算,即将DNA序列固定在表面上,然后进行计算反应,如杂交、酶切等,最后输出计算结果。Frutns等在“核酸研究”杂志(Nucleic Acids Research,1997,254748-4757)发表了他们设计的一系列DNA表面计算用寡核苷酸序列。他们采用含8碱基的可变序列来代表不同的数据,该8碱基可变序列满足三个要求(1)每条序列的G+C含量均在50%;(2)集合中任意两条序列A、B之间对应位置相同碱基个数不超过4个;(3)集合中任意一条序列A与任意一条序列B(A、B可以相同)的互补序列对应位置相同碱基个数不超过4个。在以上条件的限制下,从48=65536个序列中一共筛选出了108种序列。这些序列被固定到固体表面,依据算法对这些序列进行杂交、酶切、解链或延伸等反应,最后输出计算结果。但是对于芯片表面的杂交反应而言,由于寡核苷酸序列杂交稳定性的要求,通常序列长度需要超过12碱基,低于这个长度,杂交稳定性差,信号弱。尽管Frutns等设计了108种序列,但这些序列的可变区长度只有8碱基,如果用于DNA芯片计算,则不能同时保证杂交稳定性和无杂交错配。需要对Frutns等的结果进行改进才能满足我们的DNA表面计算的要求。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种用于DNA计算芯片的寡核苷酸序列。这些序列长度为12碱基,杂交稳定性好,无错配,能够满足芯片计算需要,用于计算多种NP问题,具有通用性。
本发明是通过以下技术方案实现的。本发明的寡核苷酸序列中每条序列的长度为12碱基,满足以下约束条件,生成22条母序列每条序列G+C含量均为50%;任一序列A与任一其他序列B之间比对得分不超过4,其中A、B不同;任一序列A与任一序列B的完全互补序列之间的比对得分不超过4,其中A、B不同,或者A、B相同;应用于光导原位合成法制作芯片,或者应用于点样法制作芯片。
在Smith和Waterman提出的DNA序列局部比对方法(J.Mol.Biol.1981,147,195-197)基础上,对寡核苷酸序列进行不带空位的局部比对,用比对得分来代表两条序列之间的相似程度。针对长度为m的具体一序列,比对得分的计算原则为进行的DNA序列不带空位的局部比对,用比对得分来代表两条序列之间的相似程度,配对得1分,错配得-2分,比对得分值限制在m/3-m/2,采用这种程序对用于DNA芯片计算的寡核苷酸序列进行筛选。
母序列按以下方式扩展一倍将母序列中的任一序列通过加入其完全互补序列01.tgaagcgcgtta12.caaggacatacg02.cagactagcctt13.gtacagtccaac03.aagacgggaaac14.aatggggtagct04.gcagtatccaca15.acaccactaagc05.aggaactgagct16.agcttgtgtcgt06.ctctgatcttcg17.aggtcacttacc07.acccaaatcgca18.tcgctaaagggt08.gatcacatgcgt19.ctgactttctcc09.gaacacgccata20.tcggttatcgga10.gcgtaaatgctg21.ttctggtcgaac11.actctcaactcc22.ggtactactcac构成一对序列,则22条母序列扩展为22对,总序列个数变为44条,记为SEQ IDNO.1,用于DNA计算芯片。每对序列对应于NP问题中一个变量的0和1两种状态,则一共对应NP问题中的22个变量。
由于在本发明涉及的DNA计算芯片算法中,一个变量的两种状态不可能同时用于杂交计算反应,因此,即使这两种状态的对应寡核苷酸链完全互补,也不会对计算产生影响。22对序列如下,记为SEQ ID NO.1,其中01与02为一对序列,03与04为一对序列,依次类推01.tgaagcgcgtta23.caaggacatacg02.taacgcgcttca24.cgtatgtccttg03.cagactagcctt25.gtacagtccaac04.aaggctagtctg26.gttggactgtac05.aagacgggaaac27.aatggggtagct06.gtttcccgtctt28.agctaccccatt07.gcagtatccaca29.acaccactaagc08.tgtggatactgc30.gcttagtggtgt09.aggaactgagct31.agcttgtgtcgt10.agctcagttcct32.acgacacaagct11.ctctgattcgtc33.aggtcacttacc12.gacgaatcagag34.ggtaagtgacct13.acccaaatcgca35.tcgctaaagggt14.tgcgatttgggt36.accctttagcga15.gatcacatgcgt37.ctgactttctcc16.acgcatgtgatc38.ggagaaagtcag17.gaacacgccata39.tcggttatcgga18.tatggcgtgttc40.tccgataaccga19.gcgtaaatgctg41.ttctggtcgaac20.cagcatttacgc42.gttcgaccagaa21.actctcaactcc43.ggtactactcac22.ggagttgagagt44.gtgagtagtacc利用点样法制作芯片时,为了适合固定,在长12碱基可变序列的5’端加上连接臂,在连接臂末端再结合上与基底反应的活性集团。
本发明具有实质性特点和显著进步,本发明所述的22对寡核苷酸序列可用于22个变量的DNA芯片表面计算使用,杂交稳定性好,无错配情况发生,杂交信号强,适用于任何可采用DNA表面芯片计算的NP问题,具有很大的潜在应用价值。
具体实施例方式
实施例112碱基变量母序列(n=22)配对测试结果(比对得分以矩阵排列表示)发明内容中约束条件(3)“任一序列A与任一其他序列B之间比对得分”测试结果,其中第一行和第一列均代表寡核苷酸序列的序号,表格内的数值代表比对得分(对角线的12表示序列与自身的比对得分)
发明内容中约束条件(4)“任一序列A与任一序列B(A、B可以相同)的完全互补序列之间的比对得分”测试结果
以上测试结果表明所选的22条序列均满足说明书中发明内容中的第(3)条和第(4)条约束条件,即对比得分均不大于4。
实施例2以母序列来编码一个4变量的SAT问题,并排布为计算芯片。
对一个4变量的SAT问题如F=(w∨x∨y)∧(w∨y∨z)∧(x∨y)∧(w∨y)4个变量的8种状态采用母序列中任选的8个寡核苷酸序列进行编码,例如,采用以下任选的8个序列
4个变量的8种状态与寡核苷酸序列的对应如下,与基底反应的活性基团采用NH2,连接臂采用长度为15的碱基A,相应的配对探针可采用荧光、同位素、化学发光底物等进行标记,这里采用荧光物质FAM标记。
DNA计算芯片计算此问题的步骤如下(1)生成DNA表面计算芯片①该SAT问题包含4个变量(w,x,y,z)和4个子句,每个变量取值为1或0,则该问题的完全数据池含24=16个数据,按wxyz顺序排列,16个数据如下0000,0001,0010,0011,0100,0101,011O,0111,1000,1001,1010,1011,1100,1101,1110,1111将四个变量在阵列中的每个分单元做如下位置对应,以便寻址
将完全数据池排布为如下阵列
②将以上SAT问题4个变量的8种状态编码的寡核苷酸序列依照以上阵列形式点样排布在芯片上,得到一个8*8的阵列。采用可以与NH2反应的基底如醛基、环氧基、异硫氰基等修饰的玻片来固定寡核苷酸链。
(2)对SAT问题设计相应的DNA芯片计算算法如下a.给定已制备好的可明确寻址的寡核苷酸芯片,以满足第一个子句的所有寡核苷酸序列的互补链进行杂交,采集到第一幅图像;然后进行解链,再用满足第二个子句的所有寡核苷酸序列的互补链进行杂交,采集到第二幅图像;进行解链一杂交循环,直到所有子句的杂交图像都采集到。杂交缓冲液为5×SSC,0.2%SDS,杂交温度为28℃,杂交时间为3小时。该反应条件保证不存在错配情况。
b.对所有的杂交图像利用专用图像处理计算软件进行处理,对SAT问题,专用图像处理计算软件的编程原则为首先依据阵列形式将图像划分为同样的矩阵方格,然后对每个方格做杂交亮点检测,方格中只要有杂交亮点,不管亮点数目有多少,均对此方格输出值为1,如果方格中没有杂交亮点,则输出值为0,这样每幅杂交图像将抽象为一个由0和1组成的矩阵,如下
将所有抽象出的矩阵相加得到一个最终矩阵,如下左,该最终矩阵中如果存在等于SAT子句数目的数值,则此SAT问题有解,对应寻址,可以得到相应的全部解,如下右。
实施例3以扩展后的序列来编码如实施例2的同一个4变量的SAT问题,并排布为计算芯片。
4个变量的8种状态采用扩展后序列中任选的4对寡核苷酸序列进行编码,例如,采用以下任选的4对序列
4个变量的8种状态与4对寡核苷酸序列的对应如下,与基底反应的活性基团采用NH2,连接臂采用长度为15的碱基A,相应的配对探针采用荧光物质FAM标记。
采用与实施例2相同的DNA表面计算算法和排布方式,杂交的图像中也不存在错配情况,计算结果正确。
本发明涉及的序列及记号分列如下(1)SEQ ID NO.1的信息(i)序列特征(A)长度12碱基(B)类型核苷酸(C)链性单链(D)拓扑结构线性(ii).分子类型寡核苷酸(iii).序列描述SEQ ID NO.1<110>上海交通大学<120>用于DNA计算芯片的寡核苷酸序列<160>44<210>1<211>12<212>DNA<213>人工序列<400>1tgaagcgcgt ta 12<210>2<211>12
<212>DNA<213>人工序列<400>2taacgcgctt ca 12<210>3<211>12<212>DNA<213>人工序列<400>3cagactagcc tt 12<210>4<211>12<212>DNA<213>人工序列<400>4aaggctagtc tg 12<210>5<211>12<212>DNA<213>人工序列<400>5aagacgggaa ac 12<210>6<211>12<212>DNA
<213>人工序列<400>6gtttcccgtc tt 12<210>7<211>12<212>DNA<213>人工序列<400>7gcagtatcca ca 12<210>8<211>12<212>DNA<213>人工序列<400>8tgtggatact gc 12<210>9<211>12<212>DNA<213>人工序列<400>9aggaactgag ct 12<210>10<211>12<212>DNA<213>人工序列
<400>10agctcagttc ct 12<210>11<211>12<212>DNA<213>人工序列<400>11ctctgattcg tc 12<210>12<211>12<212>DNA<213>人工序列<400>12gacgaatcag ag 12<210>13<211>12<212>DNA<213>人工序列<400>13acccaaatcg ca 12<210>14<211>12<212>DNA<213>人工序列<400>14
tgcgatttgg gt 12<210>15<211>12<212>DNA<213>人工序列<400>15gatcacatgc gt 12<210>16<211>12<212>DNA<213>人工序列<400>16acgcatgtga tc 12<210>17<211>12<212>DNA<213>人工序列<400>17gaacacgcca ta 12<210>18<211>12<212>DNA<213>人工序列<400>18tatggcgtgt tc 12
<210>19<211>12<212>DNA<213>人工序列<400>19gcgtaaatgc tg 12<210>20<211>12<212>DNA<213>人工序列<400>20cagcatttac gc 12<210>21<211>12<212>DNA<213>人工序列<400>21actctcaact cc 12<210>22<211>12<212>DNA<213>人工序列<400>22ggagttgaga gt 12
<210>23<211>12<212>DNA<213>人工序列<400>23caaggacata cg 12<210>24<211>12<212>DNA<213>人工序列<400>24cgtatgtcct tg 12<210>25<211>12<212>DNA<213>人工序列<400>25gtacagtcca ac 12<210>26<211>12<212>DNA<213>人工序列<400>26gttggactgt ac 12<210>27
<211>12<212>DNA<213>人工序列<400>27aatggggtag ct 12<210>28<211>12<212>DNA<213>人工序列<400>28agctacccca tt 12<210>29<211>12<212>DNA<213>人工序列<400>29acaccactaa gc 12<210>30<211>12<212>DNA<213>人工序列<400>30gcttagtggt gt 12<210>31<211>12
<212>DNA<213>人工序列<400>31agcttgtgtc gt 12<210>32<211>12<212>DNA<213>人工序列<400>32acgacacaag ct 12<210>33<211>12<212>DNA<213>人工序列<400>33aggtcactta cc 12<210>34<211>12<212>DNA<213>人工序列<400>34ggtaagtgac ct 12<210>35<211>12<212>DNA
<213>人工序列<400>35tcgctaaagg gt 12<210>36<211>12<212>DNA<213>人工序列<400>36accctttagc ga 12<210>37<211>12<212>DNA<213>人工序列<400>37ctgactttct cc 12<210>38<211>12<212>DNA<213>人工序列<400>38ggagaaagtc ag 12<210>39<211>12<212>DNA<213>人工序列
<400>39tcggttatcg ga 12<210>40<211>12<212>DNA<213>人工序列<400>40tccgataacc ga 12<210>41<211>12<212>DNA<213>人工序列<400>41ttctggtcga ac 12<210>42<211>12<212>DNA<213>人工序列<400>42gttcgaccag aa 12<210>43<211>12<212>DNA<213>人工序列<400>43
ggtactactc ac 12<210>44<211>12<212>DNA<213>人工序列<400>44gtgagtagta cc 1权利要求
1.一种用于DNA计算芯片的寡核苷酸序列,其特征在于,该组序列中每条序列的长度为12碱基,满足以下约束条件,生成22条母序列①每条序列G+C含量均为50%;②任一序列A与任一其他序列B之间比对得分不超过4,其中A、B不同;③任一序列A与任一序列B的完全互补序列之间的比对得分不超过4,其中A、B不同,或者A、B相同;④应用于光导原位合成法制作芯片,或者应用于点样法制作芯片。
2.根据权利要求1所述的用于DNA计算芯片的寡核苷酸序列,其特征是,所述的母序列按以下方式扩展一倍将母序列中的任一序列通过加入其完全互补序列构成一对序列,则22条母序列扩展为22对,总序列个数变为44条,记为SEQ ID NO.1,用于DNA计算芯片。
3.根据权利要求1或者2所述的用于DNA计算芯片的寡核苷酸序列,其特征是,每对序列对应于NP问题中一个变量的0和1两种状态,则一共对应NP问题中的22个变量。
4.根据权利要求1或者2所述的用于DNA计算芯片的寡核苷酸序列,其特征是,针对长度为m的具体一序列,比对得分的计算原则为进行的DNA序列不带空位的局部比对,用比对得分来代表两条序列之间的相似程度配对得1分,错配得-2分,比对得分值限制在m/3-m/2,采用这种程序对用于DNA芯片计算的寡核苷酸序列进行筛选。
5.根据权利要求1所述的用于DNA计算芯片的寡核苷酸序列,其特征是,所述的点样法制作芯片时,为了适合固定,在长12碱基可变序列的5’端加上连接臂,在连接臂末端再结合上与基底反应的活性集团。
全文摘要
本发明公开一组用于DNA芯片计算的寡核苷酸序列。该组序列中每条序列的长度为12碱基,满足以下约束条件,生成22条母序列每条序列G+C含量均为50%;任一序列A与任一其他序列B之间比对得分不超过4,其中A、B不同;任一序列A与任一序列B的完全互补序列之间的比对得分不超过4,其中A、B不同,或者A、B相同;应用于光导原位合成法制作芯片,或者应用于点样法制作芯片。这些序列杂交稳定性好,无错配,杂交信号强,可用于计算多种NP问题,具有通用性。
文档编号C12N15/00GK1657615SQ200510023458
公开日2005年8月24日 申请日期2005年1月20日 优先权日2005年1月20日
发明者张晓东, 吕鸣, 胡钧, 贺林, 张治洲 申请人:上海交通大学