1.本发明属于基因技术领域,涉及一种引物的设计方法及系统。
背景技术:2.pcr是体外酶促合成特异dna片段的一种方法,由于高温变形、低温退火及适温延伸等反应组成一个周期,循环进行,使得目的dna得以迅速扩增,具有特异性强、灵敏度高、操作简单等特点。
3.在pcr反应前,必须设计合适的引物。引物是一小段单链dna或rna,作为dna的复制起点,在核酸合成反应时,作为每个多核苷酸链进行延伸的出发点而起作用的多核苷酸链。引物设计的好坏,直接影响整个实验的结果。引物设计的效果受到很多因素的影响,包括引物长度、gc含量、溶解温度、特异性等等。
4.目前虽然已有很多引物设计软件,但大多满足不了利用二代测序批量进行pcr扩增测序、以及多种引物方式的需求。现有的引物设计方法,比如专利申请201811591649.x“一种用于基因测序的引物设计方法及系统”虽然评估所有引物的各项特征,并根据不同引物类型进行综合打分,从而挑出最优引物,具有效果好、通用性高、可批量设计等优点,但仍存在几个问题:
5.1、不能设计探针;
6.2、不能评估引物是否覆盖多态性位点,更不能避免设计覆盖多态性位点的引物;
7.3、特异性评估不够精确,不能预测扩增效率,且比对结果不能可视化。
8.4、特异性分析冗余:为了进行特异性分析,进行了两次比对,操作冗余,逻辑混乱,不好理解,浪费时间;虽然引物数量少时,第二次运行的时间很短,但随着引物数量的增加,第二次运行的时间成指数上升。
技术实现要素:9.本发明要解决的技术问题是克服现有技术中的技术问题,本发明对原有的引物设计方法进行了一些优化,获得了一种能设计探针,并且能评估引物是否覆盖多态性位点的引物设计方法,以及根据其设计的计算机系统。
10.为解决上述技术问题,提供了一种引物的设计方法,所述引物的设计方法包括以下步骤:
11.a1、针对目标模板序列按不同位置不同长度进行遍历得到候选引物序列;
12.a2、计算每一个候选引物的各项基本特征值、snp特征值以及单引物特异性特征值;
13.a3、对每一个候选引物,针对各项基本特征值、snp特征值以及特异性特征值打分;
14.a4、选择位置合适的候选引物组合;
15.a5、针对每一对候选引物组合,计算组合间的各特征值和相应得分;
16.a6、将候选引物组合的组合间评分结果与对应两个候选引物的评分结果进行综
合,从而得到候选引物组合综合评分;
17.a7、判断区域设计模式,若每个目标区域要求设计一对最佳引物,则选择综合评分最高的一对候选引物组合输出;若要求设计整个区域均匀全覆盖的引物,则在等距离的前提下选择该区域附近综合评分最高的候选引物组合输出。
18.基于一个总的技术构思,本发明还提供了一种探针的设计方法,所述探针的设计方法包括以下步骤:
19.b1、针对目标模板序列按不同位置不同长度进行遍历得到候选oligos序列;
20.b2、计算每一个候选oligo的各项基本特征值、snp特征值以及单oligo特异性特征值;
21.b3、对每个候选oligo按探针的要求进行打分,得到候选探针的得分,挑选几个得分最高的候选探针作为最终的探针;
22.b4、针对每个挑选的探针,依次选择位置合适的候选引物组合;
23.b5、针对每一对候选引物组合,分别对两个引物按引物的要求进行评分,得到候选引物得分;
24.b6、针对每一对候选引物组合,计算组合间的各特征值和相应得分;
25.b7、将候选引物组合的组合间评分结果与对应两个候选引物的评分结果进行综合,从而得到组合候选引物综合评分;挑选得分最高的候选引物组合,作为该探针的组合引物;将组合引物评分结果与探针引物评分结果进行综合,得到该探针与组合引物的综合得分。
26.上述的设计方法,进一步的,所述a2和b2中,候选oligo的各项基本特征值包括:引物长度、溶解温度、gc含量、3
′
末端是否有a、末端自由能、poly结构、发卡结构、dimer、5末端是否为g、cg含量差异。
27.上述的设计方法,进一步的,所述a2和b2中,snp特征值采用以下方法获得:
28.s1、对基因组文件进行改写,增加多态性位点(snp)的信息;
29.s2、当输入文件不为模板序列时,程序根据基因组文件自动生成模板序列及候选oligos的同时,根据携带snp的基因组文件自动生成携带snp的模板序列,并最后生成携带snp的候选oligos;当输入文件为模板序列时,若提供携带snp的模板序列,则生成候选oligos的同时,也生成携带snp的候选oligos,否则无法生成携带snp的候选oligos,不进行snp检测;
30.s3、根据携带snp的候选oligos序列,识别序列中非atcg的碱基,并按规则进行snp的解析获得snp特征值。
31.上述的设计方法,进一步的,所述a2和b2中,特异性特征值采用以下方法获得:
32.将oligo与参考基因组进行bwa比对,针对每个比对位置,提取比对区域序列,计算该区域与引物的溶解温度tm,若溶解温度tm大于预设阈值,则认为该oligo会结合该区域,最终得到各个候选引物能扩增的区域数和相应各个区域的溶解温度tm;统计每个候选oligo能结合的区域数,并记录各结合区域的溶解温度tm,作为该oligo的特异性特征值。
33.上述的设计方法,进一步的,计算该区域与引物的溶解温度tm的方法为:从3末端位置相同的一组oligos中选取某固定长度的oligo作为代表进行bwa比对;针对每个比对位置,提取附近比对区域的序列,采用primer3-ntthal计算各长度不同oligos结合该区域的
溶解温度。
34.上述的设计方法,进一步的,所述固定长度的oligo为20~25bp的oligo。
35.上述的设计方法,进一步的,调节bwa比对参数为-c 1000000000-y 1000000000,并将oligo的比对时间限制为120s,超时即停止,并过滤该oligo。
36.上述的设计方法,进一步的,对各长度不同oligos重新进行bwa比对,并将比对结果可视化。
37.基于一个总的技术构思,本发明还提供了一种用于执行上述的设计方法的设计系统,包括:
38.候选引物生成程序单元,用于针对目标模板序列按不同位置不同长度进行遍历得到候选引物序列;
39.基本特征计算程序单元,用于计算每一个候选引物的各项基本特征值,并针对各项基本特征值评分;
40.snp特征值计算单元,用于计算模板序列、候选oligos序列中携带snp的特征值,并针对snp特征值进行评分;
41.单oligo特异性特征值计算程序单元,用于统计每个候选oligo能结合的区域数,并记录各结合区域的溶解温度tm,作为该oligo的特异性特征值,并对该oligo特异性特征值进行评分;
42.评分单元:用于计算候选引物的综合评分。
43.组合间距特征值以及距离特征值计算程序单元,用于针对每一对组合候选引物,分别计算组合间距特征值以及距离特征值;
44.组合候选引物综合特征值计算程序单元,用于针对每一对组合候选引物,分别对组合间距特征值、距离特征值进行评分,并将评分结果与对应两个候选引物的引物综合评分进行综合,从而得到组合候选引物综合特征7值;
45.候选引物输出程序单元,用于判断区域设计模式,若每个目标区域要求设计一对最佳引物,则选择综合评分最高的一对候选引物组合输出;若要求设计整个区域均匀全覆盖的引物,则在等距离的前提下选择该区域附近综合评分最高的候选引物组合输出。
46.与现有技术相比,本发明的优点在于:
47.(1)本发明提供了一种引物和探针的设计方法,可以设计探针、可以评估引物是否覆盖多态性位点,并避免设计多态性位点位于3末端的引物或位于两端的探针。克服了现有技术中不能设计探针;不能评估引物是否覆盖多态性位点,更不能避免设计覆盖多态性位点的引物;以及特异性评估不够精确,展示不够直观的缺陷。
48.(2)本发明提供了一种引物或探针的设计方法,为了避免位置相同仅长度不同的一组oligo序列重复进行比对,挑选一条作为代表进行比对,缩短比对时间,提高运行速度。
49.(3)本发明提供了一种引物或探针的设计方法,进一步放松bwa比对参数,使其比对结果更详尽,提高特异性评估的精确性;并实现比对结果可视化,一目了然,可读性强。
50.(4)本发明提供了一种引物或探针的设计方法,增加3末端自由能特征值的评估,评估更全面。
附图说明
51.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述。
52.图1为本发明实施例1和实施例2的基本流程示意图。
53.图2为本发明实施例1和实施例2中基因组多态性相应位置修改示意图。
54.图3为本发明实施例1和实施例2中各oligo比对可视化示意图。
55.图4为本发明实施例1和实施例2中生长曲线分段打分方法示意图。
具体实施方式
56.以下结合具体优选的实施例对本发明作进一步描述,但并不因此而限制本发明的保护范围。
57.以下实施例中所采用的材料和仪器均为市售。
58.实施例1
59.一种引物的设计方法,具体流程参见图1,具体包括以下步骤:
60.(1)根据输入文件自动生成模板序列,输入文件支持以下3种类型:
61.1.1、模板序列:不需要处理,直接进行后续分析——生成候选oligos。
62.1.2、目标位点和基因组文件:根据基因组文件提取目标位点上下游一定长度的序列,作为oligo设计的模板序列。
63.1.3、目标区域和基因组文件:根据基因组文件提取目标区域序列,作为oligo设计的模板序列。
64.(2)基于模板序列按不同位置不同长度遍历所有候选引物序列。
65.(3)评估每一个候选引物的各项特征,包括:基本特征值、snp特征值和单引物特异性特征值。
66.3.1、各引物的各项基本特征包括:引物长度、溶解温度、gc含量、3
′
末端是否有a、末端自由能、poly结构、发卡结构、dimer。
67.3.2、snp特征值的采用以下方法获得:
68.3.2.1、生成携带snp的基因组文件:
69.以grch38为例,根据dbsnp数据库中common_all_20180418.vcf.gz文件,对基因组文件进行改写,增加多态性位点的信息。针对不同类型的多态性位点,在基因组相应的位置按以下规则进行相应修改:
70.i.snp:采用简并碱基规则进行相应修改;
71.ii.del:相应碱基改为d;
72.iii.insert:
73.插入1bp改为i;
74.插入2bp改为j;
75.插入3bp及以上改为l。
76.具体修改示例参见图2。
77.3.2.2、生成携带snp的候选oligos:
78.当输入文件不为模板序列时,程序根据基因组文件自动生成模板序列及候选
oligos的同时,根据携带snp(多态性)的基因组文件自动生成携带snp的模板序列,并最后生成携带snp的候选oligos。
79.当输入文件为模板序列时,若提供携带snp的模板序列,则生成候选oligos的同时,也生成携带snp的候选oligos,否则无法生成携带snp的候选oligos,不进行snp检测。
80.3.2.3、snp检测获取snp特征值:
81.根据携带snp的候选oligos序列,识别序列中非atcg的碱基,并按步骤3.2.1的规则进行snp的解析,获得各snp在引物序列上的位置,作为该引物的snp特征值。
82.3.3、特异性特征值采用以下方法获得:
83.将oligo与参考基因组进行bwa比对,针对每个比对位置,提取比对区域序列,计算该区域与引物的溶解温度tm,若tm大于预设阈值(本实施例中预设阈值为45),则认为该oligo会结合该区域(结合效率与溶解温度tm值有关,溶解温度tm越高则结合效率越高);统计每个候选oligo能结合的区域数,并记录各结合区域的溶解温度tm,作为该oligo的特异性特征值。
84.本发明的引物设计方法为了提高运行速度,增加分析精确性,以及提供更直观的解读,对该过程进行了详尽的升级优化。具体表现在以下几个方面:
85.3.3.1、为了避免3末端位置相同但长度不同的多条oligos序列重复进行bwa比对,从3末端位置相同的一组oligos中选取长度为20bp的oligo作为代表进行bwa比对(一般20-25bp,本实施例中为20bp;经测试长度20bp的序列bwa的比对结果最详尽)。然后,针对每个比对位置,提取附近比对区域的序列,采用primer3-ntthal依次计算各长度不同oligos结合该区域的溶解温度。
86.3.3.2、bwa比对设置合适的参数(-c 1000000000-y 1000000000),使其比对结果更详尽,提高特异性评估的精确度;而参数调节后,部分oligo由于序列位于基因组重复区域,比对上的位置过多,导致运行时间大幅增加,影响运行的速度,从而对oligo的比对时间进行限制(限制为120s),超时即停止,并过滤该oligo。
87.3.3.3、根据primer3-ntthal的结果将各oligo与基因组区域的比对情况可视化,|代表匹配,*代表错配,-代表缺失,^代表插入,#代表末端未匹配;比对情况一目了然,可读性强;图3为比对可视化示意图。
88.(4)根据各项特征值对候选引物逐项打分最后加权求和,获得候选引物的得分。
89.打分采用生长曲线分段打分方法,具体参见图4。
90.图4中,x轴为特征值,y轴为分值;x轴上有6个参数,其中minl和maxl分别是极限最小值和极限最大值,当特征值达到或超过该值时,分值达到最低值;min和max分别是最小值和最大值,当特征值为该值时,分值为0;minb和maxb分别是最佳范围的最小值和最大值,当特征值位于最佳范围内,分值为满分分值。曲线分为3段,第1段minl至minb段,为生长曲线,第二段minb至maxb为直线,第3段为对称后的生长曲线。
91.各引物特征设定不同的参数(minb,maxb,min,max,minl,maxl)和满分分值,从而实现对各特征值精准打分。
92.4.1、各引物特征的参数为:
93.4.1.1、溶解温度:设为60、61、58、66、56、71,满分分值为10分。
94.4.1.2、gc含量:设为0.52、0.6、0.42、0.7、0.32、0.8,满分分值为10。
95.4.1.3、发卡结构温度:设为-50、47、-50、52、-50、57,满分分值为10。
96.4.1.4、snp特征值:引物采用各snp距3末端的距离作为特征值,参数设为10、25、4、25、0、25,满分分值为1;针对每个snp,计算得分,最终所有snp得分相乘,再乘以10,得到该引物snp特征值的得分。满分分值为10。
97.4.1.5、poly结构:采用poly(单碱基串联重复)的长度和位置作为poly结构的特征值。长度参数设为0、2.5、0、4、0、10,满分分值为1,位置参数设为8、25、0、25、0、25,满分分值为1;针对每个poly,再经过一些计算操作:(1-长度得分乘以位置得分)乘以10,得到该引物poly结构特征值的得分。满分分值为10分。
98.4.1.6、单oligo特异性:采用结合区域数和次结合温度作为特异性的特征值。结合区域数参数设为1、5、1、500、1、1000,满分分值为5分,次结合温度参数引物设为0、45、0、60、0、60,满分分值为5分。结合区域数得分与次结合温度得分相加得到单oligo特异性的得分。满分分值为10分。
99.4.1.7、末端a个数设为:1、1、-1、3、-1、8,满分分值为10。
100.4.1.8、末端自由能设为:-9、-7、-12、-6.2、-14、-5,满分分值为10。
101.4.2、对各项特征值的得分进行加权求和得到该引物的总分。各项特征值根据重要程度不一样,选择不同的权重,权重总和为10;具体地:
102.4.2.1、gc含量,权重为2。
103.4.2.2、溶解温度,权重为1.5。
104.4.2.3、发卡结构,权重为1.5。
105.4.2.4、3末端a的个数,权重为0.5。
106.4.2.5、3末端自由能,权重为1。
107.4.2.6、poly结构,权重为1.5。
108.4.2.7、bound情况(单oligo特异性),权重为0.5。注:该特异性仅为单oligo的特异性,并不是最终引物组合的特异性,重要性较低,所以权重较小。各项特征逐项打分,最后加权求和,获得该oligo的引物得分。
109.4.2.8、是否覆盖snp,权重为1.5。
110.(5)针对每个目标位点或模板区域,挑选位置和方向都满足条件的候选引物组合。针对每一对候选引物组合,计算组合间各特征值并计算相应得分。
111.5.1、引物组合候选引物组合的组合间特征值如下:
112.5.1.1、pos:引物距目标点/探针的距离。
113.5.1.2、dis:两引物之间的距离。
114.5.1.3、lend:两引物长度的差异。
115.5.1.4、tmd:两引物tm的差异。
116.5.1.5、prod(特异性):引物组合的产物情况,产物是否唯一,评估候选引物组合的特异性。
117.5.2、引物组合(引物1和引物2)产物(prod)的计算方法如下:
118.遍历引物1的所有结合区域,根据结合的溶解温度及具体的结合情况(错配数,错配距3末端的距离等)预测结合的效率e1,判断引物2在该区域附近是否也有结合,且结合方向匹配,若有则认为该引物组合在该区域可能会产生产物,且通过预测引物2结合的效率
e2,预测该产物的效率e=e1*e2*ed,ed是两引物间的距离对效率的影响;若e》0.00001则认为该区域产生产物。遍历引物1的所有结合区域,统计引物组合的产物数,并记录各产物的效率e,若产物数为1,说明该引物组合的特异性好。
119.5.3、根据引物组合间的各特征值采用生长曲线分段打分方法(参见图4)进行逐项打分,并加权求和得到组合得分scorepair。
120.5.4、引物组合综合得分为score=score1+score2+scorepair。
121.(6)判断区域设计模式,若每个目标区域要求设计一对最佳引物,则选择综合评分最高的一对候选引物组合输出;若要求设计整个区域均匀全覆盖的引物,则在等距离的前提下选择该区域附近综合评分最高的候选引物组合输出。具体方案见专利申请201811591649.x。
122.实施例2
123.一种设计引物加探针的方法,具体流程参见图1,包括以下步骤:
124.(1)根据输入文件自动生成模板序列,输入文件支持3种类型:
125.1.1、模板序列:不需要处理,直接进行后续分析——生成候选oligos。
126.1.2、目标位点和基因组文件:根据基因组文件提取目标位点上下游一定长度的序列,作为oligo设计的模板序列。
127.1.3、目标区域和基因组文件:根据基因组文件提取目标区域序列,作为oligo设计的模板序列。
128.(2)基于模板序列按不同位置不同长度遍历所有候选oligos序列。
129.(3)评估oligos的各项特征,包括:基本特征值、snp特征值和特异性特征值。
130.3.1、各oligo的各项基本特征包括:溶解温度、gc含量、发卡结构、dimer、poly结构、5末端是否为g、cg含量差异。
131.3.2、snp特征值的采用以下方法获得:
132.3.2.1、生成携带snp的基因组文件:
133.以grch38为例,根据dbsnp数据库中common_all_20180418.vcf.gz文件,对基因组文件进行改写,增加多态性位点的信息。针对不同类型的多态性位点,在基因组相应的位置按以下规则进行相应修改:
134.i.snp:采用简并碱基规则进行相应修改;
135.ii.del:相应碱基改为d;
136.iii.insert:
137.插入1bp改为i;
138.插入2bp改为j;
139.插入3bp及以上改为l。
140.具体示例参见图2。
141.3.2.2、生成携带snp的候选oligos:
142.当输入文件不为模板序列时,程序根据基因组文件自动生成模板序列及候选oligos的同时,根据携带snp(多态性)的基因组文件自动生成携带snp的模板序列,并最后生成携带snp的候选oligos。
143.当输入文件为模板序列时,若提供携带snp的模板序列,则生成候选oligos的同
时,也生成携带snp的候选oligos,否则无法生成携带snp的候选oligos,不进行snp检测。
144.3.2.3、snp检测获取snp特征值:
145.根据携带snp的候选oligos序列,识别序列中非atcg的碱基,并按步骤3.2.1的规则进行snp的解析,获得各snp在oligo序列上的位置,作为该oligo的snp特征值。
146.3.3、特异性特征值采用以下步骤进行计算:
147.将oligo与参考基因组进行bwa比对,针对每个比对位置,提取比对区域序列,计算该区域与引物的溶解温度tm,若溶解温度tm大于预设阈值(本实施例中预设阈值为45),则认为该oligo会结合该区域(结合效率与溶解温度tm值有关,溶解温度tm越高则结合效率越高),最终得到各个候选探针能结合的区域数和相应各个区域的溶解温度tm。统计每个候选oligo能结合的区域数,并记录各结合区域的溶解温度tm,作为该oligo的特异性特征值。
148.本发明的引物设计方法为了提高运行速度,增加分析精确性,以及提供更直观的解读,对该过程进行了详尽的升级优化。具体表现在以下几个方面:
149.3.3.1、为了避免3末端位置相同但长度不同的多条oligos序列重复进行bwa比对,从3末端位置相同的一组oligos中选取长度为20bp的oligo作为代表进行bwa比对(经测试长度20bp的序列bwa的比对结果最详尽)。然后,针对每个比对位置,提取附近比对区域的序列,采用primer3-ntthal依次计算各长度不同oligos结合该区域的溶解温度。
150.3.3.2、bwa比对设置合适的参数使其比对结果更详尽,提高特异性评估的精确度;而参数调节后,部分oligo由于序列位于基因组重复区域,比对上的位置过多,导致运行时间大幅增加,影响运行的速度,从而对oligo的比对时间进行限制,超时即停止,并过滤该oligo。
151.3.3.3、根据primer3-ntthal的结果将各oligo与基因组区域的比对情况可视化,|代表匹配,*代表错配,-代表缺失,^代表插入,#代表末端未匹配;比对情况一目了然,可读性强;图3为比对可视化示意图。
152.(4)对各oligo根据探针的要求进行打分。
153.打分采用生长曲线分段打分方法,具体参见图4。
154.图4中,x轴为特征值,y轴为分值;x轴上有6个参数,其中minl和maxl分别是极限最小值和极限最大值,当特征值达到或超过该值时,分值达到最低值;min和max分别是最小值和最大值,当特征值为该值时,分值为0;minb和maxb分别是最佳范围的最小值和最大值,当特征值位于最佳范围内,分值为10。曲线分为3段,第1段minl至minb段,为生长曲线,第二段minb至maxb为直线,第3段为对称后的生长曲线。
155.各项特征值设定不同的参数(minb,maxb,min,max,minl,maxl)和满分分值,从而实现对各特征值精准打分。
156.4.1探针各项特征值的参数为:
157.4.1.1、溶解温度:设为60、61、58、66、56、71,满分分值为10分。
158.4.1.2、gc含量:设为0.52、0.6、0.42、0.7、0.32、0.8,满分分值为10。
159.4.1.3、发卡结构溶解温度:设为-50、47、-50、52、-50、57,满分分值为10。
160.4.1.4、snp特征值:探针采用各snp距3末端和5末端的距离最小值,参数设为:12、15、4、15、0、15,满分分值为1;针对每个snp,计算得分,最终所有snp得分相乘,再乘以10,得到该引物snp特征值的得分。满分分值为10分。
161.4.1.5、poly结构:采用poly(单碱基串联重复)的长度和位置作为poly结构的特征值。长度参数设为0、2.5、0、4、0、10,满分分值为1,位置参数设为8、25、0、25、0、25,满分分值为1;针对每个poly,计算得分,再经过一些计算操作:(1-长度得分乘以位置得分)乘以10,得到该引物poly结构特征值的得分。满分分值为10分。
162.4.1.6、单oligo特异性:采用结合区域数和次结合温度作为特异性的特征值。结合区域数参数设为1、5、1、500、1、1000,满分分值为5分,次结合温度参数探针设为0、45、0、70、0、70,满分分值为5分。结合区域数得分与次结合温度得分相加得到单oligo特异性的得分。满分分值为10分。
163.4.1.7、cg含量差异:设为0、1、1、0、1、0、1,满分分值为10。
164.4.1.8、5末端是否为g:设为0、0、0、0.5、0、0.5,满分分值为10。
165.4.2、对各项特征值的得分进行加权求和得到该探针的总分。各项特征值根据重要程度不一样,选择不同的权重,权重总和为10;具体地,
166.4.2.1、gc含量,权重为1.5。
167.4.2.2、溶解温度,权重为2。
168.4.2.3、发卡结构,权重为1。
169.4.2.4、poly结构,权重为0.5。
170.4.2.5、bound情况(特异性),权重为1.5。
171.4.2.6、探针要求5末端是否为g,权重为1。
172.4.2.7、序列中cg含量的差异,权重为1:探针要求c的含量要大于g。
173.4.2.8、是否覆盖snp,权重为1.5。
174.(5)挑选得分最高的探针,根据探针的位置和方向,在上游1-20bp附近挑选同向引物f引物,并相应根据插入片段的大小在下游挑选反向引物r引物,组成候选引物组合。
175.(6)针对候选引物组合中的每个引物,根据各项特征值进行逐项打分最后加权求和,获得候选引物组合的引物得分。
176.打分采用生长曲线分段打分方法,具体参见图4。
177.图4中,x轴为特征值,y轴为分值;x轴上有6个参数,其中minl和maxl分别是极限最小值和极限最大值,当特征值达到或超过该值时,分值达到最低值;min和max分别是最小值和最大值,当特征值为该值时,分值为0;minb和maxb分别是最佳范围的最小值和最大值,当特征值位于最佳范围内,分值为满分分值。曲线分为3段,第1段minl至minb段,为生长曲线,第二段minb至maxb为直线,第3段为对称后的生长曲线。
178.各引物特征设定不同的参数(minb,maxb,min,max,minl,maxl)和满分分值,从而实现对各特征值精准打分。
179.6.1、各引物特征的参数为:
180.6.1.1、溶解温度:设为60、61、58、66、56、71,满分分值为10分。
181.6.1.2、gc含量:设为0.52、0.6、0.42、0.7、0.32、0.8,满分分值为10。
182.6.1.3、发卡结构温度:设为-50、47、-50、52、-50、57,满分分值为10。
183.6.1.4、snp特征值:引物采用各snp距3末端的距离作为特征值,参数设为10、25、4、25、0、25,满分分值为1;针对每个snp,计算得分,最终所有snp得分相乘,再乘以10,得到该引物snp特征值的得分。满分分值为10。
184.6.1.5、poly结构:采用poly(单碱基串联重复)的长度和位置作为poly结构的特征值。长度参数设为0、2.5、0、4、0、10,满分分值为1,位置参数设为8、25、0、25、0、25,满分分值为1;针对每个poly,再经过一些计算操作:(1-长度得分乘以位置得分)乘以10,得到该引物poly结构特征值的得分。满分分值为10分。
185.6.1.6、单oligo特异性:采用结合区域数和次结合温度作为特异性的特征值。结合区域数参数设为1、5、1、500、1、1000,满分分值为5分,次结合温度参数引物设为0、45、0、60、0、60,满分分值为5分。结合区域数得分与次结合温度得分相加得到单oligo特异性的得分。满分分值为10分。
186.6.1.7、末端a个数设为:1、1、-1、3、-1、8,满分分值为10。
187.6.1.8、末端自由能设为:-9、-7、-12、-6.2、-14、-5,满分分值为10。
188.6.2、对各项特征值的得分进行加权求和得到该引物的总分。各项特征值根据重要程度不一样,选择不同的权重,权重总和为10;具体地:
189.6.2.1、gc含量,权重为2。
190.6.2.2、溶解温度,权重为1.5。
191.6.2.3、发卡结构,权重为1.5。
192.6.2.4、3末端a的个数,权重为0.5。
193.6.2.5、3末端自由能,权重为1。
194.6.2.6、poly结构,权重为1.5。
195.6.2.7、bound情况(单oligo特异性),权重为0.5。注:该特异性仅为单oligo的特异性,并不是最终引物组合的特异性,重要性较低,所以权重较小。各项特征逐项打分,最后加权求和,获得该oligo的引物得分。
196.6.2.8、是否覆盖snp,权重为1.5。
197.(7)针对每一对候选引物组合,计算各项组合间特征值,并分别对这些特征值进行打分,并将组合间得翻与对应两个候选引物的引物得分进行综合,从而得到候选引物组合的综合得分。
198.7.1、各项引物组合间特征值如下:
199.7.1.1、pos:f引物距探针的距离。
200.7.1.2、dis:两引物之间的距离。
201.7.1.3、lend:两引物长度的差异。
202.7.1.4、tmd:两引物tm的差异。
203.7.1.5、prod:引物组合的产物情况,产物是否唯一,评估候选引物组合的特异性。
204.7.2、引物组合(引物1和引物2)产物(prod)的计算方法如下:
205.遍历引物1的所有结合区域,根据结合的溶解温度及具体的结合情况(错配数,错配距3末端的距离等)预测结合的效率e1,判断引物2在该区域附近是否也有结合,且结合方向匹配,若有则认为该引物组合在该区域可能会产生产物,且通过预测引物2结合的效率e2,预测该产物的效率e=e1*e2*ed,ed是两引物间的距离对效率的影响;若e》0.0001则认为该区域产生产物。遍历引物1的所有结合区域,统计引物组合的产物数,并记录各产物的效率e;若产物数为1,说明该引物组合的特异性好。
206.7.3、根据引物组合间的各特征值采用生长曲线分段打分方法(参见图4)进行逐项
打分,并加权求和得到组合得分scorepair。
207.7.4、引物组合综合得分为score=score1+score2+scorepair,挑选得分最高的引物组合作为该探针的引物组合。
208.实施例3:
209.一种应用于实施例1或2的引物设计系统:通过计算机设备编程,用于执行实施例1或实施例2的引物设计方法的步骤。具体包括以下几个程序单元:
210.(1)候选引物生成程序单元,用于针对目标模板序列按不同位置不同长度进行遍历得到候选引物序列;
211.(2)基本特征计算程序单元,用于计算每一个候选引物的各项基本特征值,并针对各项基本特征值评分;
212.(3)snp特征值计算单元,用于计算模板序列、候选oligos序列中携带snp的特征值,并针对snp特征值进行评分;
213.(4)单oligo特异性特征值计算程序单元,用于统计每个候选oligo能结合的区域数,并记录各结合区域的溶解温度tm,作为该oligo的特异性特征值,并对该oligo特异性进行评分;
214.(5)评分单元:用于计算候选引物的综合评分。
215.(6)组合间距特征值以及距离特征值计算程序单元,用于针对每一对组合候选引物,分别计算组合间距特征值以及距离特征值;
216.组合候选引物综合特征值计算程序单元,用于针对每一对组合候选引物,分别对组合间距特征值、距离特征值进行评分,并将评分结果与对应两个候选引物的引物综合评分进行综合,从而得到组合候选引物综合特征7值;
217.(7)候选引物输出程序单元,用于判断区域设计模式,若每个目标区域要求设计一对最佳引物,则选择综合评分最高的一对候选引物组合输出;若要求设计整个区域均匀全覆盖的引物,则在等距离的前提下选择该区域附近综合评分最高的候选引物组合输出。
218.以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭示如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明的精神实质和技术方案的情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同替换、等效变化及修饰,均仍属于本发明技术方案保护的范围内。