专利名称::检测与评价农作物ssr分子标记冗余性的方法
技术领域:
:本发明涉及生物信息学领域,具体地,涉及检测与评价农作物SSR分子标记冗余性的方法。
背景技术:
:SSR分子标记已经在水稻、小麦、玉米、大豆、棉花等物种上被大量开发并得到广泛应用。各种作物基因组测序工作进展迅速,如大豆、玉米、高粱、棉花的雷蒙得氏棉已经测序完成,亚洲棉、陆地棉即将完成。如何处理、分析、利用这些海量数据,高效发掘其中有益信息也是至关重要的,而开发SSR等分子标记引物是一个重要趋势。但是由于不同研究者开发标准不同,同一研究者开发时间不同造成在同一物种中开发的SSR分子标记存在有冗ο如何从网上共享信息发掘出有效地、非冗余性、前人遗漏的序列,去开发和现有标记非冗余性的新标记是一个关键问题。不同研究者由于不同的研究目的,不同开发标准,从公共数据库中的序列和自有序列中开发的SSR标记可能存在冗余性,这样大大增加了研究的工作量。为了减少研究的重复性,降低经济成本,需要有相关工具去发掘冗余引物。现有的方法只能分析一对引物的正向或反向引物,不能同时分析一对引物是否冗余,也不能分析序列的反向互补序列,所以没有合适的方法分析一对引物的冗余性。本发明针对以上问题开发了SSR分子标记冗余性大规模分析的方法,方便研究者充分利用网络资源,同时提高研究者的工作效率,为进一步生物学研究奠定基础。利用本发明的方法可以把网上公布的和自己开发的SSR分子标记一起分析,从中得到冗余和非冗余分子标记,减少合成成本和工作量,提高工作效率,提高SSR分子标记的特异性,为进一步基因定位、QTL发掘、遗传图谱的构建和分子标记辅助选择育种奠定坚实的基础。
发明内容本发明的发明人为了解决上述问题提出并完成了本发明。根据本发明的检测与评价农作物SSR分子标记冗余性的方法包括以下步骤1)SSR分子标记的获得及预处理。例如,根据本发明的具体实施方式,分别从网上下载棉花、大豆、水稻和玉米的SSR分子标记,数量分别为11938对、1015对、18800对和2047对。把下载到的引物转换成“IDforword_primerreverse_prmer”格式,然后通过读取文件的每行$1为引物编号,$2为正向引物,同时计算其长度$lf,$3为正向引物同时计算其长度$lr,然后输出,从而转化成FASTA格式(图1)2)SSR分子标记相似性检索及相关信息提取,把处理好的FASTA文件备份一个文件,后缀名为“.bk”,利用BLAST(2.2.24-win版)软件(ftp://ftp.ncbi.nih.gov/blast/executables/blast+/2.2.24/)对各个物种的SSR分子标记分别比对,查询相似性序列。所用的主要参数为-pblastn-a2-FF-m8。从得到的结果中按照相似匹配分值不低于81%同时没有gap过滤一对引物,然后提取相似引物编,匹配分值计算公式如下S=yxl00+(ix(-3))S匹配分值;a查询序列和目标序列匹配上的序列长度(bp);1目标序列长度(bp);m错配个数。相似引物有两种情况一种是正式匹配,即一对引物和另外一对引物正向序列匹配、反向序列匹配(图2A),另一种反式匹配就是一对引物的正向和另外一对引物的反向序列匹配(图2B)。通过上述方法把这两种情况提取出来得到冗余引物,但是由于在该结果中存在有编号相同但顺序相反的情况,比如BNL1047BNL1061BNL1061BNL1047为了解决这种问题,我们执行下一步,得到没有重复行的结果文件“renum.2”为了我们利用该脚本定义哈希表同时进行排序,取出这种交叉重复,最后实现相似引物写入一行的功能。把所有相似引物写入一行,输出最终结果文件out.list(图1)。根据本发明的方法同时可以分析一对引物的正向和反向序列冗余性,另外在电泳水平及测序序列水平进行同时验证。现有方法只能分析一对引物的正向或反向引物,不能同时分析一对引物是否冗余,而seqmatchall不能分析序列的反向互补序列,所以没有合适的软件分析一对引物的冗余性。本发明针对以上问题开发了SSR分子标记冗余性大规模分析的脚本程序,方便研究者充分利用网络资源,同时提高研究者的工作效率,为进一步生物学研究奠定基础。根据本发明的具体实施方式,以棉花基因组为例,冗余性软件预测和基因型水平检测有88.8%的吻合度,序列水平和软件预测有75%(53.8%)的吻合度。分别从软件预测、基因型、序列三个水平都说明这一冗余软件和这一冗余性预测方法是有效地,在标记评价、利用及基因组研究具有重要意义。图1为本发明的方法的流程图。图2显示了两种冗余引物,A正式匹配,B反式匹配。图3显示了冗余引物对TM-I及海71M的部分扩增结果。具体实施例方式实施例1基于棉花检测与评价SSR分子标记冗余性的方法1.材料与方法为了进一步研究引物的冗余性,我们以棉花为例选取了90对引物(引物相似性在81%-100%之间)对棉花基因组(陆地棉标准系TM-I和海岛棉品系海7124)进行扩增。90对SSR引物均选自CMD网站(http://www.cottonmarker.org/),用本发明的方法预测过都存在引物间冗余性(引物相似性阈值设为81%)。大部分是2对引物间存在冗余,也有3对间的冗余性,还有6对间冗余性。具体做法是2对(3或6对)冗余引物同时以TM-I作模板扩增,看电泳带型是否一致,电泳条带一致的再送去测序。同时以海71M为模板重复一次,作对照。PCR反应用50μ1体系(10μ1体系各组分扩大十倍),PCR反应5μ1用来检测,45μ1送去测序。测序时提供了单向引物(每个10μ1),由上海生物工程公司完成。序列峰图观看用Chromas软件。试验设计为1号引物2号引物1号引物2号引物TM-ITM-I海7124海7124棉花基因组DNA提取选用CTAB法,PCR扩增反应体系为95°C预变性^iiin;94°C变性40s、57°C退火45s、72°C延伸60s,共30个循环;72°C延伸7min;4°C保存至结束。PAGE电泳方法8%的聚丙烯酰胺凝胶电泳检测,采用BIO-RAD公司PowerPacHCTM电泳仪,北京六一仪器厂DYCZ-30电泳槽装置。电泳缓冲液为1XTBE,在扩增产物中加入1.5μL溴酚蓝上样缓冲液混均勻,取1.8μL加入点样孔,190V恒压电泳45min。电泳结束后,银染,后用清水冲洗,在凝胶成像系统上照相并记录基因型数据。2.结果软件预测结果90对引物均是冗余的即100%,然后分别以模板TM-1、海71扩增共180个PCR反应(图3),电泳检测结果有3种条带一样、不一样、没结果(没产物)。电泳结果90对引物,重复两次,5对没有成功扩增,9.5对不一致,(85-9.5)/85=88.8%条带一致,即表明软件预测和基因型水平检测有88.8%的吻合度。测序结果180个PCR反应共M个由于浓度低不能成功测序(图3),有16个目的条带有2条或多条,即重叠现象,无法完成测序。在两重复间有一致,也有不一致的,说明TM-I和海71的在该位点基因组差异。在序列水平表明带型一致的2条或3条或6条相似性在11.47-94.9%变化,参照NCBI网站序列identity阈值分50%、70%来分析。identity阈值为50%,39/52=75%相似性;identity阈值定为70%,28/52=53.8%相似性,分别表明序列水平和软件预测有75%、53.8%的吻合度。分别从软件预测、基因型、序列三个水平都说明这一冗余软件和这一冗余性预测方法是有效地,在标记评价、利用及基因组研究具有重要意义。权利要求1.检测与评价农作物SSR分子标记冗余性的方法,其特征在于,所述方法包括以下步骤1)SSR分子标记的获得及预处理获得农作物的SSR分子标记,将获得的SSR分子标记引物转换成“IDforword_primerreverse_prmer”格式,然后通过读取文件的每行$1为引物编号,$2为正向引物,同时计算其长度$lf,$3为正向引物同时计算其长度$lr,然后输出,从而转化成FASTA格式;2)SSR分子标记相似性检索及相关信息提取,把处理好的FASTA文件备份一个文件,后缀名为“.bk",利用BLAST软件对各个物种的SSR分子标记分别比对,查询相似性序列,所用的主要参数为-Pblastn-a2-FF-m8,从得到的结果中按照相似匹配分值不低于81%同时没有gap过滤一对引物,然后提取相似引物编,匹配分值计算公式如下S=yxl00+(ix(-3))S匹配分值;a查询序列和目标序列匹配上的序列长度(bp);1目标序列长度(bp);m错配个数,3)取出正式匹配和反式匹配的交叉重复,最后实现相似引物写入一行,输出最终结果文件。全文摘要本发明涉及生物信息学领域,具体地,涉及检测与评价农作物SSR分子标记冗余性的方法。根据本发明的方法同时可以分析一对引物的正向和反向序列冗余性,另外在电泳水平及测序序列水平进行同时验证。现有方法只能分析一对引物的正向或反向引物,不能同时分析一对引物是否冗余,而seqmatchall不能分析序列的反向互补序列,所以没有合适的软件分析一对引物的冗余性。本发明针对以上问题开发了SSR分子标记冗余性大规模分析的脚本程序,方便研究者充分利用网络资源,同时提高研究者的工作效率,为进一步生物学研究奠定基础。文档编号G06F19/22GK102542180SQ201210020128公开日2012年7月4日申请日期2012年1月24日优先权日2012年1月24日发明者刘方,张香娣,王为,王坤波,王春英,王玉红,王长彪申请人:中国农业科学院棉花研究所