利用全基因组和est数据开发多态性est-ssr标记的方法
【技术领域】
[0001] 本发明涉及利用全基因组和EST数据开发多态性EST-SSR标记的方法,属于分子 生物学领域。
【背景技术】
[0002] SSR标记的原理是与微卫星序列相邻的两侧区域保守性通常较高,可以在此保守 区域设计一对特异的PCR引物,扩增其中的微卫星序列,通过聚丙烯酰胺凝胶电泳,即可显 示出个体间在此位点的微卫星序列的多态性。由于SSR在基因组中大量地、随机地分布,具 有广泛的位点变异,揭示比RAPD、RFLP更多的多态性,并且SSR标记为共显性标记,能够区 分纯合型和杂合型,提供完整的遗传信息,在检测多态性时可以采用PCR方法,不需要过多 的分子克隆手段,对DNA模板的要求不高,重复性好。因此成为日前运用最广泛的分子标记 之一,广泛地运用于动植物、微生物鉴定、遗传多样性分析、分子标记连锁图的构建和群体 遗传学等遗传与育种研宄领域。
[0003] 传统的SSR标记是通过构建小片段或大片段的基因组,筛选阳性克隆。通过传统 的影印或挑单菌落点膜的方法,把克隆转移到尼龙膜上,经过固定后,用标记过的序列重复 寡核苷酸或含微卫星序列的探针与尼龙膜上的克隆点杂交,筛选出其中的阳性克隆,然后 测序、设计引物、优化PCR反应条件,获得的阳性克隆经过确认后,全部或经过随机挑选后 测序,然后根据微卫星序列两侧保守区域的序列设计引物,获得稳定、可靠的SSR标记,耗 时耗力,而且成本非常高。
[0004] 随着测序技术的不断发展,基因组序列数据资源不断增加,人们开始利用生物信 息学方法基于基因组序列数据筛选SSR位点,采用遗传差异足够大的多个基因组序列或生 物样本对候选SSR标记进行多态性筛选和鉴定。基因组序列或生物样本间遗传差异小会导 致具有潜在利用价值的多态性SSR标记被误淘汰;仅采用基因组序列数据开发的多态性分 子标记通常位于基因间序列,通常只适合于遗传多样性及其相关研宄,在与基因(遗传功 能)有关的研宄(如功能基因克隆)中应用价值有限。
[0005] 现在开发SSR标记的序列的另一种来源是EST,由于基因功能组学的快速发展, EST被大量测序,并存放在公共序列数据库中,利用EST序列,筛选开发SSR标记的方法简 单易行,已发展成为开发SSR标记的主要方法。但是建库时,数据库中的EST是由不同的研 宄者用随机或鸟枪法获得的,这就会造成EST的冗余性。在进行EST-SSR标记开发时,SSR 位点搜索前要先对EST数据进行比对、拼接,去除冗余序列否则极有可能对同一个SSR位点 设计不同的引物,并且费时费力存在错误拼接的可能,而且去除的冗余序列中可能含有SSR 长度的多态性。综合现在所有的SSR标记方法,新开发的标记通常都需要采用两个以上不 同基因组序列对候选SSR标记进行多态性筛选和鉴定,否则就需要运用基因型差异足够大 的多个样本DNA进行实验室筛选和验证,其间供试基因组序列、样本间无差异的SSR标记必 然会被淘汰。而对于基因组序列数据来源较少、差异小和供试基因型样本的差异不大、代表 性不足、具有潜在利用价值的多态性SSR标记极有可能被误淘汰。因此,现有技术还有待于 改进和发展。
【发明内容】
[0006] 有鉴于此,本发明目的在于:提供利用全基因组和EST数据开发多态性EST-SSR标 记的方法,该方法可以大大提高全基因组数据来源较少、实验室验证时供试样本间差异较 小,但EST数据较丰富的物种EST-SSR标记的开发效率,并防止因供试验证基因组序列或实 验材料遗传差异不足而淘汰具有潜在利用价值的SSR标记。所开发的多态性EST-SSR标记 与单一基因紧密关联,具有更高的遗传与育种应有价值。
[0007] 为实现上述目的,本发明采用如下之技术方案:
[0008] 利用全基因组和EST数据开发多态性EST-SSR标记的方法,包括下述步骤:
[0009] 一种利用全基因组和EST数据开发多态性EST-SSR标记的方法,其特征在于,包括 下述步骤:
[0010] ①获取基因组序列与EST数据,从公共数据库下载基因组序列数据、相应的基因 注释信息和EST数据,用基因组注释信息进行基因组外显子、内含子序列分析,选取基因 TSS转录起始位点前2000bp作为启动子序列;
[0011] ②将步骤①获得的全基因组数据进行SSR位点搜索与分析,采用MISA程序扫描全 基因组染色体DNA序列,搜索、分析基因组序列中包含的SSR位点。采用MISA程序的默认 SSR扫描参数:单核苷酸重复、二核苷酸重复、三核苷酸重复、四核苷酸重复、五核苷酸重复 以及六核苷酸重复,重复单元分别大于1〇、7、6、5、4、4次重复;距离100bp的视为一个SSR 位点;每种重复基元的各种变异类型及其反向互补类型均归为一类;
[0012] ③单一 SSR位点筛选,采用Perl编写程序,从每个SSR结构域前若干碱基对(如 5bp)开始,提取18~24bp的序列作为电子模拟PCR扩增的上引物;间隔10~24bp后,提 取18~24bp序列,反向重复后作为下引物;采用Bowtie软件将引物序列比对到步骤①所 下载的参考基因组上,根据需要允许若干(如1~3)个碱基的错配;采用Perl语言编写程 序,鉴定、筛选单一 SSR位点;
[0013] ④EST中多态性SSR位点鉴定与分析,采用序列比对软件Bowtie以EST序列为模 板,以具有单一侧翼序列的SSR比对引物进行比对,采用Perl语言编程统计匹配区域长度 信息;
[0014] ⑤多态性EST-SSR位点筛选,筛选EST模板中有2个以上模拟扩增产物,且产物具 有多态性(长度差异)的EST-SSR位点;
[0015] ⑥多态性EST-SSR标记引物设计,采用引物设计软件设计多态性EST-SSR标记引 物。
[0016] 上述方法中所述基因组和EST数据可以是植物基因组和EST数据;也可以是动物 基因组和EST数据;也可以是微生物基因组和EST数据。在获得一定数量的EST数据的基 础上,该方法适用于所有物种,更特别地适用于基因组序列数据来源较少、差异小和供试基 因型样本的差异不大、代表性不足的物种,具体如马铃薯。
[0017] 本发明所提供的利用全基因组和EST数据开发多态性EST-SSR标记的方法,由于 采用了首先在全基因组序列中进行SSR位点搜索、筛选,筛选到基因