专利名称:基于基因组外显子芯片的数量性状基因位点定位新方法
技术领域:
本发明属生物技术与基因工程领域,涉及一种基于基因组或部分染色体的基因外显子芯片数据进行数量/复杂性状基因位点(QTL)定位和克隆的新方法,适用于所有生物数量性状或复杂性状(疾病)基因定位。
但是,由于分子标记数量的局限,通过上述方法定位的QTL往往只能给出一个相对很大的基因组区段,无法克隆到那些已定位的QTL。通过再进一步的精细定位也存在不少技术难题,所以目前尚没有真正通过QTL定位克隆到功能基因,这也是大多数分子生物学家对QTL定位产生疑问的一个主要原因。
随着人类全基因组测序的完成,DNA上丰富的SNPs(single-nucleotidepolymorphism)被发现,这种新型分子标记由于它只有两种表型,所以无法应用于QTL定位,而只能通过其他途径来应用SNP查找人类的一些致病基因(Zhao等,1998,Am.J.Hum.Genet.,63225-240;Eden等,2000,Am.J.Hum.Genet.,67383-394)。对于另一种目前大量出现的数据——基因芯片数据,研究人员一直想利用这些数据进行功能基因研究,大量方法集中在如何处理差异显示、数据分解等方面,如利用Bayes分析方法进行基因表达差异和显著表达差异的判别等,但在QTL定位方面一直来没有提出一个利用方法。
基因芯片技术是大规模和高通量研究基因表达的重要工具,它产生了大量并行的基因表达数据,对这些数据进行合理的储存和统计分析已有大量研究报道(Lockhart和Winzeler,2000,Nature 405827-36;Long等,2001),同时大量研究进行优化基因芯片实验设计(Mills和Gordon,2001,Nucleic Acids Res29e72)。但是由于这些数据自身的特点,其序列信息(探针序列)的应用价值无法得到充分利用。2001年2月Nature人类基因组专刊上发表了利用基因外显子(exon)芯片技术进行人类基因组基因的“实验鉴定”(experimentalannotation)的文章,该文章为我们展现了基因芯片技术利用基因组序列数据的巨大威力(Shoemaker等,2001,Nature,409922-927)。
实现本发明方法采用以下步骤第一步构建植物遗传群体(如DH群体、F2群体、近等基因系、重组自交系等)或动物家系;第二步构建分子标记图谱,通过公共分子数据库(GenBank等)收集并确定相关物种的所有已知和注释获得的基因序列数据以及在染色体上的位置数据,建立群体的分子标记图谱;第三步制作全基因组或特定染色体外显子序列芯片;第四步在一定时期内对研究群体的个体进行DNA取样和芯片杂交实验,获得芯片信号数据;第五步对芯片数据进行表达差异和差异显著性分析,确定表达差异显著的外显子;第六步建立各个个体的分子标记基因型;第七步测定各个个体的形态或生理等表型数据;第八步用QTL定位方法进行定位,可采用单标记分析法、区间作图法、复区间作图法、多区间作图法和基于混合线性模型的复区间作图法等QTL定位方法;第九步分析和定位功能基因。
由于人类、水稻等全基因组测序已基本完成,全基因组的所有基因序列均已基本预测出来(包括一部分实验证实),它们的外显子序列已明确;同时,目前基于全基因组外显子序列的基因芯片正在研制中,其中整条染色体外显子序列的基因芯片已研制成功,且已在人类基因组基因功能注释中应用。其实,基因外显子序列与其他分子标记序列一样,完全可以作为一种新型分子标记,全基因组外显子序列的基因芯片数据则实际为我们提供了全基因组基因分子标记全图,其标记密度(人为32000个/基因组,水稻50000-60000个/基因组等)正好覆盖了所有基因。由于所用分子标记数量和分布完全反映的是基因组的实际基因状况(可能的误差可能来自基因组的注释结果,但这一误差比率对本方法影响不大),所以定位QTL的分子标记(外显子)实际就是影响研究的某一性状功能基因或基因之一,这样就可以直接确定功能基因(QTL)的序列。
全基因组外显子序列芯片(exon array)是指根据全基因组或某些染色体(或区段)的所有基因(包括实验证实和预测出来的)的外显子序列(或其中的一个外显子序列)点制成的基因芯片。
本发明适用于生物所有数量性状或复杂性状(疾病)基因定位;研究群体包括植物DH群体、F2群体、近等基因系(NIL)、近等基因导入系(NIIL)、重组自交系(RIL)等,动物家系等。
本发明可以对生物数量/复杂性状(疾病)基因进行精细定位,并直接获得定位的功能基因序列。同时,本发明可定位和克隆重要基因,具有广泛的应用价值。
实施例2水稻控制株高的基因定位与克隆第一步构建遗传群体一个水稻DH群体,群体中共有96个个体。建立该群体的目的是进行水稻株高性状QTL的定位第二步构建分子标记图谱通过公共分子数据库(GenBank等)收集并确定水稻的所有已知和注释获得的基因序列数据(目前已知50000-60000个)以及基因的外显子在染色体上的位置数据,建立水稻的分子标记图谱。
本例有21个外显子(Marker#),它们在三条染色体(ch1/ch2/ch3)的物理位置(外显子5’端第一个碱基到染色体启始碱基的碱基总数,本例数据均已除100000)见下表。由于多拷贝等原因,一些外显子在多条染色体上均有分布。在同一条染色体上出现的同一个外显子(位置不同)可按不同的分子标记(外显子)进行处理。
*MapBegin*Marker# ch1 ch2 ch310 00219.23612.9949 7.7618316.2488 5.3402 13.251844.855222.2875 6.923954.804727.7327 9.8037615.3881 6.3438 2.7929715.5969 29.4517 17.5239815.0048 10.2825 41.754593.83758.9339 37.303610 3.274712.824 15.839411 34.4392 8.4598 18.7639122.5322 5.16832.51211323.797910.1262 5.0168148.2644 5.289628.94051513.348313.2089 1.91091633.531922.7256172.5622 15.2455189.2129 32.4819 7.148320 9.492421 18.718*MapEnd*以上所有不同位置的外显子依次(从第一条染色体的第一个外显子到第三条染色体的第15个外显子)称为M1、M2、......M54。
第三步制作外显子序列芯片根据收集和确定的外显子序列数据(本例为21条序列)进行点样制作外显子序列芯片。具体制作方法参见Shoemaker DD,Schadt EE,Armour CD,et al,2001,Experimental annotation of the human genome using microarraytechnology,Nature,409922-927。
第四步收集芯片数据在一定时期内(可分不同时期分别测定,以确定基因不同时间表达的状况)对水稻DH群体的个体进行DNA取样和芯片杂交实验,获得芯片信号数据。具体检测实验过程参照Newton MA,Kendziorski CM,Richmond FR,Blattner FR andTsui KW,2001,On differential variability of expression ratiosImprovingstatistical inference about gene expression changes from microarray data.Journal Computational Biology,837-52和Mills JC,Gordon JI,2001,A newapproach for filtering noise from high-density oligonucleotide microarraydatasets.Nucleic Acids Res 2972等。
第五步芯片数据处理对芯片数据进行表达差异和差异显著性分析,确定表达差异显著的外显子。具体确定方法可使用Ratio method、T-statistic、ANOVA等方法。本例使用一种贝叶斯方法。
利用Bayes分析方法进行基因表达差异和显著表达差异判别过程基因表达水平的变异主要有两个来源一是所谓的测量误差,是由于mRNA等样品制备、荧光信标、交叉杂交等造成的;二是由于基因的不同造成的,每个基因自身的荧光反应不同,本身就有高低。对于这两个来源的变异,本研究应用Γ分布(Gamma distribution)模型进行分析。对于每个测量点,我们假设红光光强(R)是来自Γ分布G(α,θR)的一个样本,即R∽G(α,θR);同样,绿光G是来自Γ分布G(α,θR)的一个样本,即G∽G(α,θR)。对于θR和θR是来自一个共同的Γ分布G(α0,υ),即θR,θR∽G(α0,υ)。根据上述Gramma-Gramma模型,可以得到真实差异表达(true differentialexpression)的后验分布为,其中,未知参数通过最大似然法估计。Bayes估计值界于该分布的平价值和众值之间,作为真实差异表达的估计值。由于R和G的测量变异均有可能来自两个变异源(测量误差和基因差异表达),所以对于表达比率(R/G ratio)显著性的确定,本研究使用Bernoulli随机变量Z当Z=1,说明两者的表达有真实差异(θR不等于θR),反之,Z=0,说明两者的表达无真实差异。
由此可以获得本群体中96个个体植株的外显子是否表达的数据(见下步)。
第六步确定分子标记基因型根据上一步可以建立各个个体的分子标记基因型。本示例中21个外显子在96个个体中的均有差异表达。
个体(Ind#,左列)依次为1-96,M1-M54是否表达依次分别用“1”(表达)和“2”(不表达)或“.”(缺失)表示,每个个体间用分号隔开。
*MarkerBegin*Ind#M1 M2 M3 M4 M5 M6 M7 M8 M9 M10 M11 M12 M13 M14 M15 M16 M17M18 M19 M20 M21 M22 M23 M24 M25 M26 M27 M28 M29 M30 M31 M32 M33 M34M35 M36 M37 M38 M39 M40 M41 M42 M43 M44 M45 M46 M47 M48 M49 M50 M51M52 M53 M54 ;1 2 1 1 1 1 1 1 2 2 2 2 2 2 2 2 1 1 12 2 2 2 1 1 2 2 2 2 2 2 2 2 2 2 22 2 2 2 2 2 1 2 1 1 1 1 1 1 1 2 2 .
2 ;2 1 1 1 1 1 1 1 2 2 2 2 2 1 1 1 1 1 12 2 2 2 2 2 1 1 1 1 1 1 1 1 1 2 1 11 1 1 2 2 2 1 1 1 1 1 1 1 1 1 1 1 13 1 1 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 12 2 2 1 1 1 1 1 1 1 1 1 1 1 . 1 1 11 1 1 2 2 2 . 2 2 2 2 2 2 2 2 2 . 24 2 2 2 2 2 2 2 2 2 2 1 . 1 1 1 2 22 2 2 2 2 1 1 2 2 2 1 2 2 2 2 1 2 22 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 . .
2 ;5 2 2 1 . 1 1 1 2 2 2 2 . . 2 . 1 1 12 2 2 2 . 2 2 2 2 2 . . 2 . . 1 . 22 . 2 2 . 2 1 2 . . 2 2 2 . 2 . .
1 ;6 1 1 2 2 2 2 2 2 2 2 1 1 . 1 1 2 22 2 2 1 1 1 1 1 2 2 1 1 1 1 1 . 22 2 2 2 2 2 1 2 2 2 2 2 1 1 1 . 1 1. 1;7 1 1 2 . 2 2 2 2 2 2 2 2 2 1 1 1 1 12 2 2 2 2 2 1 2 2 2 2 2 2 2 2 1 1 12 2 2 2 1 1 2 1 1 1 1 1 1 . 1 1 . 18 1 2 2 2 2 2 2 2 2 2 1 1 1 1 1 1 11 2 2 2 2 2 2 2 2 2 2 2 2 1 2 1 11 2 2 2 2 2 2 2 . 2 2 2 1 1 1 1 2 22 2 ;9 2 2 2 . 2 2 2 2 2 2 1 1 1 1 1 1 1 12 2 2 2 2 1 1 1 1 1 1 1 1 1 1 1 1 22 2 2 2 2 2 1 2 2 2 2 2 1 1 1 1 1 1;10 1 2 2 . 2 2 2 2 2 2 2 2 2 2 2 2 22 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 22 2 2 2 2 2 1 1 1 1 1 1 1 1 1 2 2 21 ;11 2 2 2 . 2 2 2 2 2 2 1 1 . 1 2 2 2 22 2 2 2 1 1 1 1 1 1 1 1 1 1 1 1 11 1 1 1 1 2 1 . 1 1 1 1 1 1 1 1 1 .
1 ;12 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 1 1 11 1 2 2 2 2 2 2 1 1 1 1 1 1 1 2 22 2 2 2 2 2 1 1 1 1 1 1 1 1 1 1 11 2;13 2 2 . 2 2 2 2 2 2 2 2 2 . 1 1 1 1 22 2 2 2 2 2 2 2 2 2 2 2 1 1 1 1 1 22 2 2 2 2 2 1 1 1 2 1 1 1 1 1 1 11 ;14 2 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 22 1 1 2 1 1 1 2 2 2 1 1 1 1 1 1 2 22 2 2 2 2 1 1 2 1 1 1 2 2 2 2 1 1 11 ;15 2 2 2 2 2 2 2 2 2 2 2 2 1 1 2 2 22 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 22 2 2 2 2 2 1 1 . 1 1 1 2 2 2 2 22 . 2 ;16 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 21 1 1 1 2 2 2 2 2 2 2 2 2 2 2 1 1 11 1 1 1 1 1 1 1 1 1 1 1 1 1 . 1 .
2 ;17 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 22 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 11 1 1 1 1 1 2 2 1 2 2 2 1 1 1 1 11 1 1 ;18 1 1 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 22 2 2 2 1 1 1 1 1 1 1 1 1 1 1 2 2 22 2 2 2 1 1 1 1 1 1 1 1 1 1 2 2 2 2
;19 1 1 . 1 1 1 1 2 2 2 1 . . 2 2 1 11 1 1 . 2 . 2 1 1 1 2 . 2 . . . 2 .
2 2 . 2 2 . 2 . 1 . 1 1 1 1 1 1 1. 1;20 1 1 2 2 2 2 2 2 2 2 2 2 2 2 1 2 22 2 2 2 1 1 1 2 2 2 2 2 2 2 2 2 11 1 1 1 1 1 2 1 . 1 1 1 1 1 1 1 . 11 1;21 2 2 2 2 2 1 2 2 2 2 2 2 2 2 2 1 1 12 2 2 2 1 1 1 2 2 2 2 2 2 2 2 2 2 22 2 2 1 1 1 . 1 1 1 1 1 1 1 1 1 1 122 1 2 2 2 2 2 1 1 1 1 1 1 . 1 1 1 1 11 2 2 2 2 2 2 1 1 1 1 1 1 1 1 2 2 22 1 1 1 1 1 . 1 1 1 1 1 1 1 1 1 .
1 ;23 1 1 1 . 1 2 2 2 2 2 1 1 1 1 1 2 22 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 22 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 1 11 2;24 2 2 2 . . 2 2 2 1 2 1 1 1 1 2 2 1 21 1 1 . 2 2 2 2 . 2 2 . 2 2 2 . 2 22 2 2 1 2 1 1 2 1 1 1 1 . 1 1 1 2. ;25 2 2 2 2 2 2 2 2 2 2 1 1 . 1 1 1 11 1 1 1 1 1 1 2 2 2 2 2 2 2 2 1 11 1 2 1 1 2 2 2 . 2 2 2 2 2 2 2 22 2 1 ;26 1 1 1 1 1 2 2 2 2 2 1 1 1 1 1 2 22 2 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 22 2 2 2 2 2 1 . 1 1 1 1 1 2 1 1 11 2;27 1 1 1 . 2 2 2 2 2 2 2 2 2 2 . 2 2 21 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 22 2 2 2 1 1 . 2 2 2 2 2 2 2 2 1 1 128 1 2 1 1 1 1 1 1 1 1 1 1 1 1 . 1 11 1 2 2 2 1 1 1 1 1 1 1 1 1 1 1 11 1 1 1 1 2 2 1 . 1 1 1 1 1 2 2 1 22 2;29 1 1 2 2 2 2 2 2 2 2 1 1 2 2 . 2 22 1 1 1 1 2 2 2 2 2 2 2 2 1 1 1 1 12 2 2 2 2 2 2 . 2 2 2 2 2 2 2 2 2 2
2 ;30 1 1 2 1 2 1 1 1 1 1 1 1 2 2 2 2 22 1 1 1 1 1 1 1 . 1 1 2 2 2 2 2 2 22 2 1 1 1 2 2 . 2 2 2 1 1 1 1 1 11 2;31 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 22 2 . 2 . 2 1 2 2 2 2 2 2 2 . 1 1 11 . 1 . 1 2 2 2 2 2 1 1 1 1 1 . . 2;32 2 2 . 1 2 . 1 2 2 2 2 2 2 2 2 2 22 . 1 1 1 . 1 1 . 1 1 . 1 1 1 1 22 2 2 2 2 1 . 1 1 1 1 1 2 2 2 2 . 2. 2;33 2 2 2 2 2 2 2 2 2 2 1 1 1 1 2 2 2 22 2 2 2 1 1 1 . 1 1 1 1 2 2 2 1 1 12 2 2 2 1 1 1 1 1 1 2 2 2 2 1 1 11 ;34 . 2 2 . 2 2 2 2 2 2 2 2 2 2 2 1 11 1 1 . 1 1 2 2 2 2 2 2 2 . 2 . 11 1 1 . 1 . 2 1 1 1 1 1 2 2 2 2 22 . 2 ;35 2 2 2 2 2 2 2 2 2 1 1 1 1 . 1 1 21 1 . 2 2 1 2 . 1 1 2 1 1 2 2 2 2 22 2 2 2 1 1 . 1 1 2 2 2 2 2 2 2 . 2;36 1 1 . 1 1 1 1 1 1 1 2 . 2 2 1 2 22 . 2 2 2 . 2 1 . 1 1 . 1 1 1 1 11 1 . 2 2 2 . 1 1 1 1 1 2 2 2 . 22 . 1 ;37 1 2 2 2 2 2 2 2 2 2 1 1 2 2 2 1 1 11 1 1 2 2 2 2 2 2 1 2 2 2 2 2 2 2 22 2 2 2 2 2 2 2 2 2 2 2 1 2 2 2 . 2;38 1 1 1 1 1 1 2 2 2 2 1 1 1 1 1 2 22 2 2 2 2 2 2 2 2 2 1 2 2 2 2 2 11 1 1 1 1 1 2 2 2 2 2 2 2 2 1 1 11 . 1 ;39 2 2 2 2 2 2 2 2 2 2 2 2 2 2 . 2 2 12 2 2 1 1 2 2 2 2 2 2 2 2 2 . 2 22 2 2 2 2 1 2 2 2 2 2 2 2 1 2 2 2. 2;40 1 1 1 1 1 1 . 2 2 2 2 2 2 2 2 2 22 2 2 2 1 1 1 1 1 1 1 1 1 1 1 1 2 22 2 1 1 1 1 1 1 1 1 1 . 1 1 1 2 2
. 2;41 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 22 2 2 2 1 1 1 1 1 1 1 1 1 1 1 1 22 2 2 1 1 1 1 1 1 1 1 1 1 1 1 1 22 . 2 ;42 2 2 2 . 2 2 2 2 2 2 1 1 2 2 2 1 1 12 1 1 1 1 2 2 2 2 2 2 2 2 2 2 1 22 2 2 2 2 2 2 2 2 2 2 . 1 1 1 2 2 .
2 ;43 2 2 2 2 2 2 2 2 2 2 1 1 1 1 1 2 22 2 2 2 2 1 1 1 1 1 1 1 1 1 1 1 1 11 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 22 ;44 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 1 1 12 2 2 2 1 1 1 . 1 1 1 1 1 1 1 1 .
1 1 2 2 2 1 1 1 1 1 1 1 1 1 1 1 1 11 ;45 1 1 1 1 1 2 2 2 2 2 2 2 1 1 1 1 1 11 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 22 2 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 1;46 2 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 1 11 1 1 1 . 1 2 2 2 2 2 2 2 2 2 1 11 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 22 ;47 . 1 . 2 . 2 2 2 1 2 . 2 2 2 2 2 22 2 2 2 2 1 1 . . 1 2 2 . 1 1 1 2 22 2 2 2 1 1 1 1 1 1 1 1 1 . 1 1 1 .
2 ;48 2 2 2 2 2 2 2 1 1 1 1 1 1 2 2 2 22 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 22 2 2 2 2 2 1 1 1 1 1 1 1 1 1 1 2 22 2 ;49 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 11 2 2 2 1 1 1 1 1 1 1 1 1 1 1 1 2 22 2 2 2 1 1 1 1 1 1 1 1 1 1 1 1 1 21 ;50 1 2 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 12 2 2 1 1 1 2 2 2 2 2 2 2 2 2 2 22 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 22 ;51 1 2 2 2 2 2 2 2 2 2 2 2 2 1 1 1 1 11 1 2 2 2 2 2 2 2 1 1 1 1 1 1 2 2 22 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 252 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 21 1 1 1 . 1 2 2 2 2 2 2 2 2 2 2 2 22 2 2 2 2 1 1 1 1 1 1 1 1 1 1 1 11 ;53 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 1 12 2 1 1 . 1 2 2 2 2 2 2 2 2 2 2 22 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 22 2;54 1 1 1 1 1 2 2 2 2 2 2 2 2 2 1 2 21 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 2 22 2 2 2 2 2 2 2 2 2 2 2 2 2 2 . 21 1;55 1 1 1 2 1 2 2 2 2 2 2 2 2 2 2 2 2 22 2 2 2 . 1 1 1 1 1 . 1 1 1 . 2 22 2 2 2 1 2 2 2 2 . . 2 2 2 2 1 1 .
1 ;56 1 1 1 2 1 2 2 2 2 2 2 2 2 2 2 2 2 22 2 2 2 1 1 1 1 1 1 1 1 1 1 1 2 2 22 2 2 1 2 2 2 2 2 2 2 2 2 2 1 1 1 1;57 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 . 1 11 2 2 2 2 2 2 2 1 1 1 1 1 1 1 2 2 22 2 2 2 . 1 1 1 1 1 1 1 1 1 1 1 . 2;58 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 22 2 2 2 2 2 2 2 2 2 2 2 2 1 2 1 22 2 2 2 2 2 . 1 1 2 2 2 2 2 2 2 1 11 1;59 2 2 2 2 2 2 2 2 2 2 1 1 1 1 1 2 22 2 2 2 2 2 2 2 2 2 1 1 1 2 2 2 2 22 1 1 1 2 2 2 2 2 2 2 2 2 2 2 1 1. 1;60 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 22 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 12 2 2 2 2 2 2 1 1 1 1 1 2 2 2 2 11 1 1 ;61 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 11 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 22 2 2 2 2 2 1 1 1 1 1 1 1 1 1 2 2 22 ;62 2 2 2 . 2 2 2 2 2 2 2 2 2 2 2 2 22 1 1 1 1 . 2 2 2 2 2 1 1 1 1 1 11 1 2 2 2 2 2 2 1 1 1 1 2 2 2 2 2 2
. 1;63 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 22 2 2 2 1 2 2 2 2 2 1 1 1 1 1 1 22 2 2 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2. 2;64 2 2 2 2 2 2 2 2 2 2 . . 1 1 1 . 22 2 2 2 . 1 1 1 1 1 1 1 . 2 . 1 22 2 2 2 2 2 2 2 . 2 1 2 2 1 1 1 11 . 1 ;65 1 1 1 1 1 2 2 2 2 2 2 2 1 1 1 1 11 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 22 2 2 2 2 2 2 2 2 2 2 2 1 1 1 1 1 1. 1;66 2 2 2 2 . . 2 2 2 2 2 2 2 2 2 2 22 2 2 2 . 1 1 1 1 1 1 1 1 1 1 1 1 22 2 2 2 2 2 2 2 2 2 2 2 2 . . . 1 .
. ;67 2 2 2 2 2 2 2 2 2 2 2 2 1 1 1 1 11 2 2 2 2 1 1 1 2 2 2 2 2 2 2 2 1 11 1 1 1 1 1 1 1 1 1 1 1 1 1 . 1 2 .
2 ;68 1 1 1 1 1 2 2 2 2 2 2 2 2 2 1 1 11 2 2 2 1 1 1 1 2 2 2 2 2 2 2 2 1 12 2 2 2 2 2 1 1 1 1 1 1 1 1 1 2 2 22 ;69 1 1 1 . 2 2 2 2 2 2 2 . 2 2 2 2 22 1 2 2 2 . 2 2 2 2 2 . 2 2 . . 2 22 2 . 2 2 1 1 1 2 . . 2 2 2 2 2 . .
1 ;70 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 22 2 1 1 2 2 2 2 2 2 2 2 2 2 2 2 11 2 2 2 1 1 1 1 2 2 2 2 2 2 2 2 22 2 2 ;71 1 2 2 . 2 2 2 2 2 . 2 2 2 2 2 2 2 22 2 2 2 1 1 1 1 2 2 2 2 2 2 2 1 1 11 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1;72 1 1 1 . 1 1 1 1 1 1 2 2 2 1 . . 1 12 2 2 1 . 1 2 . 2 2 2 2 2 2 . 1 1 11 1 1 1 1 2 2 1 1 1 . 2 2 2 1 1 .
1 ;73 1 1 1 . 1 2 2 2 2 . 1 . . 1 1 2 2 21 2 2 2 1 1 1 . 1 1 1 1 1 1 . 1 2 22 2 2 2 2 1 1 1 1 1 2 2 2 2 2 2 .
2 ;74 2 2 2 . 2 2 2 2 2 . 1 1 1 1 1 1 11 2 2 2 1 1 1 1 1 1 2 2 2 2 2 2 2 21 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1. 1;75 1 1 1 1 1 1 2 2 2 . 1 1 1 1 1 1 1 12 2 2 2 2 2 1 1 1 1 1 1 1 1 1 1 1 11 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2;76 1 1 1 1 1 1 1 2 2 2 2 2 1 1 1 1 11 2 2 2 1 1 1 1 1 1 1 1 1 1 1 1 .
2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 1 1 1. 1;77 2 1 2 . 2 2 2 2 2 2 2 2 1 1 1 1 11 1 1 1 1 . 1 1 1 1 1 1 1 1 1 1 22 2 2 2 2 2 2 2 2 2 2 2 2 2 1 2 1 11 1;78 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 . 11 1 2 2 2 2 2 2 2 1 1 1 1 1 1 1 2 22 2 2 2 2 . 1 1 1 1 1 1 1 1 1 1 1 .
2 ;79 1 1 1 2 1 2 2 2 2 2 1 1 1 2 2 2 2 22 2 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 22 2 2 2 2 1 1 1 1 1 1 1 1 1 1 1 1 1;80 2 2 2 2 2 1 2 2 2 2 2 2 2 2 2 1 1 12 2 2 1 1 1 1 1 1 1 1 1 2 1 2 2 2 22 2 2 2 2 1 1 2 2 2 2 2 2 2 2 2 . 1;81 2 1 2 2 2 2 2 2 2 2 2 2 1 1 1 1 11 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 22 2 2 2 2 2 2 2 2 2 2 2 2 2 . 2 1 11 1;82 2 2 2 2 2 2 2 2 2 2 1 1 . 1 1 1 11 1 1 1 1 . 1 1 . 1 1 1 1 1 1 . 11 1 . 2 2 1 2 1 1 1 . 1 1 1 . 1 . 2. 2;83 1 1 2 2 2 2 2 2 2 2 1 . . 1 1 2 2 21 2 2 1 1 1 2 2 2 2 2 2 2 2 . 2 2 22 2 2 2 2 1 1 1 . 1 1 1 2 1 1 1 2 2;84 1 1 1 1 1 2 2 2 2 2 1 1 1 1 1 1 1 11 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 22 2 2 2 2 1 1 1 1 1 1 1 1 1 1 2 2 2
2 ;85 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 11 1 2 2 2 2 2 2 1 1 1 1 1 1 1 1 22 2 2 2 2 2 1 1 1 1 1 1 1 1 2 1 1 11 2;86 2 2 1 1 1 1 2 2 2 2 2 2 2 2 2 1 1 12 2 . 2 2 2 2 2 2 2 2 2 2 2 2 2 22 2 2 2 2 2 2 2 2 2 2 2 2 1 2 2 2 22 ;87 2 2 2 2 2 2 2 2 2 2 2 2 1 1 . . 2 22 2 2 1 1 1 1 1 1 1 1 1 1 1 1 2 2 22 2 2 1 2 2 1 1 1 1 . 1 2 1 1 1 11 ;88 1 1 1 1 1 2 2 2 2 2 2 2 1 1 1 1 11 2 2 2 2 2 2 2 2 2 1 1 1 1 1 1 22 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 11 1 1 ;89 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 1 12 2 2 1 1 1 2 2 2 2 2 2 2 2 2 2 2 22 2 2 2 2 2 2 2 2 2 2 2 2 2 . 2 2 1;90 1 1 2 . 2 2 2 2 2 2 2 2 2 2 2 2 22 2 2 2 2 . 2 2 2 2 2 2 2 2 2 . 22 2 2 2 2 2 2 2 2 2 2 2 2 2 1 2 2 1. 1;91 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 1 11 1 1 1 . 1 2 2 2 2 2 2 2 2 . 2 2 22 2 2 2 2 2 2 2 . 2 . 1 1 1 1 1 . 192 2 2 2 . 2 2 2 2 . 2 1 1 . 2 . 2 2 21 1 1 1 . 2 2 2 2 2 2 2 2 2 2 1 11 1 1 2 2 2 1 1 1 1 1 . 1 1 1 2 2. 2;93 1 1 1 1 1 1 2 2 2 2 2 2 2 2 . . 2 21 1 1 1 1 1 1 1 1 1 1 1 1 1 . 1 .
2 2 2 2 2 2 2 2 2 . 2 . 1 2 1 1 1. 1;94 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 22 1 1 1 1 1 2 2 2 2 2 2 1 1 1 1 11 1 1 1 1 1 1 2 2 2 2 1 1 2 1 . 2 22 ;95 1 1 1 1 1 2 2 2 2 2 1 1 1 1 1 1 1 11 1 1 1 2 2 2 2 2 2 2 2 2 2 2 1 11 1 1 1 1 1 2 2 2 2 2 2 2 1 2 2 1 .
1 ;96 1 1 1 1 1 1 1 2 2 . 2 2 1 1 1 1 1 22 . 2 2 2 2 1 1 1 1 1 1 1 1 1 1 12 2 2 2 2 2 2 2 2 2 2 1 1 . 1 1 1. 2;*MarkerEnd*第七步获得表型数据测定各个个体的形态或生理等表型数据,获得如下水稻株高数据。不同环境(Env#)下进行试验结果分别用1和2等表示,株高(SH5)单位为cm.*TraitBegin*Env# Ind#SH5; 1 31 80.9;1 1 52.5;1 32 88.4;1 2 62.5;1 33 79.2;1 3 77.9;1 34 77.1;1 4 57.2;1 35 72.7;1 5 51.7;1 36 78.6;1 6 62.5;1 37 65.1;1 7 56; 1 38 48.8;1 8 62.7;1 39 65.5;1 9 62.1;1 40 79.3;1 10 76.2;1 41 81.8;1 11 69.1;1 42 63.8;1 12 68.4;1 43 96.6;1 13 45.4;1 44 67.2;1 14 68.4;1 45 55.5;1 15 83.9;1 46 44.2;1 16 81.5;1 47 80.1;1 17 74.4;1 48 75.9;1 18 73.9;1 49 77.6;1 19 58.7;1 50 50.4;1 20 64.5;1 51 60;1 21 61.2;1 52 68.6;1 22 48.5;1 53 58;1 23 48.2;1 54 67.2;1 24 83.5;1 55 65.2;1 25 55.2;1 56 66.7;1 26 49.6;1 57 67.1;1 27 77.3;1 58 59.6;1 28 78.5;1 59 67.5;1 29 71; 1 60 67.7;1 30 67.2;1 61 60.3;1 62 70.9;2 10 65.6;1 63 78.8;2 11 53;1 64 70.9;2 12 58.4;1 65 52.2;2 13 40.2;1 66 70.7;2 14 59.1;1 67 66.3;2 15 67.7;1 68 55; 2 16 67.7;1 69 75.3;2 17 63.7;1 70 75.5;2 18 68;1 71 57.5;2 19 48.7;1 72 49.7;2 20 51.8;1 73 75.5;2 21 49.9;1 74 52.5;2 22 41.1;1 75 64.6;2 23 34.1;1 76 57.2;2 24 71.4;1 77 52.1;2 25 44.6;1 78 53.9;2 26 47;1 79 72; 2 27 62.3;1 80 70; 2 28 60.8;1 81 52.3;2 29 64.1;1 82 55.5;2 30 62.3;1 83 63.7;2 31 67.6;1 84 62.1;2 32 77.3;1 85 61; 2 33 66.1;1 86 71.8;2 34 58.6;1 87 76.6;2 35 57.9;1 88 55.4;2 36 60.3;1 89 60.9;2 37 55.1;1 90 58.9;2 38 44.3;1 91 44.4;2 39 47.1;1 92 73.6;2 40 71.4;1 93 73.8;2 41 70.1;1 94 82.4;2 42 57.4;1 95 53.7;2 43 76;1 96 64.2;2 44 56.7;2 1 43.8;2 45 46.1;2 2 39.5;2 46 28.3;2 3 57.8;2 47 67.7;2 4 44.9;2 48 66.7;2 5 41.9;2 49 66.7;2 6 44.2;2 50 50.1;2 7 46.8;2 51 56.7;2 8 51.4;2 52 56.4;2 9 46.4;2 53 53.3;2 54 58.4;2 55 60.1;2 56 57.2;2 57 53.1;2 58 54.9;2 59 56;2 60 52.6;2 61 52;2 62 57;2 63 65;2 64 59;2 65 46.3;2 66 55.3;2 67 58.4;2 68 48.9;2 69 59.6;2 70 56.8;2 71 43.4;2 72 42.5;2 73 66.5;2 74 40.1;2 75 57.3;2 76 52.8;2 77 43.4;2 78 46.8;2 79 63.1;2 80 57.8;2 81 43.2;2 82 43.3;2 83 48.3;2 84 57.5;2 85 50.2;2 86 59.9;2 87 58.6;2 88 44.1;2 89 43.6;2 90 44.7;2 91 37;2 92 56.3;2 93 63.6;2 94 69.8;2 95 41.8;2 96 55.4;
第八步QTL定位本例使用基于混合线性模型的复区间作图法等进行QTL定位。
具体方法描述见Wang DL,Zhu J,Li ZK,Paterson AH,1999,Mapping QTLswith epistatic effects and QTLxenvironment interactions by mixed modelapproaches.Theor.Appl.Genet.,991255-1264。相关软件QTLMapper(version1.0)。
第九步分析和定位功能基因通过QTLMapper(version1.0)可以获得多方面数据,其中主效QTL定位结果如下//Result file created by QTLMapper V1.0(本结果由QTLMapper V1.0产生)//Contentsfiltrated putative main-effect QTLs(内容通过主效QTL筛选)// Original result fileD\QTLMAPER\simu.qtl(原始结果文件D\QTLMAPER\simu.qtl)// BGV control methodA(control main & interaction markers)(背景遗传变异控制方法A(控制主效和互作标记)// Threshold probability0.0050(临界概率0.0050)// LR Threshold value7.8798(似然比LR临界值7.8798)#Date2002-03-09Time103905(运行日期和时间)Trait 1simTt(性状1株高)ChromIntervalSitel(M)Site2(M) LR LOD A Prob染色体 区间 标记位点1 标记位点2 LR似然比值 LOD似然比值 A值概率1MK2-MK3 0.098 0.000 18.26 3.96 0.7869 0.00172MK25-MK26 0.594 0.000 150.78 32.72-0.99420.67112MK32-MK33 1.262 0.040 247.09 53.623.6980 0.0000End从该结果可以得出,在第一和二条染色体上共有3个主效QTL控制水稻株高,它们分别位于M2-M3、M25-M26和M32-M33之间。M2和M3是同一基因中的不同外显子,则可得出该基因就为控制水稻株高的主效QTL;M25和M26是同一基因中的不同外显子,则同样可得出该基因也是控制水稻株高的主效QTL;M32和M33不是同一基因中的外显子,而分别是相邻基因的外显子,则这两个相连的基因均可能是控制水稻株高的主效QTL。如果有更多的达到显著的区间,可依次类推确定其他QTL。由此便可以定位和获得相关功能基因的具体位置和序列。
权利要求
1.基于基因组外显子芯片的数量性状基因位点定位新方法,其特征是将基因组或部分染色体的基因外显子序列作为一种分子标记,利用人类、水稻等基因组外显子序列芯片(exon array)的检测数据作为定位群体的分子标记数据,然后通过QTL统计定位方法进行基因定位。
2.根据权利要求1所述的方法,其特征是先构建植物遗传群体或动物家系,通过公共分子数据库(GenBank等)收集并确定相关物种的所有已知和注释获得的基因序列数据以及在染色体上的位置数据,建立该群体的分子标记图谱。
3.根据权利要求1所述的方法,其特征是根据收集和确定的外显子序列数据进行点样制作全基因组或特定染色体外显子序列芯片。
4.根据权利要求1所述的方法,其特征是对研究群体的个体进行DNA取样和芯片杂交实验,获得芯片信号数据。
5.根据权利要求1所述的方法,其特征是对芯片数据进行表达差异和差异显著性分析,确定表达差异显著的外显子。
6.根据权利要求1所述的方法,其特征是根据外显子差异表达数据,建立群体中各个个体的分子标记基因型。
7.根据权利要求1所述的方法,其特征是测定各个个体的形态或生理等表型数据。
8.根据权利要求1所述的方法,其特征是QTL定位方法可采用单标记分析法、区间作图法、复区间作图法、多区间作图法和基于混合线性模型的复区间作图法等。
9.根据权利要求1所述的方法,其特征是定位后进行分析和定位功能基因。
10.根据权利要求1所述的方法,其特征是可直接获得定位的功能基因序列。
全文摘要
本发明是一种基于基因组外显子芯片的数量性状基因位点(QTL)定位的新方法,是将外显子序列作为一种分子标记,利用人类、水稻等全基因组或部分染色体的外显子序列芯片(exon array)的检测数据作为定位群体的分子标记数据,然后通过QTL统计定位方法进行基因定位。本发明可直接获得定位的功能基因序列。适用于生物所有数量性状或复杂性状(疾病);研究群体包括植物DH群体、F2群体、近等基因系(NIL)、近等基因导入系(NIIL)、重组自交系(RIL)等,动物家系等。
文档编号C12Q1/68GK1448515SQ0211128
公开日2003年10月15日 申请日期2002年4月2日 优先权日2002年4月2日
发明者樊龙江 申请人:浙江大学