望基因 纯合的植物,或者可诱导单倍体组织(例如发育中的精细胞)以使染色体组加倍从而产生 纯合的植物。
[0073] 可使本发明的小麦植物与包含更理想遗传背景的植物杂交。期望的遗传背景可包 括提供商业产量和其他特征(例如农学性能或非生物胁迫抗性)的基因的合适组合。所 述遗传背景还可包括其他经改变的淀粉生物合成或修饰基因,例如来自其他小麦品系的基 因。所述遗传背景可包含一种或更多种转基因,例如赋予除草剂(如草甘膦)耐受性的基 因。
[0074] 本文使用的术语"连锁的"指染色体上的标记基因座和第二基因座足够接近,使得 其在超过50%的减数分裂中一起遗传,例如非随机地。该定义包括其中标记基因座和第二 基因座形成同一基因的一部分的情况。此外,该定义包括其中标记基因座包含负责目的性 状的多态性的情况(换句话说,该标记基因座与表型直接"连锁")。本文使用的术语"遗 传连锁"是狭义的,仅用于与如下有关的情况:染色体上的标记基因座和第二基因座足够接 近,使得其在超过50%的减数分裂中一起遗传。因此,每代观察到的基因座之间的重组百分 数(厘摩(cM))将小于50。在本发明的一些具体实施方案中,染色体上遗传连锁的基因座 可间隔 45cM、35cM、25cM、15cM、10cM、5cM、4cM、3cM、2cM 或 IcM 或者小于 cM。优选地,这些标 记间隔小于5cM或2cM,最优选间隔为约OcM。
[0075] 本文使用的"其他遗传标记"可以是与谷类植物(例如小麦)的期望性状有关的任 何分子。所述标记为本领域的技术人员已知,并且包括与决定如下性状的基因相关的分子 标记:例如抗病性、产量、植物形态学、谷粒质量、其他休眠性状例如谷粒颜色、种子中的赤 霉酸含量、植株高度、面粉颜色等。这样的基因的实例为茎锈病抗性基因 Sr2或Sr 38、条锈 病抗性基因 YrIO或Yr 17、线虫抗性基因例如Cre和Cre3、位于麦谷蛋白基因座决定面团 强度的等位基因,例如Ax、Bx、Dx、Ay、By和Dy等位基因。具体对于谷粒休眠,其他标记包 括红谷粒色的 R 基因 (Himi 等,2002)以及 Mares 等(2005)、Li 等(2004)、Kato 等(2001)、 Mori等(2005)和Prada等(2004)所述的标记。
[0076] 作为名词时,本文使用的术语"植物"指整个植物,但是作为形容词使用时,指植物 中存在、从其获得、由其衍生或与其相关的任何物质,例如植物器官(例如叶、茎、根、花)、 单个细胞(例如花粉)、种子、植物细胞等。本发明提供的或预期用于实践本发明的植物 包括单子叶植物和双子叶植物两者。在一些优选实施方案中,本发明的植物为农作物植物 (例如谷类和豆类、玉米、小麦、马铃薯、木薯、水稻、高粱、大豆、粟、木薯、大麦或豌豆)或豆 科植物。可种植用于生产可食用根、块茎、叶、茎、花或果实的植物。
[0077] 本文使用的术语"种子"和"谷粒"具有重叠含义。根据上下文,"谷粒"包括已从 植物收获的种子,并且一般指成熟的收获谷粒,但是也可指经历吸胀和萌发后的谷粒。"种 子"可指收获前或后的成熟谷粒或指正在植物内发育的未成熟种子。成熟的谷粒一般具有 低于约10 %至15%的含水量。
[0078] 本文使用的术语"基因"采用其最广义的范围,包括含有结构基因的蛋白质编码区 的脱氧核糖核苷酸序列并且包括位于编码区5'和3'两端附近与各端相距至少约2kb的序 列。将位于编码区5'且存在于mRNA上的序列称为5'非翻译序列。将位于编码区3'或下 游且存在于mRNA上的序列称为3'非翻译序列。术语"基因"涵盖基因的cDNA和基因组形 式两者。基因的基因组形式或克隆包含编码区,编码区可被称为"内含子"或"间插区"或 "间插序列"的非编码序列间断。内含子为转录成核RNA(hnRNA)的基因区段;内含子可包含 调控元件,例如增强子。内含子被从核或初级转录物中除去或"剪接掉";因而,内含子不存 在于信使RNA (mRNA)转录物中。mRNA在翻译期间起确定新生多肽中氨基酸序列或顺序的作 用。术语"基因"包括编码本文所述的本发明全部或部分蛋白质的合成或融合分子和上述 中任意一个的互补核苷酸序列。
[0079] 等位基因为单个遗传基因座上基因的变体。六倍体小麦(例如普通小麦)包含六 组染色体,基因组组构为AABBDD。每条染色体具有每个基因的一个拷贝(一个等位基因)。 如果一个染色体对的两个等位基因是相同的,那么该生物体对所述基因则是纯合的;如果 等位基因是不同的,那么该生物体则对所述基因是杂合的。一般将基因座上等位基因之间 的相互作用描述为显性或隐性。
[0080] 本发明的小麦植物可以是在诱变后产生和被鉴定出的。这样可提供非转基因的或 不含外源核酸分子的小麦植物,非转基因小麦植物是一些市场上所需要的。一般地,可对 祖先植物细胞(progenitor plant cell)、组织、种子或植物进行诱变以产生单个或多个突 变,例如核苷酸替换、缺失、添加和/或密码子修饰。
[0081] 诱变可通过本领域中公知的化学或辐射方法实现,例如EMS或叠氮化钠(Zwar和 Chandler,1995)处理种子或γ福射。化学诱变倾向有利于核苷酸替换而非缺失。已知 重离子束(HIB)辐射为用于进行突变育种以产生新植物栽培品种的有效技术,参见例如 Hayashi等,2007和Kazama等,2008。对于生物效应,离子束辐射具有决定DNA损伤量和 DNA缺失大小的两个物理因素,剂量(gy)和LET (线性能量转移,keV/um),并且这些均可根 据期望的诱变程度进行调整。
[0082] 用于产生位点特异性突变的生物剂包括酶,所述酶涉及刺激内源修复机制的DNA 双链断裂。这些包括核酸内切酶、锌指核酸酶、TAL效应物、转座酶和位点特异性重组酶。锌 指核酸酶(ZFN),例如有利于基因组内的位点特异性切割,并允许内源或其他末端连接修复 机制引入缺失或插入从而修复该缺口。Le Provost等,2009中对锌指核酸酶技术进行了综 述,另外参见Durai等,2005和Liu等,2010。
[0083] 突变体的分离可通过筛选经诱变的植物或种子实现。例如,可直接筛选经诱变的 小麦群以获得期望的基因型,或者间接地通过筛选表型,例如植株高度。直接筛选基因型 优选包括测定突变的存在,这些突变可在PCR测定中通过当缺失一些基因时预期标记的缺 失或者如Tilling中基于异源双链的测定或者通过深度测序观察到。筛选表型可包括按照 筛选实施例中所述的生长物。可利用该方法对大的经诱变种子群进行筛选以获得增加的生 长,增加的生长提供增加的植株高度。
[0084] 然后,可如下将鉴定的突变引入理想的遗传背景中:使该突变体与具有期望遗传 背景的植物杂交并进行适当数目的回交以去除原始非期望的亲本背景。
[0085] 在本申请的上下文中,"诱导突变"或"引入突变"为人工诱导的遗传变异,其可以 是通过化学或辐射方法处理亲代种子或植物的结果。核苷酸插入衍生物包括5'和3'端融 合以及单个或多个核苷酸的序列内插入。插入核苷酸序列的变体为在核苷酸序列的位点中 引入了一个或更多个核苷酸的那些变体,在预定位点用锌指核酸酶(ZFN)、TAL效应物或同 源重组方法是可能的,或者通过随机插入并适当筛选所得产物。缺失变体以从序列中去除 一个或更多个核苷酸为特征。优选地,与野生型基因相比,突变基因仅具有核苷酸序列的单 个插入物以及一个或更多个替换突变。替换核苷酸变体为其中除去序列中的至少一个核苷 酸并且在其位置插入不同核苷酸的那些变体。相对于野生型基因,优选突变基因中受替换 影响的核苷酸数最多为10个核苷酸,更优选最多9、8、7、6、5、4、3或2,或最优选仅1个核苷 酸。
[0086] 本文使用的术语"突变"不包括不影响基因活性的沉默核苷酸替换,因而仅包括影 响基因活性的基因序列改变。术语"多态性"指对核苷酸序列的任何改变,包括所述沉默核 苷酸替换。筛选方法可首先包括在一组多态变体中筛选多态性,其次筛选突变。
[0087] 在经典的育种过程中,标记辅助筛选是用于在与轮回亲本回交时筛选所需杂合植 物的公认方法。每个回交代中的植物群将是目的基因杂合的,在回交群中通常以1 : 1比 例存在,并且分子标记可用于区分该基因的两个等位基因。通过从例如嫩芽中提取DNA并 用特异性标记测试渗入的理想性状来对用于进一步回交的植物进行早期筛选,同时精力和 资源集中于较少数植物上。为了进一步加快回交过程,可将未成熟种子(开花后25天)的 胚切除,并使其于无菌条件下在营养培养基上生长,而不是允许饱满种子成熟。
[0088] 本领域中已知的能够检测Rht-Bl等位基因的任何分子生物技术均可用在本发明 的方法中。这些方法包括,但不局限于利用核酸扩增、核酸测序、与经适当标记之探针的核 酸杂交、单链构象分析(SSCA)、变性梯度凝胶电泳(DGGE)、异源双链分析(HET)、化学切割 分析(chemical cleavage analysis,CCM)、催化核酸切割或其组合(参见,例如Lemieux, 2000 ;Langridge 等,2001)。
[0089] "聚合酶链式反应"("?0〇为这样的反应,其中复制拷贝由靶多核苷酸利用由"上 游"和"下游"引物组成的"引物对"或"引物组"以及聚合反应催化剂(例如DNA聚合酶, 一般地,热稳定性聚合酶)产生。用于PCR的方法在本领域中是已知的,并且在例如"PCR" 中有所教导(Ed.MJ.McPherson 和 S.G Moiler(2000)BI0S Scientific Publishers Ltd, Oxford)〇
[0090] 引物为在PCR期间能够以序列特异性方式与靶序列杂交并被延伸的寡核苷酸序 列。扩增子或PCR产物或PCR片段或扩增产物为包含引物和新合成的靶序列拷贝的延伸产 物。多重PCR体系包含多组引物,并且导致同时产生超过一个扩增子。引物可与靶序列完 全匹配或者其可包含内部不匹配的碱基,这些碱基可导致在特定靶序列中引入限制性内切 酶或催化核酸识别/切割位点。引物还可包含额外的序列和/或包含经修饰或经标记的核 苷酸从而有利于捕获或检测扩增子。重复如下循环导致以指数扩增靶序列:热变性DNA、使 引物与其互补序列退火并用聚合酶延伸退火的引物。术语靶标或靶序列或模板指被扩增的 核酸序列。
[0091] 本文使用的术语"转基因植物"和"转基因小麦植物"指包含相同物种、品种或栽培 品种的野生型植物中不存在的基因构建体("转基因")的植物。即,转基因植物(转化植 物)包含其在转化前不含有的遗传物质。本文提及的"转基因"具有生物技术领域中的一 般含义,指已通过重组DNA或RNA技术产生或改变并已被引入祖先植物细胞中的遗传序列, 所述细胞用于产生新的植物。转基因可包括获自或来源于植物细胞或其他植物细胞或非植 物来源的遗传序列或合成序列。通常,通过人操作将转基因导入植物中,例如通过转化,但 可使用本领域技术人员认可的任何方法。通常将遗传物质稳定地整合到植物的基因组中。 引入的遗传物质可包含相同物种中天然存在但以重排的顺序或以不同的元件排列的序列, 例如反义序列或者编码双链RNA或人工微RNA前体的序列。本文的"转基因植物"包含含 有这些序列的植物。本文限定的转基因植物包括已利用重组技术进行遗传修饰的初始转化 和再生植物(T0植物)的所有后代,其中所述后代包含该转基因。这样的后代可通过原代 转基因植物的自体受精或通过使这样的植物与相同物种的另一植物杂交获得。在一个实施 方案中,所述转基因植物对已导入的每个基因(转基因)均是纯合的,从而使其后代对于期 望表型不分离。转基因植物部分包括包含转基因的所述植物的全部部分和细胞,例如种子、 培养组织、愈伤组织和原生质体。"非转基因植物",优选非转基因小麦植物为未经通过重组 DNA技术引入遗传物质进行遗传修饰的植物。
[0092] 本文使用的术语"相应非转基因植物"指大多数特征与转基因植物相同或类似 (优选等基因或近等基因),但不含目的转基因的植物。优选地,相应非转基因植物与目的 转基因植物的祖先或缺乏构建体的同胞植物品系(通常称为"分离子")或转化有"空载 体"构建体的相同栽培品种或品种植物是相同的栽培品种或品种,并且可以是非转基因植 物。根据本发明,本文使用的"野生型"指未经改变的细胞、组织或植物。野生型细胞、组织 或植物在本领域中是已知的,并且可用作对照以与本文所述之经改变的细胞、组织或植物 比较外源性核酸的表达水平或性状改变的程度和性质。本文使用的"野生型小麦谷粒"指 相应的未经诱变的非转基因小麦谷粒。本文使用的具体野生型小麦谷粒包括但不局限于 Sunstate0
[0093] 可利用数种方法中的任何来确定转化植物中转基因的存在。例如,可利用聚合酶 链式反应(PCR)扩增转化植物所特有的序列,并通过凝胶电泳或其他方法检测扩增产物。 可利用常规方法从植物中提取DNA并使用将区别转化和非转化植物的引物进行PCR反应。 确定阳性转化株的一种替代方法是通过本领域中公知的Southern印迹杂交。还可对被转 化的小麦植物进行鉴定,即与非转化或野生型小麦植物的区别在于其例如由存在的可选择 标记基因赋予的表型,或者在于检测或量化该转基因编码之酶的表达的免疫测定,或由该 基因赋予的任何其他表型。
[0094] 本发明的小麦植物可为了谷粒而被种植或收获,主要用作用于人消耗的食物或用 作动物饲料,或者用于发酵或生产工业原料,例如生产乙醇等。或者,所述小麦植物可直接 用作饲料。本发明的植物优选用于食品生产,具体用于商业化食品生产。所述食品生产可 包括由谷粒制作面粉、面团、粗面粉(semolina)或其它产品,其可为商业化食品生产中的 一个组成部分。本发明还提供了由所述谷粒生产的面粉、粗磨粉(meal)或其他产品。这些 可以是未经加工的或经加工的,例如通过分级分离(fractionation)或漂白。
[0095] 术语"多肽"和"蛋白质"在本文中一般可互换使用。本文使用的术语"蛋白质"和 "多肽"还包括本文所述的本发明多肽的变体、突变体、修饰物和/或衍生物。本文使用的 "基本纯的多肽"指已与在其天然状态中与其缔合的脂质、核酸、其他肽和其他分子分离的 多肽。优选地,基本纯多肽至少60%不含,更优选至少75%不含,更优选至少90%不含与其 天然缔合的其他成分。"重组多肽"指利用重组技术产生的多肽,即通过在细胞,优选植物细 胞,更优选小麦细胞中表达重组多核苷酸。
[0096] 多肽相对于另一多肽的%同一性可通过GAP (Needleman和Wunsch,1970)分析确 定(GCG程序),其中空位产生罚分=5,空位延伸罚分=0.3。查询序列的长度为至少250 个氨基酸,并且GAP分析对两个序列在至少250个氨基酸的区域上进行比对。最优选地,可 对所讨论的两个多肽的全长氨基酸序列进行比对。
[0097] 对于限定的多肽,应当理解的是,高于上文提供的那些的%同一性数值将涵盖优 选实施方案。因此,在可适用时,根据最小%同一性数值,所述多肽优选包含这样的氨基酸 序列,其与对应的指定SEQ ID NO具有至少75%,更优选至少80%,更优选至少85%,更优 选至少90 %,更优选至少91 %,更优选至少92 %,更优选至少93 %,更优选至少94 %,更优 选至少95 %,更优选至少96 %,更优选至少97 %,更优选至少98 %,更优选至少99 %,更优 选至少99. 1 %,更优选至少99. 2 %,更优选至少99. 3 %,更优选至少99. 4 %,更优选至少 99. 5 %,更优选至少99. 6 %,更优选至少99. 7 %,更优选至少99. 8 %,并且甚至更优选至少 99. 9%的同一性。
[0098] 氨基酸序列缺失一般为约1至15个残基,更优选约1至10个残基,一般约1至5 个连续残基。替换突变体的多肽分子中去除了至少一个氨基酸残基,并在其位置插入不同 的残基。
[0099] "分离的"指基本或大体上不含在其天然状态中通常与其共存的成分的物质。本文 使用的"分离的多核苷酸"或"分离的核酸分子"指至少部分地与在其天然状态中与其缔合 或相连之相同类型的多核苷酸序列分离、优选基本或大体上不含所述多核苷酸序列的多核 苷酸。例如,"分离的多核苷酸"包括已从在天然存在的状态中位于其侧翼的序列中纯化或 分离的多核苷酸,例如已从通常邻近该片段的序列中移出的DNA片段。优选地,分离的多核 苷酸也至少90%不含其他成分,例如蛋白质、碳水化合物、脂质等。本文使用的术语"重组 多核苷酸"指通过将核酸改造成自然界中通常不存在的形式而体外形成的多核苷酸。例如, 所述重组多核苷酸可以是表达载体的形式。一般地,这样的表达载体包括与细胞中的待转 录核苷酸序列有效相连的转录和翻译调控核酸。
[0100] 本发明涉及使用可用作"探针"或"引物"的寡核苷酸。本文使用的"寡核苷酸"为 长度至多50个核苷酸的多核苷酸。它们可以是RNA、DNA或者其各自的组合或衍生物。寡 核苷酸一般是长度为10至30个核苷酸,通常15至25个核苷酸的相对短的单链分子,其通 常由与目的序列相同或互补的10至30或15至25个核苷酸构成。当用作探针或扩增反应 中的引物时,这种寡核苷酸的最小尺寸为用于在该寡核苷酸与靶核酸分子上的互补序列之 间形成稳定杂交所需的尺寸。优选地,所述寡核苷酸的长度为至少15个核苷酸,更优选至 少18个核苷酸,更优选至少19个核苷酸,更优选至少20个核苷酸,甚至更优选至少25个 核苷酸。用作探针的多聚核苷酸一般与可检测标记缀合,例如放射性同位素、酶、生物素、荧 光分子或化学发光分子。
[0101] 术语"多核苷酸变体"和"变体"等指表现出与参照核苷酸序列具有基本序列同一 性并且能够以与参照序列类似的方式起作用或与其具有相同活性的多核苷酸。这些术语还 涵盖与参照多核苷酸的区别在于至少一个核苷酸的添加、缺失或替换或者与天然存在的分 子相比时,具有一个或更多个突变的多核苷酸。因此,术语"多核苷酸变体"和"变体"包括 其中已添加或缺失或用不同核苷酸替换一个或更多个核苷酸的多核苷酸。在此方面,本领 域中众所周知的是,可对参照多核苷酸进行某些改变,包括突变、添加、缺失和替换,由此使 经改变的多核苷酸保留该参照多核苷酸的生物功能或活性。因此,这些术语涵盖编码表现 酶促活性或其他调控活性之多肽的多核苷酸或能够用作选择性探针或其他杂交剂的多核 苷酸。术语"多核苷酸变体"和"变体"还包括天然存在的等位基因变体。突变体可以是天 然存在的(也就是说,分离自天然来源)或合成的(例如,通过对核酸进行定点诱变)。优 选地,编码具有酶活性之多肽的本发明多核苷酸变体的长度为大于400,更优选大于500, 更优选大于600,更优选大于700,更优选大于800,更优选大于900,甚至更优选大于1000 个核苷酸,直至该基因的全长。
[0102] 本发明的寡核苷酸变体包括能够例如在接近本文限定的特异性寡核苷酸分子的 位置与小麦基因组杂交的不同大小的分子。例如,变体可包含额外的核苷酸(例如1、2、3、 4或更多)或更少的核苷酸,只要其仍与靶区域杂交即可。此外,可在不影响寡核苷酸与靶 区域的杂交能力的情况下替换少数核苷酸。此外,在本文限定的特异性寡核苷酸杂交的地 方,可容易地设计接近(例如,但不局限于50个核苷酸内)植物基因组区域杂交的变体。
[0103] 在多核苷酸和多肽的上下文中,"对应于"指如下的多核苷酸(a)与参照多核苷酸 序列的全部或一部分具有基本相同或互补的核苷酸序列或(b)编码与肽或蛋白质的氨基 酸序列相同的氨基酸序列。该短语在其范围内还包含具有与参照肽或蛋白质的氨基酸序列 基本相同之氨基酸序列的肽或多肽。用于描述两个或更多个多核苷酸或多肽之间的序列关 系的术语包括"参照序列"、"比较窗□"、"序列同一性"、"序列同一性百分数"、"基本相同"和 "相同的",并且根据限定的最小核苷酸或氨基酸残基数或者优选在全长内对其进行限定。 术语"序列同一性"或"同一性"在本文内可交替使用,指在比较窗口内序列在核苷酸对核苷 酸基础上或氨基酸对氨基酸基础上的相同程度。因此,如下计算"序列同一性百分数":在比 较窗口内比较两个经最佳比对的序列、确定两个序列中出现相同核酸碱基(例如,A、T、C、 G、U)或相同氨基酸残基(Ala、Pro、Ser、Thr、Gly、Val、Leu、lie、Phe、Tyr、Trp、Iys、Arg、 HiS、ASp、Glu、ASn、Gln、CyS和Met)的位置数目以得到匹配位置的数目、将匹配位置数除以 比较窗口中的位置总数(即,窗口尺寸)并将结果乘以100,从而得到序列同一性百分数。
[0104] 多核苷酸的%同一性可通过GAP (Needleman和Wunsch,1970)分析(GCG程序)确 定,其中空位产生罚分=5,空位延伸罚分=0. 3。除非另有说明,否则查询序列的长度为至 少45个核苷酸,并且GAP分析在至少45个核苷酸的区域内对两个序列进行比对。优选地, 查询序列的长度至少为150个核苷酸,并且GAP分析在至少150个核苷酸的区域内对两个 序列进行比对。更优选地,查询序列的长度至少为300个核苷酸,并且GAP分析在至少300 个核苷酸的区域内对两个序列进行比对,或者在各自的情况下为至少400、500或600个核 苷酸。还可对例如由Altschul等,1997公开的BLAST程序家族进行参照。对序列分析的详 细讨论可见于Ausubel等,1994-1998,第15章的第19. 3单元。
[0105] 当这样的序列的序列同一性为至少约98%,更特别地至少约98. 5%,相当特别地 约99%,尤其是约99. 5%,更尤其是约100%时,则认为核苷酸或氨基酸序列"基本类似", 相当特别地是相同的。明显地,当RNA序列被描述为与DNA序列基本类似或具有一定程度 的序列同一性时,则认为该DNA序列中的胸腺嘧啶(T)等于该RNA序列中的尿嘧啶(U)。
[0106] 对于限定的多核苷酸,应当理解的是,高于上文提供的那些的%同一性数值将涵 盖优选实施方案。因此,当适用时,根据最小%同一性数值,所述多核苷酸优选包含这样的 多核苷酸序列,其与对应的指定SEQ ID NO具有至少75%,更优选至少80%,更优选至少 85%,更优选至少90%,更优选至少91%,更优选至少92%,更优选至少93%,更优选至少 94%,更优选至少95%,更优选至少96%,更优选至少97%,更优选至少98%,更优选至少 99 %,更优选至少99. 1 %,更优选至少99. 2