本发明属于植物生物技术领域,具体涉及植物分子育种方法,更具体地涉及一个罗汉果甜甙合成调控基因sgsqe的核酸分子及其分子设计育种材料及其在葫芦科育种工作中的应用。
技术背景
罗汉果(siraitiagrosvenorii(swingle)c.jeffrey)是我国特有的一种名贵中药材,性凉味甘,属于葫芦科植物。罗汉果为历代朝庭贡品,被誉为“东方神果”、“长寿果”和“神仙果”,已有三百多年的药用历史。罗汉果主要产于桂林市临桂县和永福县的山区,是桂林名贵的土特产,在湖南南部、贵州、广东和江西等省区亦有分布。
我国罗汉果种植规模大,其中总产量的90%—95%来自广西,80%—85%来自广西桂林。罗汉果作为中药使用已有几个世纪的历史,是我国的传统中药,实味甘、性凉、无毒、入脾肺,具有清热解暑、化痰止咳、凉血舒骨、清肺润肠和生津止渴等功效;可治急慢性气管炎、咽喉炎、支气管哮喘、百日咳、糖尿病、肥胖症、胃热、便秘、急性扁桃体炎等症,被誉为“神仙果”。现代药理研究还表明,罗汉果具有防癌抗癌、抑菌护齿的作用。目前以罗汉果为主原料的中成药功效多为润咽止咳,如罗汉果含片、罗汉果蜜炼枇杷膏、罗汉果止咳糖浆、罗汉果玉竹颗粒等产品。罗汉果还是天然的甜味剂,其最主要的有效成分是甜甙,甜度为蔗糖的250-350倍,比甜菊甙(甜度相当蔗糖100-150倍)和甘草素(甜度相当蔗糖50倍)要甜得多,这种甜甙味甜而纯正,无异味、热稳定好,在100℃水溶液中稳定,在120℃连续加热12小时以上仍不被破坏,是蔗糖和人工甜味剂(阿斯巴甜、安塞蜜、糖精钠等)的理想天然代替品。此外,因这种甜甙的热量极低,是肥胖病人及不适于用糖食的糖尿病人的理想调味剂。罗汉果的甜甙提取物具有抗氧化特性,可以有效地清除体内自由基,达到美容保健之功效。此外,其果实营养价值很高,含丰富的维生素c以及葡萄糖、蛋白质、脂类等,是美容和养生佳品。
近年来,对罗汉果的研究与开发,主要集中在甜甙的提取与应用上。甜甙v是世界最强甜味物质之一,一万分之一的甜度是5%蔗糖的425倍,最大的优点是不含热量,理化性能稳定,水溶性好,无任何毒副作用,适合所有人群长期食用,尤其适合糖尿病人、肥胖者、高血压患者。国际市场对甜苷的需求量逐年增长,由2004年的10吨,到2007年已达30吨。国内有多家企业进行甜苷提取,仅桂林就有六家,产品全部销往国外。可口可乐、百事可乐等多家大型饮料企业尝试用甜苷取代高热量、副作用大的蔗糖,但罗汉果产量不足,引起了国际社会的广泛关注。日本已应用甜苷制成多款休闲食品,深受消费者喜爱。目前国际市场对甜苷的年需求量仍维持在30吨左右,中国是甜味剂第一消费大国,却没有企业使用甜苷,后市需求空间巨大。
甜味剂是食品添加剂的一种,世界上普遍使用的高甜度甜味剂有:糖精钠、阿斯巴甜、甜蜜素、乙酰磺胺酸钾等。这些甜味剂是人工合成的,且广泛应用于食品行业,但是许多已被证明安全性或味质存在问题:长期过量食用糖精钠,易对人体肝脏和神经系统造成危害。因此从天然植物中寻求更安全、更优质的甜味剂或其前体物质成为一种趋势和潮流,而罗汉果因含有丰富的甜甙,被认为是一种非常有潜力的甜味植物品种,它集天然甜味剂与保健品于一体,被国际公认为综合性状最佳的天然甜味剂,市场前景非常看好。
罗汉果的主要活性成分包括三萜及其苷类,还含有黄酮、多糖、氨基酸、甘露醇、维生素等。罗汉果甙属是葫芦烷三萜类,早在上世纪七、八十年代日本学者就对罗汉果的三萜类成分进行了较为系统的研究,从干燥果实中分离得到赛门苷ⅰ(sianenosideⅰ)、罗汉果苷ⅱe(mogrosideⅱe)、罗汉果苷(mogrosideⅲ)、罗汉果苷ⅲe(mogrosideⅲe)、罗汉果苷ⅳ(mogrosideⅳ)、罗汉果苷ⅴ(mogrosideⅴ)等葫芦烷型三萜类化合物。其中的罗汉果苷ⅴ是罗汉果干果的主要成分,约占干果的0.5%。罗汉果苷ⅳ、罗汉果苷ⅴ、赛门苷ⅰ的万分之一浓度的水溶液分别是5%蔗糖水溶液甜度的392倍、425倍、563倍。罗汉果中罗汉果苷的生物合成途径尚不完全清楚。基于对其他植物中三萜类皂苷(类异戊二烯途径)合成途径的了解,以及关于罗汉果苷合成的有限报道,经过多位学者的努力,又从罗汉果中分离鉴定了大量的三萜皂苷、三萜酯等成分30多个。以前的研究提出了一种罗汉果甜甙生物合成途径(见图1),在上游途径中通过甲羟戊酸(mva)和质体2-c甲基-d-角豆醇-4-磷酸酯(mep)合成三萜类化合物并且涉及法呢基二磷酸酯(fpp)转化为角鲨烯,然后到2,3-氧化角鲨烯,然后依次进行环化,氧化等修饰。角鲨烯合成酶(sqs)催化两种fpp转化为角鲨烯,这是甾醇,三萜和油菜素类固醇(brs)生物合成的第一个步骤。这种酶促反应发生在内质网(er)的膜上,甾醇和brs在膜的流动性和渗透性中起重要作用,也可作为信号传导植物生长发育中的分子。角鲨烯环氧酶(sqe)是氧化角鲨烯环化酶(osc)基因家族的成员,并且催化2,3-氧化角鲨烯环化成环木菠萝烯醇或葫芦烯二烯醇。sqe催化的这一步是导致甾醇或三萜合成的关键分支点。通过细胞色素p450-依赖性单加氧酶(cyp450)和糖基转移酶(gt)的进一步修饰最终产生类固醇和三萜类化合物。
为了开展罗汉果基因工程的工作以及阐明罗汉果甜甙代谢机制,罗汉果基因克隆和功能鉴定的工作非常重要,是罗汉果分子育种的研究和应用基础。sqe已经在很多物种中鉴定。据其他文献报道,sqe的过度表达可能会增加植物甾醇,三萜类化合物和类固醇。利用聚合酶链式反应(race-pcr)方法克隆了萜和甾体生物合成的关键酶罗汉果鲨烯环氧酶(sqe)和环木菠萝烯醇合成酶(cas)。sqe和cas在果实中的含量显着高于其他组织,这表明类固醇和甜甙是果实中相同前体的竞争者。并且可以通过调节基因表达来促进果实中甜甙含量的改善。结合计算机模拟预测和亚细胞定位,表明sqe可能位于细胞质或细胞骨架上,而cas可能位于细胞核或细胞质中。这些结果将为进一步研究sqe和cas基因奠定基础在罗汉果中起作用,为通过调节基因表达提高果实中甜甙含量提供研究基础。
本发明通过研究利用pacbiorsii平台(pacficbiosciences;usa)对罗汉果基因组进行精细的单分子测序,并通过smrt技术进行基因组组装。此外,利用illuminahiseqx-ten平台(illumina;ca,usa)对罗汉果根、叶和果实进行rna-seq测序,并结合基因家族遗传进化分析,筛选甜甙合成相关基因,成功定位并克隆了一个新的角鲨烯环氧酶基因(sgsqe)。在进化过程中sqe基因所承担的功能更加重要,与之相关的合成产物是很多代谢产物合成的共同前体,这导致了sqe基因在进化过程中相对于甜甙合成下游的基因更加保守。这表明在罗汉果甜甙合成过程中sqe基因的表达产物可能通过控制中间产物的合成调节甜甙的合成,是关键的限速酶。该基因在果实中的表达量显着高于其他组织,这表明果实中甜甙合成中前体的竞争中,可以通过调节该基因的表达促进果实中甜甙含量的改善。本发明还提供了一种获得高甜甙含量罗汉果品种的方法,对罗汉果育种工作具有重要的意义和应用价值。
技术实现要素:
本文提到的所有参考文献都通过引用并入本文。
除非有相反指明,本文所用的所有技术和科学术语都具有与本发明所属领域普通技术人员通常所理解的相同的含义。除非有相反指明,本文所使用的或提到的技术是本领域普通技术人员公知的标准技术。材料、方法和例子仅作阐述用,而非加以限制。
本发明提供了一个改善果实中甜甙含量的调节基因sgsqe,所述该基因的过量表达可影响其对罗汉果果实罗汉果甜甙的含量,其核苷酸序列选自下列组的序列之一:
(a)如seqidno:1或2所示的核苷酸序列;
(b)其编码氨基酸序列如seqidno:3所示的核苷酸序列。
本领域技术人员应该知晓,本发明所述的改善果实中甜甙含量的调节基因sgsqe还包括与sgsqe基因的核苷酸序列或蛋白序列高度同源,并且具有同样的通过调节该基因表达促进果实中甜甙含量的改善功能等高度同源的价体序列。所述高度同源的功能等价体序列包括在严谨条件下能够与具有seqidno:1或2所示序列的dna杂交的dna序列,或是其编码的氨基酸序列与seqidno:3所示的蛋白氨基酸序列具有85%以上相似性的核苷酸序列。
功能等价体序列还包括与本发明所公开的sgsqe基因所示的序列有至少80%、85%、90%、95%、98%、或99%序列相似性,且具有调控罗汉果甜甙含量功能的dna序列,可以从任何植物中分离获得。其中,序列相似性的百分比可以通过公知的生物信息学算法来获得,包括myers和miller算法、needleman-wunsch全局比对法、smith-waterman局部比对法、pearson和lipman相似性搜索法、karlin和altschul的算法,这对于本领域技术人员来说是公知的。
本发明所述的基因序列可以从任何植物中分离获得,包括但不限于芸苔属、玉米、小麦、高粱、两节荠属、白芥、蓖麻子、芝麻、棉籽、亚麻子、大豆、拟南芥属、菜豆属、花生、苜蓿、燕麦、油菜籽、大麦、燕麦、黑麦(rye)、粟、蜀黍、小黑麦、单粒小麦、斯佩尔特小麦(spelt)、双粒小麦、亚麻、格兰马草(grammagrass)、摩擦禾、假蜀黍、羊茅、多年生麦草、甘蔗、红莓苔子、番木瓜、香蕉、红花、油棕、香瓜、苹果、黄瓜、石斛、剑兰、菊花、百合科、棉花、桉、向日葵、芸苔、甜菜、咖啡、观赏植物和松类等。优选地,植物包括玉米、大豆、红花、芥菜、小麦、大麦、黑麦、稻、棉花和高粱。
本发明还提供了一种表达盒,所述表达盒含有本发明所公开的育性调节基因sgsqe的dna序列,所述甜甙含量调节基因的核苷酸序列选自下列组的序列之一:
(a)如seqidno:1或2所示的核苷酸序列;
(b)其编码氨基酸序列如seqidno:3所示的核苷酸序列。
具体地,上述表达盒中的罗汉果鲨烯合成酶基因还可操作性的连有一个可驱动其表达的启动子,所述启动子包括但不限于组成型表达启动子、诱导型启动子、果实特异表达启动子、时空特异表达启动子等。本发明所述的组成型启动子的基因表达不具有组织和时间特异性,外界因素对组成型启动子启动的外源基因表达几乎没有影响。所述组成型启动子包括但不限于camv35s、fmv35s、水稻肌动蛋白(actin1)启动子、玉米泛素(ubiquitin)启动子等。本发明所述的组织特异性启动子除包含应有的一般启动子元件外,还具有增强子以及沉默子的特性,该类启动子的优点在于可启动基因在植物特定组织部位的表达,避免外源基因的不必要表达,从而节约植物体的整体能量消耗。本发明所述的诱导型启动子是指在某些特定的物理或化学信号的刺激下,可以大幅度地提高基因的转录水平的启动子,目前已经分离的诱导型启动子包括但不限于逆境诱导表达启动子、光诱导表达启动子、热诱导表达启动子、创伤诱导表达启动子、真菌诱导表达启动子和共生细菌诱导表达启动子等。本发明采用罗汉果鲨烯合成酶基因的自身启动子,其核苷酸序列如seqidno:4所示。
本发明上述表达盒,还进一步的可以包含一个筛选基因,所述筛选基因可以用于将含有该表达盒的植株、植物组织细胞或载体筛选出来。所述筛选基因包括但不限于抗生素抗性基因、或是抗除草剂基因、或是荧光蛋白基因等。具体地,所述筛选基因包括但不限于:氯霉素抗性基因、潮霉素抗性基因、链霉素抗性基因、奇霉素抗性基因、磺胺类抗性基因、草甘磷抗性基因、草丁膦抗性基因、bar基因、红色荧光基因dsred、mcherry基因、青色荧光蛋白基因、黄色荧光蛋白基因、荧光素酶基因、绿色荧光蛋白基因等。
本发明还提供了一种调高罗汉果甜甙含量的方法,通过影响sgsqe基因的核苷酸序列或者调控sgsqe基因的转录表达来调控植物的育性。所述影响罗汉果甜甙含量是指通过调控sgsqe基因的表达,从而使所述植株的次生代谢发生改变,如导致植株甜甙合成途径中底物的量。具体地,取决于具体应用需求,可以通过多种方法来影响sgsqe基因在植物体内的表达,从而达到调控甜甙含量的效果。更具体地,调控sgsqe基因的表达可以使用许多本领域普通技术人员可获得的工具进行,例如,通过突变、诱变、反义基因的转入、共抑制或发夹结构的引入、基因的互补等。
本发明还提供一种获得sgsqe基因果实口感突变体材料的方法,所述方法通过突变植物内源的次生代谢调控基因sgsqe,或突变与其高度同源的基因的核苷酸序列,使该植物体次生代谢产物成分组成改变的过程。所述次生代谢调控基因sgsqe的核苷酸序列如seqidno:1或2所示,所述育性调控基因sgsqe的氨基酸序列如seqidno:3所示。所述“突变”包括但不限于以下方法,如用物理或化学的方法所导致的基因突变,化学方法包括用ems等诱变剂处理所导致的诱变,所述突变还可以是点突变,也可以是dna缺失或插入突变,也可以是通过rnai等基因沉默手段或者通过基因定点突变的方法,所述基因定点突变的方法包括但不限于zfn定点突变方法、talen定点突变方法、和/或crispr/cas9等基因编辑方法。
本发明上述突变体材料的应用,还包括上述dna序列或突变体材料在以下(a)至(b)中任一项中的应用:
(a)培育罗汉果品种或品系;
(b)培育葫芦科其它植物品种或品系。
本发明还提供了一个sgsqe基因的启动子,相应启动子的序列为sgsqe基因从atg到上游大约1500bp核苷酸组成的序列,更具体地,在水稻中,所述sgsqe基因启动子的核苷酸序列如seqidno:4所示。含有seqidno:4所示的核苷酸序列,或包含与seqidno:4中所列核苷酸序列具有90%以上相似性的核苷酸序列,或包含来源于seqidno:4序列上的500个及500以上连续的核苷酸片段,并且可以驱动与该启动子操作性连接的核苷酸序列在植物不同组织中的表达。含有上述序列的表达载体、转基因细胞系以及宿主菌等均属于本发明的保护范围。扩增本发明所公开的seqidno:4启动子的任一核苷酸片段的引物对也在本发明的保护范围之内。
本发明所提供的启动子核苷酸序列还可用于从罗汉果以外的其它植物中分离相应序列,尤其是从其他葫芦科植物中进行同源克隆。根据这些相应序列与本文所列启动子序列间的序列同源性,或与本启动子基因的同源性,使用如pcr、杂交等技术来鉴别分离这些相应序列。因此,根据它们与本发明所列的seqidno:4启动子序列(或其片段)间的序列相似性而分离的相应片段,也包括在实施方案中。
本发明所述的“启动子”是指一种dna调控区域,其通常包含能指导rna聚合酶ii在特定编码序列的合适转录起始位点起始rna合成的tata盒。启动子还可包含其它识别序列,这些识别序列通常位于tata盒的上游或5’端,通常被称为上游启动子元件,起调控转录效率的作用。本领域技术人员应该知晓,虽然已经鉴定了针对本发明公开的启动子区域的核苷酸序列,但是分离和鉴定处于本发明鉴定的特定启动子区域的tata盒上游区域的其它调控元件也在本发明的范围内。因此,本文公开的启动子区域通常被进一步界定为包含上游调控元件,例如用于调控编码序列的组织表达性和时间表达功能的那些元件、增强子等。以相同的方式,可以鉴定、分离出使得能在目的植株中进行表达的启动子元件,将其与其它核心启动子一起使用,以验证其在目的植株的表达。
核心启动子指起始转录所需的最小限度的序列,例如被称为tata盒的序列,这是编码蛋白质的基因的启动子通常都具有的。因此,可选地,sgsqe基因的上游启动子可与其自身的或来自其它来源的核心启动子关联使用。核心启动子可以是任何一种已知的核心启动子,例如花椰菜花叶病毒35s或19s启动子(美国专利no.5,352,605)、泛素启动子(美国专利no.5,510,474)、in2核心启动子(美国专利no.5,364,780)或玄参花叶病毒启动子。
所述基因启动子的功能可以通过以下方法进行分析:将启动子序列与报告基因可操作性连接,形成可转化的载体,再将该载体转入植株中,在获得转基因后代中,通过观察报告基因在植物各个组织器官中的表达情况来确认其表达特性;或者将上述载体亚克隆进用于瞬时表达实验的表达载体,通过瞬时表达实验来检测启动子或其调控区的功能。
用来测试启动子或调控区域功能的适当表达载体的选择将取决于宿主和将该表达载体引入宿主的方法,这类方法是本领域普通技术人员所熟知的。对于真核生物,在载体中的区域包括控制转录起始和控制加工的区域。这些区域被可操作地连接到报告基因,所述报告基因包括yfp、uida、gus基因或荧光素酶。包含位于基因组片段中的推定调控区的表达载体可以被引入完整的组织,例如阶段性花粉,或引入愈伤组织,以进行功能验证。
此外,本发明的启动子还可与并非sgsqe基因的核苷酸序列相连,以表达其它异源核苷酸序列。本发明的启动子核苷酸序列及其片段和变体可与异源核苷酸序列一起组装在一个表达盒中,用于在目的植株中表达。所述表达盒有合适的限制性酶切位点,用于插入所述启动子和异源核苷酸序列。这些表达盒可用于对任何植株进行遗传操作,以获得想要的相应表型。
本发明所述的将核苷酸序列、载体或表达盒转入植株或引入植株或对植株进行转化,均指通过常规的转基因方法,将核苷酸序列、载体或表达盒转入到受体细胞或受体植株中。植物生物技术领域技术人员已知的任何转基因方法均可被用于将重组表达载体转化进植物细胞中,以产生本发明的转基因植物。转化方法可包括直接和间接的转化方法。合适的直接方法包括聚乙二醇诱导的dna摄入、脂质体介导的转化、使用基因枪导入、电穿孔、以及显微注射。所述转化方法也包括农杆菌介导的植物转化方法等。
本发明还提供了一种高甜甙罗汉果的生产方法,其包括:
(a)构建本发明所提供的表达盒;
(b)将步骤(a)获得的表达盒导入植物细胞;
(c)再生出转基因植物;和
(d)选择出转基因植物;并且
(e)任选地,增殖步骤(d)获得的植物以获得后代。
本发明的转基因植物使用植物生物技术领域技术人员已知的转化方法制备。任何方法可被用于将重组表达载体转化进植物细胞中,以产生本发明的转基因植物。转化方法可包括直接和间接的转化方法。合适的直接方法包括聚乙二醇诱导的dna摄入、脂质体介导的转化、使用基因枪导入、电穿孔、以及显微注射等。在本发明的具体实施方式中,本发明使用了基于土壤杆菌的转化技术(可参见horschrb等(1985)science225:1229;whiteff,vectorsforgenetransferinhigherplants,transgenicplants,第1卷,engineeringandutilization,academicpress,1993,pp.15-38;jenesb等.techniquesforgenetransfer,transgenicplants,第1卷,engineeringandutilization,academicpress,1993,pp.128-143,等)。土壤杆菌菌株(例如根瘤土壤杆菌或毛根土壤杆菌)包含质粒(ti或ri质粒)和t-dna元件,所述质粒和元件在用土壤杆菌转染后被转移至植物,而t-dna被整合进植物细胞的基因组中。t-dna可位于ri-质粒或ti-质粒上,或独立地包含在所谓的双元载体中。土壤杆菌介导的转化方法描述于例如中。土壤杆菌介导的转化最适合双子叶植物,但是也适合单子叶植物。土壤杆菌对植物的转化描述于例如中。转化可导致瞬时或稳定的转化和表达。尽管本发明的核苷酸序列可被插入落入这些广泛种类中的任何植物和植物细胞中,但是其尤其适用于作物植物细胞。
与现有技术相比,本发明具有如下的有益效果:本发明提供了一种罗汉果角鲨烯环氧酶基因及其启动子,该基因的调控表达体系用来调高罗汉果甜甙含量或改变葫芦科植物果实口感的育种生产,对于突破并改良罗汉果和其它葫芦科植物有重要意义。
附图说明
图1为罗汉果甜苷的生物合成途径示意图。
图2为罗汉果的实验材料生长于湖南省怀化市中方县。根据实验要求按时采摘,图中包括正在开花的雌株、罗汉果果实生长、罗汉果采摘和罗汉果的种子与果肉。
图3为罗汉果基因的发现和克隆技术路线。对罗汉果进行全基因组精细测序、组装,并对果实、叶片进行rna-seq分析,找到特异在罗汉果果实中特异表达的sqe基因。
图4为rpkm层次聚类图----发现果实特异表达的基因。15576个罗汉果基因被聚类成8543个基因家族,其中有4178个基因为罗汉果所特有,一部分为罗汉果果实特异基因。其中以log2(rpkm+1)值进行聚类,红色表示高表达基因,蓝色表示低表达基因。颜色从红到蓝,表示log2(rpkm+1)从大到小。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例1、罗汉果全基因组三代测序
罗汉果样品的种苗购自广西省桂林市永福地区,为最为广泛种植的青皮果品种。种苗种植在湖南省怀化市中方县(如图2所示)。于8-10月期间采集了罗汉果根、芽、叶、雄花和雌花、授粉后不同时期的果实。样品液氮冷冻后储存在-80摄氏度的冰箱内。罗汉果茎尖用于提取基因组dna,用于基因组测序试验。
罗汉果总dna的提取参照改良的ctab法,具体试剂配制与操作流程如下:
1.改良ctab缓冲液:
2%ctab,1.4mol/lnacl,20mmol/ledta,100mmol/ltris-hcl(溶液终ph为8.0)。
2.400mlctab配方:
8gctab;32.7g氯化钠;3gedta-na;4.85gtris-hcl。
3.方法步骤:
①植物组织研磨后,加入适量改良ctab提取液,56℃温育0.5~1h,每隔5至10min轻柔颠倒混匀1次;
②冷却至室温后,直接加入等体积的氯仿/异戊醇(24:1)抽提;
③室温12000rpm以上离心10min;
④取上清加入0.8倍体积冷冻异丙醇沉淀dna,用冰冷75%无水乙醇清洗1至2次,晾干;
⑤加200μlten和2μlrnase(100mg/ml),37℃孵育30min,期间用tip将沉淀捣碎,尽量使沉淀完全溶解。
4.giagenq13343试剂盒方法纯化基因组dna
①qf放置水浴锅中预热至55℃;
②用10倍体积的qbt稀释待纯化dna溶液,颠倒混匀,静置5~10min,14000rpm离心10min,上清备用;
③用2/5mlqbt平衡柱子;
④将2中上清加入柱子,流穿液收集,重复一次;
⑤用qc洗2~3次,每次2.5ml。
本研究提取了高质量的dna,构建了2个插入片段为20kb的pacbiorsii文库,利用第三代测序平台pacbiorsii对dna进行非扩增长片段测序,总共44个smrtcells,获得罗汉果基因组原始测序数据。
如图3所示,本研究中,44个smrt(单分子实时)cells中获得了大约31gb的rawdata数据量,覆盖深度约达到73.8倍,rawreads的平均长度为11401bp,而n50长度为15754bp。原始reads通过去除低质量reads、接头污染之后,subreads平均长度可达7781bp,而subreadsn50长度为11898bp。去除低质量碱基以及测序接头以后,最终保留了82%的rawdata数据量,共约25.42gb,平均覆盖深度达到60.52倍。对于罗汉果品种青皮果基因组进行了超过100x的重测序,然后利用约50g的双端测序的读段进行了k-mer分析。通过kmergene软件对读长进行最佳k值估计,得到最佳k值为112,并对112-mer的序列进行分布分析。
通过单分子测序技术对罗汉果全基因组进行测序,获得了一个新的高品质的罗汉果基因组,见表1,组装使用了31gb(~73.8x)长单分子实时测序(smrt)读取。最后的基因组组装约467.1mb,contign50长度为556347bp,代表了对前数据进行了12.7倍的改善。表2为罗汉果蛋白编码基因的预测和注释。这是首次对罗汉果全基因组基因进行注释,共注释了237.3mb重复序列和21731个蛋白编码基因。图4为rpkm层次聚类图,即通过该图寻找到罗汉果果实特异表达的基因。其中15576个罗汉果基因被聚类成8543个基因家族,其中有4178个基因为罗汉果所特有,一部分为罗汉果果实特异基因。
表1罗汉果基因组从头拼接的统计结果
表2罗汉果蛋白编码基因的预测和注释
实施例2、罗汉果转录组的测序、组装与分析
罗汉果转录组测序的品种与基因组测序品种一致,均为青皮果,从广西省永福县引进,在四川省苍溪县种植。在不同的生长发育阶段,分别采取雌性植株的叶片、雄性植株的叶片,邻近果实的叶片,新鲜的幼根、受精三天后的果实(3daa),以及受精20天的果实(20daa)共6个样品,每一个样品,至少有两个生物学重复。所有样品采集后,使用ddh2o清洗三次,而后用吸水纸擦干后迅速包好放于液氮中存储备用。
rna提取按照试剂盒所示步骤进行,样品检测合格后,每个样品取3μg总rna作为起始原料来构建转录组测序文库。根据
表3罗汉果果实发育和叶片中上调基因的富集
实施例3、罗汉果角鲨烯环氧酶基因(sgsqe)的克隆
通过全基因组测序和转录组测序,分别得到罗汉果角鲨烯环氧酶基因(sgsqe)序列信息。提取提取罗汉果成熟果实的基因组dna和rna,通过pcr技术分别合成引物,克隆了该基因的片段、cdna片段和启动子,将其基因命名为sgsqe5。其中包括启动子dna片段(seqidno:4);cdna序列(seqidno:2)、基因组序列(seqidno:1)和氨基酸序列(seqidno:3)。
实施例4、sgsqe基因在罗汉果果实中的表达分析
根据sgsqe基因的cdna序列设计引物,同时以罗汉果ubiquitin基因作为内参对照设计引物。分别提取罗汉果材料不同组织的总rna并合成cdna模板,再利用实时荧光定量pcr方法,分析sgsqe基因分别在罗汉果不同器官组织或时期的表达水平,其中包括:根、茎、叶、不同时期果实、雌蕊和雄花。sgsqe基因在扬花期的根、茎、叶、雌蕊以及雄花各发育阶段中均未检测到,但在罗汉果果实中相对较高,该实验表明sgsqe基因的表达与罗汉果果实次生代谢紧密联系。
实施例5、罗汉果角鲨烯环氧酶基因(sgsqe)的与甜甙合成关联实验
取不同发育阶段的罗汉果果实,定量pcr检测sgsqe基因的表达,同时提取相对应阶段罗汉果果实中罗汉果甜甙v,并检测含量。实验表明在果实发育早期(授粉后1-50天)sgsqe基因的表达与甜甙含量呈正相关。
序列表
<110>怀化兴科创生物技术有限公司
<120>新的罗汉果角鲨烯环氧酶基因(sgsqe)的应用
<160>4
<170>siposequencelisting1.0
<210>1
<211>3654
<212>dna
<213>罗汉果(siraitiagrosvenoriiswinglec.jeffrey)
<400>1
atggtggatcagtgcgcgttgggatggatcttggcctccgcgctgggcctcgtaattgcg60
ctttgtttcttcgtggctccgaggaggaatcacagaggagtggattcgaaggagagggac120
gagtgcgtccaaagcgctgcaaccacgaagggagaatgcagattcaacgatcgcgacgtc180
gacgttatcgtcgttggcgccggtgttgccggttccgctcttgctcacactcttggcaag240
gtaactaggtcttatcgatttatttgaatctattcttccctctttctcttgcgtttttcc300
ccgtcccgttctcgccagcacacatcataaattcctctcccttcgatttttttttctttt360
tgccgaaaacttggcatattggtgttctgttctgttgatacatatatgtaaagttgtaaa420
cgtacttcccaacccaaccctcaaaaagataagaaaagaagaagaagaagaaaagagaag480
aatccaacgcagggttatcaagtatgggtgtgaggaaaaaataaaacgaaaaaaggagaa540
aaaaatcaaaaaatcaaaactctgtggtgtaaattgcacgtccatgaatcaatgaaacga600
ttgggtgatggttttttttttttttttctttttttcccttttaactcctcatgagcacag660
gtatatagacaaaattatttggcaaccagttcagttttataataatggacaaaagcagtg720
ctccgtatttcgatgtaaaattttttatgactgctgtgctaaactatggacaagatgcga780
atttatatttaaaatcgtaacccaaaacctgaattctgctattattattattatttttta840
ctatatagagacctttttaaatctacttttttatgatactcgattttgtgtagcgtttga900
tatctccatctctcgttcacatcgtattttgtaccacatgagctaaccactctagattgc960
gagtagattcttcattttttccctccgttatctttgattcgtactttatgcaaatcgata1020
ttcatctcttgcattctatttatccccccaaaaaaaatctaggcgagaaatttatgtttt1080
taagcaaaaagtcaattattggagtaggattattttttaatatttccacgccactagtct1140
tggtcgatatttttcctctcttttgtactcgttattcttcatgaagcaagctgatcaaaa1200
taattatggtaggatggtcgtcgagttcatgtaattgaaagagacttgacagagcctgac1260
agaatcgttggtgaattattacaacctgggggttacctcaaattgattgaattaggactt1320
caaggttagtactagcttggagttatttctttcccaactctttttaagtgcaatattcat1380
caattattaaggaacaaacgtttttatactgcagactgcgtcgaggagattgatgctcaa1440
agggtgtatggctacgcccttttcaaggatggaaagaacactcgactctcttacccattg1500
gaaaattttcactctgatgtatctggaagaagctttcacaacgggcgcttcatacagaga1560
atgagggagaaggctgcttcccttcccaagtatgtttctttcgtctttgtttgctgctcc1620
ttgaattcttggagtatgagtttcacgctttcagttttgaagatcttacgaatgtctcga1680
catcagatgttaaaagttaattttgatctctagttatatttcctcaatacacttatgtga1740
gtattagctttagcgttttgatgattcatgcacttcctctgagttatactatgatatgag1800
cttttgaaatcaatgttcaaccctgtttttcgattttgaagcgagttgatatcaaatttg1860
tatatatgtctatggatccaagacaatttctttgcgtttcttttagagccaccctattga1920
aaagttatagatagagagtccaaagcatacattcatcaccgatccgccatcgatacttca1980
gttctgcatttattttgatcggttgatatataactagtcgggtttcactcatcaatgaaa2040
atttttatattctctgtttccatttcttgtagtgtcagattggagcaagggacagttact2100
tcgctgcttgaagaaaagggaacgatcaaaggtgtgcagtataagtctaaaaatggtgaa2160
gaaaaacagcatatgcacctctgaccattgtttgtgatggctgcttctcaaacttgcgcc2220
gctctctctgcaaccctatggtaaggaggcttcaattgtgtagtggcatctcaaactata2280
caccgattttcttttaggattggagtggctgctgactattcaaattacagtttgcctcta2340
taagtgagaagccttatctgagtattctgtgccacggtaagaaaacattaagttcttcaa2400
attctgagccctttttctgctctaccttttgcaggttgatgttccctcttattttgtggg2460
attagttctagagaattgtgagcttccttttgcaaatcacgggcacgttatcctcggaga2520
tccttctcccattttattctaccagattagcaggaccgagatccgttgtttggttgatgt2580
tcctggtcagaaggttccttctatagcaaatggtgaaatggagaaatatttgaagactgt2640
agtagctcctcaggtacaattttttcaatagtccgttcacaccaacttgcattttaaccc2700
gtaaatgttttgagttattgtctaaatgccatgatttctagtgctttgaactgatgaatt2760
accgttactcgtgcaggttcccccgcaaatctacgattcctttatcgctgctatcgacaa2820
gggtaatataaggacaatgccaaacagaagcatgcctgctgctccccacccaacgcccgg2880
tgccttactgatgggtgatgctttcaacatgcgccaccctcttaccggtggaggaatgac2940
cgtagcattgtctgatatagttgtattgcggaacctcctcaagcctctgaaggacttgag3000
tgatgcatctaccctctgcaagtatcttgaatccttttacactttgcgaaaggtatgttt3060
tagtttatgttggcattcctgaaagccattttacgattggcgtaaaacaaagcaaactta3120
tcaattgatcgatcaatctttcatctcaaactgcagccagtggcttcgaccatcaacaca3180
ttggcaggggcattatacaaggtcttttgtgcatcaccagatcaagctaggaaggaaatg3240
cgacaagcttgcttcgattacttgagccttggaggaatattctcaaatggacctgtctcc3300
ttgctttcagggttgaatcctcgccccttaagtttggttctccatttctttgccgtcgcg3360
atatacggagttggtcgcttattacttccatttccttcagtgaaaggcatctggattgga3420
gctagattgatctatgtgagttgaacaaacacaaaacaccttcatcttctcctctgaaaa3480
catcaaactatatatagagaacctgtttgtaatgagaaatgaattggtttgttgcagagc3540
gcatcaggtatcatattcccaattatacgggcggaaggagttagacagatgttcttccct3600
gcaactgttcctgcttattatagaagtccaccagtgtttaaacccatagtatga3654
<210>2
<211>1521
<212>dna
<213>罗汉果(siraitiagrosvenoriiswinglec.jeffrey)
<400>2
atggtggatcagtgcgcgttgggatggatcttggcctccgcgctgggcctcgtaattgcg60
ctttgtttcttcgtggctccgaggaggaatcacagaggagtggattcgaaggagagggac120
gagtgcgtccaaagcgctgcaaccacgaagggagaatgcagattcaacgatcgcgacgtc180
gacgttatcgtcgttggcgccggtgttgccggttccgctcttgctcacactcttggcaag240
gatggtcgtcgagttcatgtaattgaaagagacttgacagagcctgacagaatcgttggt300
gaattattacaacctgggggttacctcaaattgattgaattaggacttcaagactgcgtc360
gaggagattgatgctcaaagggtgtatggctacgcccttttcaaggatggaaagaacact420
cgactctcttacccattggaaaattttcactctgatgtatctggaagaagctttcacaac480
gggcgcttcatacagagaatgagggagaaggctgcttcccttcccaagtatgtttctttc540
gtctttgtttgctgctccttgaattcttggatgtcagattggagcaagggacagttactt600
cgctgcttgaagaaaagggaacgatcaaaggttgatgttccctcttattttgtgggatta660
gttctagagaattgtgagcttccttttgcaaatcacgggcacgttatcctcggagatcct720
tctcccattttattctaccagattagcaggaccgagatccgttgtttggttgatgttcct780
ggtcagaaggttccttctatagcaaatggtgaaatggagaaatatttgaagactgtagta840
gctcctcaggttcccccgcaaatctacgattcctttatcgctgctatcgacaagggtaat900
ataaggacaatgccaaacagaagcatgcctgctgctccccacccaacgcccggtgcctta960
ctgatgggtgatgctttcaacatgcgccaccctcttaccggtggaggaatgaccgtagca1020
ttgtctgatatagttgtattgcggaacctcctcaagcctctgaaggacttgagtgatgca1080
tctaccctctgcaagtatcttgaatccttttacactttgcgaaagccagtggcttcgacc1140
atcaacacattggcaggggcattatacaaggtcttttgtgcatcaccagatcaagctagg1200
aaggaaatgcgacaagcttgcttcgattacttgagccttggaggaatattctcaaatgga1260
cctgtctccttgctttcagggttgaatcctcgccccttaagtttggttctccatttcttt1320
gccgtcgcgatatacggagttggtcgcttattacttccatttccttcagtgaaaggcatc1380
tggattggagctagattgatctatagcgcatcaggtatcatattcccaattatacgggcg1440
gaaggagttagacagatgttcttccctgcaactgttcctgcttattatagaagtccacca1500
gtgtttaaacccatagtatga1521
<210>3
<211>506
<212>prt
<213>罗汉果(siraitiagrosvenoriiswinglec.jeffrey)
<400>3
metvalaspglncysalaleuglytrpileleualaseralaleugly
151015
leuvalilealaleucysphephevalalaproargargasnhisarg
202530
glyvalaspserlysgluargaspglucysvalglnseralaalathr
354045
thrlysglyglucysargpheasnaspargaspvalaspvalileval
505560
valglyalaglyvalalaglyseralaleualahisthrleuglylys
65707580
aspglyargargvalhisvalilegluargaspleuthrgluproasp
859095
argilevalglygluleuleuglnproglyglytyrleulysleuile
100105110
gluleuglyleuglnaspcysvalglugluileaspalaglnargval
115120125
tyrglytyralaleuphelysaspglylysasnthrargleusertyr
130135140
proleugluasnphehisseraspvalserglyargserphehisasn
145150155160
glyargpheileglnargmetargglulysalaalaserleuprolys
165170175
tyrvalserphevalphevalcyscysserleuasnsertrpmetser
180185190
asptrpserlysglyglnleuleuargcysleulyslysarggluarg
195200205
serlysvalaspvalprosertyrphevalglyleuvalleugluasn
210215220
cysgluleuprophealaasnhisglyhisvalileleuglyasppro
225230235240
serproileleuphetyrglnileserargthrgluileargcysleu
245250255
valaspvalproglyglnlysvalproserilealaasnglyglumet
260265270
glulystyrleulysthrvalvalalaproglnvalproproglnile
275280285
tyraspserpheilealaalaileasplysglyasnileargthrmet
290295300
proasnargsermetproalaalaprohisprothrproglyalaleu
305310315320
leumetglyaspalapheasnmetarghisproleuthrglyglygly
325330335
metthrvalalaleuseraspilevalvalleuargasnleuleulys
340345350
proleulysaspleuseraspalaserthrleucyslystyrleuglu
355360365
serphetyrthrleuarglysprovalalaserthrileasnthrleu
370375380
alaglyalaleutyrlysvalphecysalaserproaspglnalaarg
385390395400
lysglumetargglnalacyspheasptyrleuserleuglyglyile
405410415
pheserasnglyprovalserleuleuserglyleuasnproargpro
420425430
leuserleuvalleuhisphephealavalalailetyrglyvalgly
435440445
argleuleuleupropheproservallysglyiletrpileglyala
450455460
argleuiletyrseralaserglyileilepheproileileargala
465470475480
gluglyvalargglnmetphepheproalathrvalproalatyrtyr
485490495
argserproprovalphelysproileval
500505
<210>4
<211>1500
<212>dna
<213>罗汉果(siraitiagrosvenoriiswinglec.jeffrey)
<400>4
gagaattcataaaaagttatctttctcttaaatttaaaccttcatatataaataattcaa60
agtaactacacaatgtgacacaaataaaaagcgagaataaaggaagacatgtatattctt120
aatacgtttagaatacacaaaatatatttcaaattacaaaaaaattacatttatattttt180
ttagaatgttatattacaaatataggaaggagattcaaacttactctacctattaagaga240
gacaccataccacctataaggagagacagtgatgtataactacttaagttacggtaagtc300
acacatttacaatgatgttaaatcatataaatttatttttaattattattttagctaaaa360
taaaataatattataaaggatcataccatgtgaaattggaacggacaaatttaaagaact420
agaagacaacttttggaaaatctcagccaaggttgaaaattttataacaatacaatatta480
caacgcgcgcatatggatttttctttgaagagaatatattataatgtatttactatttta540
attattatcttatatgtcattcgagcatattgaataataagacacatattatcatcttaa600
aagtcatagatcattgatttatatgaataaaatgaatgttaaattataagattgtcctta660
aaatttgaaaagtgcatctaattaatttttgtattttaaaaagtttttaatagatcctta720
attttcaaggtcaagtctatatggtcttgtattttaaaaaattgctaataggtcttttaa780
cttttaattttgtgtgtactaggtccatattgttactttgttggtttgtgtgttatccct840
attatttaaggattatgtggtgagctgatttcgaagcgtttggtgaagcaaacgttaagc900
taataaagttaatgatatgacttattaaacacaaaattgaaagctcaagtaaatattata960
atatttttaaactatgagaacaaaatagatacaactattagatttttttgccagtcttaa1020
gcacaactcagtggagaaggcacctattataattcaagctcgatggttcaatttcacctg1080
caattgttgaattaaaaaaaaaaaaaatatatatatatatatataagttttcttaaaaaa1140
aaatactcaagactaaataaacatagaaaacaagaaccaaatttataatttataaatata1200
atttaaaatgaaataaacgaggacttttattacaatttacagcggaggagagaggtgcgc1260
tggtttaagcggcgcaagttagcatttcgggcgcaacatttcgagctgtaactgatttat1320
cgtatgcgactgctcgcgagcctcacatgtataaactagcgtcccttcccgaaaattctg1380
gccgcataacggaatcttgtagactgagcgagaaagttcgacatcgtcgtcgtcgccgtc1440
gccgcggcgatctccttgaggttgctgggattttgcattctcagaaataaggaaaaaaaa1500