专利名称:葡糖淀粉酶变体的制作方法
葡糖淀粉酶变体 本申请是申请日为2008年4月8日、发明名称为“葡糖淀粉酶变体”的中国专利申请200880110897. 6 (国际申请号PCT/US2008/004556)的分案申请。相关申请的交叉引用本申请要求2007年10月9日提出的国际专利申请PCT/US07/21683的优先权,而该国际专利申请要求2006年10月10日提出的美国临时申请60/850,431的优先权,两个专利申请的内容整体纳入本文做为参考。 发明领域本发明涉及葡糖淀粉酶变体。具体地,本发明涉及葡糖淀粉酶的淀粉结合区(SBD)中的变体。本发明还涉及与对应的亲本葡糖淀粉酶相比具有改变的性质(例如,提高的热稳定性和/或增加的比活性)的变体。本发明还提供了包含变体葡糖淀粉酶的酶组合物;包含编码所述变体的多核苷酸的DNA构建体;和在宿主细胞中产生葡糖淀粉酶变体的方法。
背景技术:
葡糖淀粉酶(葡聚糖l,4-a -葡糖水解酶,EC3. 2. I. 3)是淀粉水解外切糖酶,其催化从淀粉或相关寡糖和多糖分子的非还原性末端去除连续的葡萄糖单元。葡糖淀粉酶可以水解线性的和分枝的糖苷键连接的淀粉(例如,直链淀粉和支链淀粉)。葡糖淀粉酶可以通过多种株系的细菌,真菌,酵母和植物生产。尤其有趣和商业上重要的是,葡糖淀粉酶是细胞外产生的真菌酶,例如来自曲霉属(Svensson等,(1983)Carlsberg Res. Commun. 48:529-544 ;Boel 等 ,(1984)EMBO J. 3 :1097-1102 ;Hayashida等.,(1989) Agric Biol Chem. 53 :923-929 ;USP 5024,941 ;USP4, 794,175和W088/09795);踝节菌属(USP4, 247,637 ;USP6, 255,084 和 USP6, 620,924);根霉属(Ashikari 等 ,(1986)Agric. Biol. Chem. 50 :957-964 ;Ashikari 等 ,(1989)App. Microbiol.和Biotech. 32 :129-133 和 USP4, 863,864);腐质霉属(W005/052148 和 USP4, 618579)和毛霉菌(Houghton-Larsen 等 ,(2003) Appl. Microbiol. Biotechnol. 62 :210-217)的菌株。编码这些酶的很多基因已经在酵母,真菌和/或细菌细胞内被克隆和表达。葡糖淀粉酶是商业上非常重要的酶,并已经应用于需要淀粉水解的各种应用(例如,从淀粉产生葡萄糖和其它单糖)。葡糖淀粉酶用于产生高果糖浆甜味剂,其构成美国超过50%的甜味剂市场。一般来说,葡糖淀粉酶可以,并且通常与a-淀粉酶一起用于淀粉水解过程,以水解淀粉为糊精,然后水解为葡萄糖。接着葡萄糖可以由其它酶(例如,葡萄糖异构酶)转化为果糖;结晶化;或用于发酵以产生多种终产物(例如,乙醇,柠檬酸,乳酸,琥珀酸,抗坏血酸中间体,谷氨酸,甘油和1,3_丙二醇)。通过在淀粉和/或包含纤维素材料的发酵中使用葡糖淀粉酶产生的乙醇可以用做燃料或用于酒精消费。尽管葡糖淀粉酶已经成功地用于商业应用许多年,但是仍然需要具有改变的性质,如提高的比活性和增加的热稳定性的新的葡糖淀粉酶。发明概述一方面,本发明涉及分离的葡糖淀粉酶变体,其包含催化区和淀粉结合区(SBD),所述SBD在对应于 SEQ ID NO :2 的位置493,494,495,501,502,503,508,511,517,518,519,520,525,527,531,533,535,536,537,538,539,540,545,546,547,549,551,561,563,567,569,577,579,和583或对应于亲本葡糖淀粉酶中等同位置的位置上包含一个或多个氨基酸取代。在一些实施方案中,通过序列同一性确定亲本葡糖淀粉酶中的等同位置,所述亲本葡糖淀粉酶与SEQ ID NO :2有至少80%氨基酸序列同一性和少于100%氨基酸序列同一性。在其他实施方案中,亲本葡糖淀粉酶与SEQ ID NO :2有至少90%或至少95%氨基酸序列同一性。在额外实施方案中,通过与SEQ ID NO :2或SEQ ID NO :11的结构同一性确定等同位置。在一些实施方案中,亲 本葡糖淀粉酶包含与选自SEQ ID NO 11, SEQ ID NO :385,SEQ ID NO 386, SEQ ID NO 387, SEQ ID NO:388,或 SEQ ID NO :389 的 SBD 有至少 95%氨基酸序列同一性的SBD。在其他实施方案中,催化区与SEQ ID NO :3的序列有至少90%氨基酸序列同一性。在其他实施方案中,一个或多个氨基酸取代对应于SEQ ID NO:2的位置520,535或539。在再一个实施方案中,一个或多个氨基酸取代对应于SEQ ID NO :2的位置519和/或563。在再一个实施方案中,分离的葡糖淀粉酶变体还包含在对应于SEQ ID NO:2 或 SEQ ID NO 3 的 10,14,15,23,42,45,46,59,60,61,67,68,72,73,97,98,99,102,108,110,113,114,122,124,125,133,140,144,145,147,152,153,164,175,182,204,205,214,216,219,228,229,230,231,236,239,240,241,242,244,263,264,265,268,269,276,284,291,300,301,303,310,311,313,316,338,342,344,346,349,359,361,364,379,382,390,391,393,394,408,410,415,417,418,430,431,433,436,442,443,444,448 和 451 的残基位置的位置上的一个或多个氨基酸取代。在另一方面,本发明涉及包含催化区和SBD的分离的葡糖淀粉酶变体,所述SBD在对应于 SEQ ID NO 2 的位置 493,494,495,502,503,508,511,518,519,520,527,531,535,536,537,539,563,和577或对应于亲本葡糖淀粉酶中等同位置的位置上包含一个或多个氨基酸取代。在一些实施方案中,亲本葡糖淀粉酶与SEQ ID NO :2有至少90%序列同一性。在进一步实施方案中,一个或多个氨基酸取代对应于SEQ ID N0:2的T493C,T493M,T493N, T493Q, T493Y, P494H, P494I, P494M, P494N, P494Q, P494W, T495M, T495P, T495R,H502A, H502M, H502S, H502V, E503C, E503D, E503H, E503S, E503W, Q508N, Q508P, Q508Y,Q511C, Q511G, Q511H, Q511I, Q511K, Q511T, Q511V, N518P, N518T, A519I, A520C, A520E,A520L, A520P, A520Q, A520R, A520W, V531A, V5311L, V531N, V531R, V531S, V531T, A535E,A535F, A535G, A535K, A535L, A535N, A535P, A535R, A535S, A535T, A535V, A535W, A535Y,V536C, V536E, V536I V536L, V536M, V536Q, V536S, A539E, A539M, A539R, A539S,和 A539W,或者亲本葡糖淀粉酶中的等同位置。在进一步实施方案中,一个或多个氨基酸取代对应于SEQ ID NO 2 的位置 T495R,E503C, E503S, Q511H, V531L,或 V536I。在还进一步的实施方案中,一个或多个氨基酸取代对应于SEQ ID NO :2的位置494,511,520,527,531,535,536,537,563 和 577。在其他方面,本发明涉及包含催化区和SBD的葡糖淀粉酶变体,所述SBD在对应于 SEQ ID NO 2 的位置 T493I, T495K, T495R, T495S, E503A, E503C, E503S, E503T, E503V,Q508H, Q508R, Q508S, Q508T, Q511A, Q511D, Q511H, Q511N, Q511S, N518S, A519E, A519K,A519R, A519T, A519V, A519Y, A520C, A520L, A520P, T527A, T527V, V531L, A535D, A535K,A535N, A535P, A535R, V536I, V536R, N537W, A539E, A539H, A539M, A539R, A539S, N563A,N563C, N563E, N563I, N563K, N563L, N563Q, N563T, N563V, N577A, N577K, N577P, N577R,和N577V的位置或亲本葡糖淀粉酶中的等同位置上包含一个或多个氨基酸取代。在一些实施方案中,亲本葡糖淀粉酶具有SEQ ID NO :2的至少90%序列。在再一方面,本发明涉及包含催化区和SBD的葡糖淀粉酶变体,所述SBD在对应于SEQ ID NO :2的位置503,511,519,531,535,539,563,和577的位置上包含一个或多个氨基酸取代。在一些实施方案中,一个或多个氨基酸取代选自SEQ ID N0:2的E503A,E503C,E503V, Q511H, A519K, A519R, A519Y, V531L, A535K, A535N, A535P, A535R, A539E, A539R,A539S, N563C, N563E, N563I, N563K, N563L, N563Q, N563T, N563V, N577K, N577P,和 N577R。在另一方面,本发明涉及包含催化区和淀粉结合区(SBD)的葡糖淀粉酶变体,a)所述催化区包含与SEQ ID NO :3的氨基酸序列有至少85%序列同一性和b)所述SBD在对应于 SEQ ID NO 11 的位置 3,4,5,11,12,13,18,21,27,28,29,30,35,37,41,43,45,46,47,48,49,50,55,56,57,59,61,71,73,77,79,87,89,和93的位置上包含一个或多个氨基酸取代或所述SBD在亲本葡糖淀粉酶SBD的SEQ ID NO 11的等同位置上包含一个或多个氨基 酸取代。在一些实施方案中,催化区与SEQ ID NO :3的氨基酸序列有至少90%序列同一性。在进一步实施方案中,催化区与SEQ ID NO :3的氨基酸序列有至少95%序列同一性。在额外实施方案中,SBD 在对应于 SEQ ID NO 11 的位置 3,4,5,11,12,13,18,21,27,28,29,30,35,37,41,43,45,46,47,48,49,50,55,56,57,59,61,71,73,77,79,87,89,和 93 的位置上包含一个或多个氨基酸取代。在其他实施方案中,SBD在对应于SEQ ID N0:11的位置3,4,5,12,13,18,21,28,29,30,37,41,45,46,47,49,73,和 87 或亲本葡糖淀粉酶的等同位置上包含一个或多个氨基酸取代。在其他实施方案中,一个或多个氨基酸取代对应于SEQ IDNO 11 的位置 3,5,13,18,21,28,29,30,37,41,45,46,47,49,73,和 87。在其他实施方案中,一个或多个氨基酸取代对应于选自SEQ ID N0:11的位置5,13,21,30,41,45,46,和49的位置。在本发明的额外方面,葡糖淀粉酶变体与对应的亲本葡糖淀粉酶相比将具有至少一种改变的性质。在一些实施方案中,改变的性质是增加的比活性。在进一步实施方案中,改变的性质是增加的热稳定性。在额外实施方案中,改变的性质是增加的比活性和增加的热稳定性。在本发明的其他方面,亲本葡糖淀粉酶选自得自木霉、曲霉、腐质霉、青霉、踝节菌或裂殖酵母的葡糖淀粉酶。在一些实施方案中,亲本葡糖淀粉酶包含SEQ ID NOs :2,3,4,5,6,7,8,或9的序列。本发明的其他方面包括编码本发明包含的葡糖淀粉酶变体的多核苷酸和包含所述多核苷酸的宿主细胞。本发明的其他方面包括包含本发明包含的葡糖淀粉酶变体的酶组合物。
图IA显示了具有632个氨基酸(SEQ ID NO: I)的里氏木霉葡糖淀粉酶(TrGA)。信号肽加下划线,以氨基酸残基SVDDFI (SEQ ID NO: 12)开始,并具有453个氨基酸残基的催化区(SEQ ID N0:3)以粗体显示;接头区域以斜体显示,淀粉结合区(SBD)以斜体显示并加下划线。包括催化区(SEQ ID NO: 3),接头区(SEQ ID NO: 10)和淀粉结合区(SEQ IDNO: 11)的成熟蛋白由SEQ ID N0:2表示。关于TrGA葡糖淀粉酶分子的SBD编号,本公开中参照a)成熟TrGA的SEQ ID NO:2中的位置491到599和/或SEQ ID NO: 11中的位置I到109,其代表成熟TrGA的分离的SBD序列。关于TrGA分子的催化区编号,参考SEQ IDNO:2 和 SEQ ID NO:3。图IB显示了编码TrGA的cDNA(SEQ ID NO 4)。图IC显示了 TrGA前体和成熟蛋白结构域。图2 显示了包括 TrGA 的 cDNA(SEQ ID NO 4)的目的质粒 pDONR-TrGA。图3 显示了质粒 pTIT-Dest。图4显示了最终的表达载体pTTT-TrGA。
图5A-5B显示了亲本葡糖淀粉酶催化区的比对比较,所含葡糖淀粉酶包括来源于泡盛曲霉(Aspergillus awamori) (AaGA) (SEQ ID NO:5);黑曲霉(Aspergillus niger)(AnGA) (SEQ ID NO :6);米曲霉(Aspergillus oryzae) (AoGA) (SEQ ID NO :7);里氏木霉(Trichoderma reesei) (TrGA) (SEQ ID NO :3);灰腐质霉(Humicola grisea) (HgGA) (SEQID NO 8)和Hypocrea vinosa(HvGA) (SEQ ID NO :9)的葡糖淀粉酶。相同的氨基酸通过星号r)指出。图5C显示了踝节菌葡糖淀粉酶(TeGA)成熟蛋白序列(SEQ ID NO :384)。图OT-5E图解了比对,其比较了亲本葡糖淀粉酶的淀粉结合区(SBD),包括里氏木霉(SEQ ID NO :11),灰腐质霉(HgGA) (SEQ ID NO :385),疏棉状嗜热丝孢菌(Thermomyceslanuginosus) (ThGA) (SEQ ID NO :386),埃默森踩节菌(Talaromyces emersonii) (TeGA)(SEQ ID NO :387),黑曲霉(AnGA) (SEQ ID NO :388);和泡盛曲霉(AaGA) (SEQ ID NO :389)的亲本葡糖淀粉酶。图6是从侧面观察的木霉菌葡糖淀粉酶(黑色)(SEQ ID NO 2)和泡盛曲霉葡糖淀粉酶(灰色)三维结构的比较。根据活性中心测定侧面。例如,在图6-8中活性中心入口定义为该分子的“顶部”。图7是从顶部观察木霉菌葡糖淀粉酶(黑色)和泡盛曲霉葡糖淀粉酶(灰色)三维结构的比较。活性中心入口在该分子的“顶部”。图8是从侧面观察的TrGA (黑色)和黑曲霉GA (灰色)的三维结构的比对,显示了结合位点I和2。图9是阿卡波糖与图6中所示TrGA晶体结构的结合模型。发明详述定义除非另有定义,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解相同的含义。Singleton等,DICTIONARY OF MICROBIOLOGY ANDMOLECULAR BIOLOGY, 2D ED.,John Wiley 和 Sons, New York (1994),和 Hale&Markham, TheHARPER COLLINS DICTIONARY OF BIOLOGY, Harper Perennial, N. Y. (1991)为技术人员提供本文应用的很多术语的通常含义。但为了清楚和便于参考,仍在下面定义某些术语。本文所使用的术语“葡糖淀粉酶(EC3. 2.1.3) ”是指催化从淀粉和相关寡糖和多糖的非还原性末端释放D-葡萄糖的酶。术语“亲本”或“亲本序列”指自然或天然发生的序列或者与TrGA (SEQ ID NOs 1和/或2)有序列和/或结构同一性的参考序列。术语“TrGA”指的是具有SEQ ID NO :2中显示的成熟蛋白序列的亲本里氏木霉葡糖淀粉酶序列,其包括具有SEQ ID NO :3中显示序列的催化区。W02006/060062和2006年5月4日公开的美国专利号2006/0094080中描述了 TrGA的分离,克隆和表达,其并入本文做为参考。TrGA也被认为是亲本葡糖淀粉酶序列。在一些实施方案中,亲本序列指的是做为蛋白质工程的起点的TrGA。短语“蛋白质或多肽的成熟形式”指的是蛋白质或多肽的最终功能形式。举例来说,TrGA成熟形式包括催化区,接头区和淀粉结合区,具有SEQ ID NO :2的氨基酸序列。术语“木霉菌葡糖淀粉酶同源物”指的是具有与TrGA序列(SEQ ID NO 2)至少50%序列同一性、至少60%序列同一性、至少70%序列同一性、至少80%氨基酸序列同一性的亲本葡糖淀粉酶,其中该葡糖淀粉酶保持了葡糖淀粉酶的功能性特征。本文中使用的“同源序列”意思是为了比较进行最佳序列比对时,与一种核酸序 列或多肽序列具有至少100%,至少99%,至少98%,至少97%,至少96%,至少95%,至少94%,至少93%,至少92%,至少91%,至少90%,至少88%,至少85%,至少80%,至少75%,至少70%,至少65%,至少60%,至少55%,至少50%或至少45%序列同一性的核酸或多肽序列,其中候选核酸序列或多肽序列的功能与和所述候选同源序列相比较的核酸序列或多肽序列基本相同。在一些实施方案,同源序列具有85%和100%之间的序列同一性,而在其它的实施方案中具有90%和100%之间的序列同一性,在其它的实施方案中,具有95%和100%的序列同一性。在一些实施方案中,候选同源序列(或参照序列)或亲本与TrGA核酸序列或成熟蛋白序列比较。序列同一性可以经由亲本或同源序列的全长测定。本文中使用的术语“葡糖淀粉酶变体”,“SBD变体”和“TrGA变体”用于与亲本或参照葡糖淀粉酶序列相似的葡糖淀粉酶(例如,TrGA或木霉菌葡糖淀粉酶同源物),但在其氨基酸序列中具有使SBD在序列上不同于亲本葡糖淀粉酶的至少一个取代,缺失或插入。本文中使用的术语“催化区”指的是多肽的结构区,其包含底物水解的活性位点。术语“接头”指的是通常具有3到40个之间氨基酸残基的短氨基酸序列,其共价连接包含淀粉结合区的氨基酸序列和包含催化区的氨基酸序列。术语“淀粉结合区(SBD) ”指的是优选结合于淀粉底物的氨基酸序列。本文中使用的术语“突变序列”和“突变基因”可互换使用,指的是一种多核苷酸序列,其具有发生于宿主细胞亲本序列中的至少一个密码子内的改变。突变序列的表达产物为相对于亲本具有改变的氨基酸序列的变体蛋白。所述表达产物可以具有改变的功能容量(例如,增强的酶活性)。在多肽背景下,本文应用的术语“性质”或其语法上的等同对应词指的是能够被选择或检测的多肽的任何特点或属性。这些性质包括,但不限于氧化稳定性,底物特异性,催化活性,热稳定性,PH活性曲线,对蛋白降解的抗性,Km, Kcat, Kcat/Km比率,蛋白折叠,结合底物的能力和分泌能力。在核酸背景下,本文应用的术语“性质”或其语法上的等同对应词指的是能够被选择或检测的核酸的任何特点或属性。这些性质包括,但不限于,影响基因转录的性质(例如,启动子强度和启动子识别),影响RNA加工的性质(例如,RNA剪接和RNA稳定性),影响翻译的性质(例如,调控,结合mRNA到核糖体蛋白)。
术语“比活性”定义为每mg活性葡糖淀粉酶蛋白质的活性。使用如本文所述的乙醇测定法测定活性。被鉴定的与亲本TrGA PI相比具有性能指数(PI) > 1.0的变体被认为具有增加的比活性。从亲本(WT)与变体葡糖淀粉酶的比活性(活性/mg酶)计算PI。它是“变体比活性/WT比活性”的商。术语“热稳定的”和“耐热的”指的是在淀粉底物水解过程中普通的条件下,本发明的葡糖淀粉酶变体在给定的时段暴露于确认的温度后,例如暴露于改变的温度后,保持特定量的酶活性。在性质例如热稳定性的背景下,术语“增强的稳定性”指的是比较于另一个参照(例如,亲本)葡糖淀粉酶,随时间推移维持的更高的淀粉水解活性。在性质例如热稳定性的背景下,术语“降低的稳定性”指的是比较于其他葡糖淀粉酶、变体和/或野生型葡糖淀粉酶,随时间推移维持的更低的淀粉水解活性。术语“活性”和“生物活性”指的是与某具体蛋白相关的生物活性。由此可见,给定蛋白的生物活性指的是由本领域技术人员通常归因于该蛋白的任何生物活性。例如,与葡糖淀粉酶相关的酶活性是水解的,于是活性葡糖淀粉酶具有水解活性。术语“多核苷酸”和“核酸”,在本文中互换使用,指的是任何长度核苷酸的聚合形式,或者核糖核苷酸或者脱氧核糖核苷酸。这些术语包括,但不限于,单_,双_,或三-链DNA,基因组DNA,cDNA, RNA, DNA-RNA杂合物,或包含嘌呤和嘧啶碱基的聚合物,或其他天然的,化学,生物化学修饰的,非天然的或者衍化的核苷酸碱基。本文中使用的术语“DNA构建体” “转化DNA”和“表达载体”互换使用,指的是用于引入序列到宿主细胞或生物的DNA。所述DNA可以通过PCR或本领域技术人员已知的任何其它合适的技术在体外产生。DNA构建体,转化DNA或重组表达盒可以被掺入到质粒,染色体,线粒体DNA,质体DNA,病毒或核酸片段。通常地,表达载体的重组表达盒部分,DNA构建体或转化DNA包括,除其它序列外,被转录的核酸序列和启动子。在实施方案中,表达载体具有在宿主细胞中掺入和表达异源DNA片段的能力。
本文中使用的术语“载体”指的是设计用于引入核酸到一种或多种细胞类型的多核苷酸构建体。载体包括克隆载体,表达载体,穿梭载体,质粒,表达盒等等。在引入核酸序列到细胞内的背景下,本文使用的术语“引入”指的是适合转移核酸序列到细胞内的任何方法。这些引入方法方法包括但不限于原生质体融合,转染,转化,接合,和转导。本文中使用的术语“转化的”和“稳定转化的”指的是细胞,其具有整合入其基因组的非天然(异源的)多核苷酸序列或做为维持至少两代的游离质粒。本文中使用的术语“选择标记”和“选择性标记”指的是能够在宿主细胞内表达的核酸(例如,基因),其允许容易地选择那些包含载体的宿主。通常,选择标记是赋予宿主细胞抗生素抗性或代谢优势的基因,以在转化过程中允许包含外源DNA的细胞与未接受任何外源序列的细胞区分开来。本文中使用的术语“启动子”指的是具有指导下游基因转录作用的核酸序列。启动子,和其他转录和翻译调节核酸序列(也称为“控制序列”)一起对于表达给定基因是必须的。通常,转录和翻译调节序列包括,但不限于启动子序列,核糖体结合位点,转录起始和终止序列,翻译起始和终止序列,和增强子或激活子序列。
当其置于与另外一个核酸序列的功能关系中时,核酸被“有效连接”。例如,如果编码分泌前导序列(即,信号肽)的DNA表达为参与多肽分泌的前导蛋白,那么编码分泌前导序列(即,信号肽)的DNA有效地连接于多肽的DNA。通常,“有效连接”意思是被连接的DNA序列是相邻的,并且至于分泌前导序列,是相邻的并且在阅读相内。本文中使用的术语“基因”指的是多核苷酸(例如,DNA片段),其编码多肽,并包括编码区之前和之后的区域以及单个编码区段(外显子)之间的间插序列(内含子)。本文中使用的“同源基因”指的是来自不同,但通常相关的物种的一对基因,其相互对应并且彼此相同或非常近似。该术语包括由物种形成(即新物种发展)分离的基因(例如,直向同源基因),以及已经由基因复制分离的基因(例如,旁系同源基因)。本文中使用的“直向同源物”和“直向同源基因”指的是通过物种形成从共同的祖先基因(S卩,同源基因)进化而来的不同物种中的基因。通常,直向同源物在进化过程中保持相同的功能。直向同源物的鉴定在新近测序的基因组中可靠预测基因功能中得到应用。
本文中使用的“旁系同源物”和“旁系同源基因”指的是基因组内通过复制相关的基因。尽管直向同源物在进化过程中保持相同的功能,但是旁系同源物进化新功能,尽管一些功能通常与最初的基因相关。旁系同源基因的实例包括,但不限于编码胰蛋白酶,胰凝乳蛋白酶,弹性蛋白酶和凝血酶的基因,其都是丝氨酸蛋白酶并在同一物种内一起发生。本文中使用的术语“同源性”指的是序列相似性或同一性,优选同一性。该同源性使用本领域已知的标准技术确定(参见,例如,Smith and Waterman, Adv. Appl. Math. ,2 482 [1981] ;Needleman and ffunsch, J. Mol. Biol. ,48 443[1970] ;Pearson and Lipman,Proc. Natl. Acad. Sci. USA85 :2444 [1988];;程序,如 Wisconsin Genetics SoftwarePackage (Genetics Computer Group, Madison, WI)中的 GAP, BESTFIT, FASTA,和 TFASTA ;和 Devereux et al. , Nucl. Acid Res. ,12 :387-395[1984])。“核酸序列同一性百分数) ”或“氨基酸序列同一性百分数) ”被定义为候选序列中与起始序列(如,TrGA)的核苷酸残基或氨基酸残基相同的核苷酸残基或氨基酸残基的百分比。同源序列由已知的序列比对方法确定。通常使用的比对方法是由Altschul等(Altschul 等,(1990) J. Mol. Biol.,215 :403-410 ;和 Karlin 等,(1993) Proc. Natl. Acad.Sci. USA 90 :5873-5787)描述的BLAST。一个尤其有用的BLAST程序是WU-BLAST-2程序(参见,Altschul 等,(1996)Meth. Enzymol.,266 :460-480)。WU-BLAST-2 使用几个检索参数,其大多数被设定为默认值。可调整的参数设定为下列值,重叠间隔=1,重叠部分=0. 125,字段阈值(T) = 11。HSPS和HSP S2参数是动态值并通过程序本身建立,其依赖于具体序列的组成和目的序列被检索的具体数据库的组成。但是,这些值可以被调整以增加灵敏性。氨基酸序列同一性A%值由匹配的相同残基的数目除以比对区内“更长”序列的残基总数来确定。“更长”序列是在比对区中具有大多数实际残基的序列(忽略由WU-Blast-2为最大化比对得分而引入的空位)。其它的方法也应用于比对序列。一个有用算法的例子是PILEUP。PILEUP使用渐进的逐对比对从一组相关序列产生多个序列比对。PILEUP使用Feng和Doolittle的渐进式比对方法的简化形式(Feng and Doolittle, J. Mol. Evol. ,35 :351-360 [1987])。该方法与 Higgins 和 Sharp 描述的方法相似(Higgins and Sharp, CABIOS 5 :151_153[1989])。有用的PILEUP参数包括默认的空位权重3. 00,默认的空位长度权重0. 10和加权的末端空位。术语“最优比对”指的是提供最高同一性百分率得分的比对。“等同位置”指的是两个序列之间的最优比对。例如利用图和5E,TrGA(SEQ ID NO 2)中491位是C491;黑曲霉的等同位置是C509位;泡盛曲霉的等同位置是Q538位。对于三维序列的示例性比对参见图8。本文中使用的术语“杂交”指的是如本领域所知,核酸链与互补链通过碱基配对结合的过程。如果在中等到高严格度杂交和洗涤条件下,两个序列互相特异地杂交,则认为核酸序列对于参考序列是“选择性杂交的”。杂交条件是以核酸结合复合体或探针的解链温度(Tm)为基础的。例如,“最大严格性”通常发生在约Tm-5°C (低于探针Tm 5°C )高严格性”在低于Tm约5-10°C ;“中等严格性”在低于探针Tm约10_20°C ;“低严格性”在低于Tm 约20-25°C。功能上来说,最大严格性条件可以用于鉴定与杂交探针具有严格同一性或接近严格同一性的序列;而中等或低严格性条件可以用于鉴定或检测多核苷酸序列同源物。中等和高严格性杂交条件是本领域公知的。高严格性条件的一个例子包括在约42°C,在 50% 甲酰胺,5XSSC, 5XDenhardt’ s 液,0. 5% SDS 和 100 y g/ml 变性载体 DNA 中杂交,之后在室温下,2XSSC和0. 5% SDS中洗涤两次,并在42°C,0. IXSSC和0. 5% SDS中洗涤另外两次。中等严格性条件的一个例子包括37°C,在包含20%甲酰胺,5XSSC(150mM NaCl,15mM朽1檬酸三钠),50mM磷酸钠(pH7. 6), 5XDenhardt’s液,10%硫酸葡聚糖和20mg/ml变性的剪切鲑精DNA的溶液中温育,之后在约37-50°C,IXSSC中洗涤滤膜。本领域技术人员知晓如何调整温度,离子强度等,其对于适应例如探针长度等等的因素是必须的。本文中使用的“重组”包括涉及的细胞或载体,其通过引入异源的或同源的核酸序列被修饰或所述细胞来源于此种修饰的细胞。这样,例如,作为人类有意干预的结果,重组细胞表达天然(非重组)形式细胞内未发现相同形式的基因,或表达天然基因,其否则异常表达,低表达或根本不表达。在本发明的一些实施方案中,突变的DNA序列通过在至少一个密码子中位点饱和诱变产生。在其它的实施方案中,位点饱和诱变实施于两个或更多的密码子。在另一实施方案中,突变的DNA序列具有与亲本序列超过50 %,超过55 %,超过60%,超过65%,超过70%,超过75%,超过80%,超过85%,超过90%,超过95%,超过98%或超过99%的同源性。在备选实施方案中,突变DNA使用任何已知的诱变方法如,举例来说,辐射,亚硝基胍等等在体内产生。希望DNA序列于是被分离和在本文提供的方法中使用。本文中使用的“异源蛋白”指的是非宿主细胞内自然发生的蛋白质或多肽。本文中使用的“同源蛋白”指的是细胞内天然或自然发生的蛋白质或多肽,并包括由重组DNA技术或者细胞内天然过表达的天然蛋白质。如果酶在细胞内以比其在相应野生型细胞内表达的水平更高的水平表达,酶即为在宿主细胞内“过表达”。术语“蛋白质”和“多肽”在本文中可互换使用。在本公开和权利要求中,使用用于氨基酸残基的常规单字母和三字母代码。氨基酸三字母代码定义与IUPAC-IUB生物化学命名联合委员会(JCBN) —致。也可以理解的是,由于基因密码的简并性,多肽可以由不止一个核苷酸序列编码。通过下面的命名法描述本发明的变体[原始氨基酸残基/位置/取代的氨基酸残基]。例如在76位用亮氨酸取代精氨酸被表示为R76L。当多于一个氨基酸在给定位置被取代,该取代被表示为D Q172C, Q172D或Q172R ;2) Q172C,D,R或c) Q172C/D/R。可以理解的是,当本文鉴定的适合取代的位置没有推荐的特定氨基酸,那么任何氨基酸残基可以取代该位置上存在的氨基酸残基。与其它葡糖淀粉酶相比,变体葡糖淀粉酶包含缺失时,该缺失以标示。例如,位置R76的缺失被表示为R76'两个或更多个连续氨基酸的缺失被标不为,例如(76-78)“前序列”是信号序列和成熟蛋白之间对于蛋白质分泌必需的氨基酸序列。切割前序列将产生成熟有活性的蛋白质。术语“信号序列”或“信号肽”指的是可以参与成熟或前体形式蛋白质分泌的任何核苷酸和/或氨基酸序列。信号序列的该定义是功能性定义,意味着包括由所述蛋白基因的N-末端部分编码的所有那些氨基酸序列,其参与蛋白分泌的完成。其经常,但不总是,结 合于蛋白质的N-末端部分或前体蛋白的N-末端部分。信号序列可以是内源的或外源的。信号序列可以通常情况下结合于所述蛋白质(例如,葡糖淀粉酶)或可以来自编码另一分泌蛋白的基因。术语蛋白质或肽的“前体”形式指的是具有有效连接于该蛋白质的氨基或羰基末端的前序列的成熟形式的蛋白质。前体也可以具有有效连接于前序列氨基末端的“信号”序列。前体也可以具有参与翻译后活动(例如,从中切割以产生成熟形式蛋白质或肽的多肽)的另外的多肽。“宿主菌株”或“宿主细胞”指的是包含根据本发明DNA的表达载体的适宜宿主。术语“来自”和“获自”不仅指由讨论中的生物株系产生或可产生的葡糖淀粉酶,也指由分离自如此株系的DNA序列编码的和在包含如此DNA序列的宿主生物中产生的葡糖淀粉酶。此外,该术语指由合成的和/或cDNA来源的DNA序列编码的并且具有讨论中的葡糖淀粉酶确认特征的葡糖淀粉酶。该定义范围内的“衍生物”通常保持野生型,天然的或亲本形式中观察到的特征性水解活性到这样的程度,其使该衍生物可用于与野生型,天然的或亲本形式相似的目的。葡糖淀粉酶功能性的衍生物包含自然发生的,合成地或重组产生的肽或肽片段,其具有本发明的葡糖淀粉酶的一般特征。术语“分离的”或“纯化的”指的是从其起始环境中被移开的物质(例如自然环境,如果其是自然发生地)。在一些实施方案中,如通过SDS-PAGE确定,分离的蛋白质是超过10%纯的,优选超过20%纯的,和更优选超过30%纯的。本发明另外的方面包括如通过SDS-PAGE确定的高度纯化形式的蛋白质(即超过40 %纯的,超过60 %纯的,超过80 %纯的,超过90 %纯的,超过95 %纯的,超过97 %纯的,和甚至超过99 %纯的)。本文中使用的术语“组合诱变”指的是产生起始序列的变体文库的方法。在这些文库内,变体包含选自预先确定的一组突变的一个或几个突变。除此之外,方法提供了引入随机突变的手段,所述随机突变不是预先确定的一组突变的成员。在一些实施方案中,所述方法包括USP6,582,914中阐述的那些方法,在此并入作为参考。在备选的实施方案中,组合诱变方法包括商业上可获得的试剂盒(例如,Quik Change Multisite, Stratagene,San Diego, CA)。本文中使用的术语“突变体文库”指的是细胞群体,其基因组的大多数相同,但包括一个或多个基因的不同同源物。这样的文库可以用于,例如,鉴定具有改良性状的基因或操纵子。本文中使用的术语“干燥固体含量(DS或ds) ”指的是浆液的总固体基于干重的百分比。本文中使用的术语“目标特性”指的是将被改变的起始基因的特性。并不意图将本发明限定于任何具体的目标特性。但是,在一些实施方案中,目标特性是基因产物的稳定性(例如,对变性,蛋白水解或其它降解因素的抗性),而在其它的实施方案中,生产宿主中的产物的水平改变。事实上,预期起始基因的任何特性都在本发明中得到应 用。术语的其它定义可在说明书的各处出现。在更详细描述示例性的实施方案之前,应当理解的是,本发明不限于描述的具体实施方案,因为这些当然可以变化。也应当理解,本文中使用的术语只是为了描述具体的实施方案,并无限制性意图。当提供数值范围时,应当理解,除非上下文另有明确规定,该范围的上限和下限之间的每个中间值,直至下限单位的十分之一,也被具体地公开。任何陈述值之间的每个更小范围或陈述范围内的中间值和任何其它公开的或所述公开范围内的中间值都包括在本发明内。这些更小范围的上限或下限可以独立地包括于或排除于该范围,两个端点之一,两个端点都不或都包括在更小范围的每个范围也包括在本发明之内,其受限于公开范围内任何具体排除的界限。如果公开的范围排除一个或两个端点,排除一个或者两个所述被包括端点的范围也包括在本发明内。尽管与本文描述的那些方法和材料相似或等同的任何方法和材料可以用于实施或测试本发明,现在仍描述示例性的和优选的方法和材料。本文提到的所有出版物并入本文作为参考,以公开和描述与引用的出版物有关的方法和/或材料。必须指出的是,除非上下文另有明确规定,单数形式包括复数指代。这样,例如,提至IJ “一个基因”包括多个这样的候选基因,提到“细胞”包括涉及一个或多个细胞和本领域技术人员知晓的等同物,等等。本文中讨论的出版物只有其公开早于本申请的申请日,才被提供。本文不承认本发明无权由于是在先发明而早于此类出版物。II.实施方案亲本葡糖淀粉酶在一些实施方案中,本发明提供了亲本葡糖淀粉酶的葡糖淀粉酶变体。亲本葡糖淀粉酶包含催化区和淀粉结合区。亲本葡糖淀粉酶可以包含与TrGA(SEQ ID NOs 2)有序列和/或结构同一性的序列。在一些实施方案中,亲本葡糖淀粉酶包含如SEQ ID N0l,2,5,6,7,8,9或384中显示的氨基酸序列。在一些实施方案中,亲本葡糖淀粉酶是同源物。在一些实施方案中,亲本葡糖淀粉酶具有与SEQ ID NO :2的TrGA氨基酸序列至少50%的序列同一性,包括至少60%、至少70%、至少80%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%的序列同一性。在一些实施方案中,亲本葡糖淀粉酶包含催化区,其具有与SEQ ID NO :1,2,3,5,6,7,8或384中显示的一个或多个氨基酸序列有至少50%的氨基酸序列同一性的氨基酸序列,包括与 SEQ ID NO :1,2,3,5,6,7,8 或 384 至少 60%、至少 70%、至少 80%、至少 90%、至少95%、至少99%的序列同一性。在其它的实施方案中,亲本葡糖淀粉酶具有与SEQ IDNO 3的TrGA氨基酸序列的催化区至少80%的序列同一性,至少85%的序列同一性,至少90 %的序列同一性,至少95%的序列同一性,至少97 %的序列同一性,至少98 %的序列同一性和至少99%的序列同一性。在一些实施方案中,亲本葡糖淀粉酶包含与SEQ ID NO :11有结构同一性的淀粉结合区。在一些实施方案中,亲本葡糖淀粉酶包含具有与TrGA氨基酸序列SEQ ID NO :11的SBD有至少30 %序列同一‘丨生,至少40 %序列同一‘丨生,至少50 %序列同一‘丨生,至少60 %序列同一性,至少70 %序列同一性,至少80 %序列同一性,至少85 %序列同一性,至少90 %序列同一性,至少95%序列同一性,至少97%序列同一性,至少98%序列同一性,和至少99%序·列同一性的氨基酸序列的淀粉结合区。亲本葡糖淀粉酶可以由DNA序列编码,该DNA序列在中等、高或严格条件下与编码包含SEQ ID NO :1,2,和/或11的氨基酸序列之一的葡糖淀粉酶的DNA杂交。在一些实施方案中,所编码的葡糖淀粉酶与SEQ ID NO :1,2,和/或11的氨基酸序列有至少50%序列同一性,至少60 %序列同一性,至少70 %序列同一性,至少80 %序列同一性,至少85 %序列同一性,至少90 %序列同一性,至少95 %序列同一性,至少97 %序列同一性,至少98 %序列同一性,和至少99%序列同一性。在一些实施方案中,亲本葡糖淀粉酶是宿主细胞中自然或天然发生的序列。在一些实施方案中,亲本葡糖淀粉酶是天然发生的变体。在一些实施方案中,亲本葡糖淀粉酶是参考序列,其是已经被改造的变体或者是杂合葡糖淀粉酶。葡糖淀粉酶的预测结构和已知序列在真菌物种中是保守的(Coutinho et al.,1994 Protein Eng. ,7 :393_400and Coutinho et al. ,1994, Protein Eng. ,7 :749-760)。在一些实施方案中,亲本葡糖淀粉酶是丝状真菌葡糖淀粉酶。在一些实施方案中,亲本葡糖淀粉酶获自木霉属菌株(例如,里氏木霉,长梗木霉(T. Iongibrachiatum),严紧木霉(T. strictipilis),棘胞木霉(T. asperellum),康长木霉(T. koniIangbra)和哈茨木霉(T. hazianum)),曲霉属菌株(例如黑曲霉,构巢曲霉,A. kawachi,泡盛曲霉和米曲霉),踝节菌属株(例如埃默森踝节菌(T. emersonii),湿热踝节菌(T. thermophilus)和T. duponti),肉座菌属菌株(例如胶质肉座菌(H. gelatinosa),东方肉座菌(H. orientalis),H. vinosa, H. citrina),镰孢属菌株(例如,尖镰孢(F. oxysporum),粉红镰孢(F. roseum)和F. venenatum),脉孢菌属菌株(例如粗糙脉孢菌(N. crassa))和腐质霉属菌株(例如,灰腐质霉,特异腐质霉(H. insolens)和H. lanuginosa),青霉属菌株(例如点青霉或产黄青霉),或复膜孢酵母属菌株(例如S. fibuligera)。在一些实施方案中,亲本葡糖淀粉酶包含如图5A-E中图解的那些序列的氨基酸序列。在一些实施方案中,亲本葡糖淀粉酶可以是细菌葡糖淀粉酶。例如,葡糖淀粉酶可以获自革兰氏阳性菌株,例如芽孢杆菌(例如,嗜碱芽孢杆菌(B.alkalophilus),解淀粉芽孢杆菌(B. amyIoliquefaciens),迟缓芽孢杆菌(B. Ientus),地衣芽孢杆菌(B. Iicheniformis),嗜热脂肪芽抱杆菌(B. stearothermophilus),枯草芽抱杆菌(B. subtilis)和苏云金芽孢杆菌(B. thuringiensis))或链霉属菌株(例如,浅青紫链霉菌(S. Iividans))。
在一些实施方案中,亲本葡糖淀粉酶将与SEQ ID NO :2的TrGA氨基酸序列有至少
50%序列同一性,至少60 %序列同一性,至少70 %序列同一性,至少80 %序列同一性,至少85 %序列同一性,至少88 %序列同一性,至少90 %序列同一性,至少93 %序列同一性,至少95%序列同一性,至少96%序列同一性,至少97%序列同一性,至少98%序列同一性和至少99%序列同一性。在一些实施方案中,亲本葡糖淀粉酶也具有与SEQ ID NO :2的结构同一性。在另外的实施方案中,木霉属葡糖淀粉酶同源物可以获自木霉属或肉座菌属的菌株。有些木霉葡糖淀粉酶同源物在美国专利
发明者C·弗勒门, I·尼古拉耶夫, M·谢弗斯, P·范索林恩, R·R·博特, W·埃赫勒 申请人:丹尼斯科美国公司