专利名称:具有纤维素酶活性的多肽的制作方法
技术领域:
本公开内容涉及生物分子工程和设计,以及工程化的蛋白和核酸。背景纤维素酶混合物在生物质转化过程中的表现除了取决于纤维素底物的物理状态和组成以外,还取决于许多酶特性,包括稳定性、产物抑制、不同纤维素酶组分之间的协作、 生产‘性结合(productive binding)才目对__生产个生吸附(nonproductive adsorption)、以及 PH依赖性。鉴于纤维素水解的多变量性质,具有多样的纤维素酶选择来优化用于不同应用和原料的酶制剂是令人期望的。概述本公开内容提供了具有纤维素酶活性以及与野生型蛋白相比增加的热稳定性和活性的重组多肽。本公开内容提供并显示CBHII嵌合体和在C端末端(例如,取决于天然蛋白序列,见例如,SEQ ID NO :2和SEQ IDNO :4,在大约氨基酸310-315)具有Cys到Ser的突变的天然酶在长时间水解测定中比天然酶水解更致密的纤维素。本公开提供了在包含序列(iECDG (SEQ ID NO :2的312-316)的基序的C端区域中包含C — S取代的重组多肽,其中该变体与野生型纤维二糖水解酶相比具有增加的热稳定性和纤维素酶活性。例如,本公开内容提供了具有增加的热稳定性和纤维素酶活性的多肽,该多肽包含的序列是包含C314S的至少85%、90%、95%、98%、99%相同的SEQ ID NO :2 ;是包含C311S的至少85%、90%、95%、98%、99%相同的SEQ ID NO :4 ;是包含C310S的至少 85%、90%、95%、98%、99%相同的 SEQ ID NO :12 ;是包含 C312S 的至少 85%、90%、95%、 98%、99%相同的 SEQ ID NO :13 ;是包含 C314S 的至少 85%、90%、95%、98%、99%相同的 SEQ ID N0:14;是包含C315S的至少85%、90%、95%、98%、99%相同的SEQ ID N0:15;是包含C313S的至少85%、90%、95%、98%、99%相同的SEQ ID NO :16 ;是包含C311S的至少 85%、90%、95%、98%、99%相同的 SEQ ID NO :17 ;是包含 C313S 的至少 85%、90%、95%、 98%、99%相同的 SEQ ID N0:19;是包含C312S的至少85%、90%、95%、98%、99%相同的 SEQ ID NO :21 ;是包含 C311S 的至少 85%、90%、95%、98%、99%相同的 SEQ ID NO :22 ;是包含C400S的至少85%、90%、95%、98%、99%相同的SEQ ID NO :64 ;是包含C407S的至少85%、90%、95%、98%、99%相同的 SEQ ID NO :65 ;是包含 C394S 的至少 85%、90%、95%、 98%、99%相同的 SEQ ID NO :66 ;是包含 C400S 的至少 85%、90%、95%、98%、99%相同的 SEQ ID N0:67;是包含C400S的至少85%、90%、95%、98%、99%相同的SEQ ID NO :68 ;是包含C400S的至少85%、90%、95%、98%、99%相同的SEQ ID NO :69 ;是包含C400S的至少 85%、90%、95%、98%、99%相同的 SEQ ID NO :70 ;是包含 C400S 的至少 85%、90%、95%、 98%、99%相同的 SEQ ID NO :71 ;是包含 C400S 的至少 85%、90%、95%、98%、99%相同的 SEQ ID N0:72;是包含C400S的至少85%、90%、95%、98%、99%相同的SEQ ID NO :73 ;是包含C400S的至少85%、90%、95%、98%、99%相同的SEQ ID NO :74 ;是包含C400S的至少 85%、90%、95%、98%、99%相同的 SEQ ID NO :75 ;是包含 C407S 的至少 85%、90%、95%、 98%、99%相同的 SEQ ID NO :76 ;是包含 C394S 的至少 85%、90%、95%、98%、99%相同的 SEQ ID N0:77;或是包含C412S的至少85%、90%、95%、98%、99%相同的SEQ ID NO 78 ; 其中前述多肽具有纤维素酶活性和与其对应的缺乏Cys — Ser突变的亲本(野生型)蛋白相比改进的热稳定性。本公开内容还提供了重组产生、合成制备或以其他方式非天然产生的基本上纯化的多肽,其中该多肽包括除了在其中存在C —S取代的以下已鉴定的位置之外具有1-10 个、10-20个或20-30个保守氨基酸取代的以下列出的序列包含C314S的SEQ ID NO :2 ;包含 C311S 的 SEQ ID NO 4 ;包含 C310S 的 SEQ ID NO 12 ;包含 C312S 的 SEQ ID NO 13 ;包含 C314S 的 SEQ ID NO 14 ;包含 C315S 的 SEQ ID NO 15 ;包含 C313S 的 SEQ IDNO 16 ;包含 C311S 的 SEQ ID NO 17 ;包含 C313S 的 SEQ ID NO 19 ;包含 C312S 的 SEQ ID NO 21 ;包含 C311S 的 SEQ ID NO 22 ;包含 C400S 的 SEQ ID NO 64 ;包含 C407S 的 SEQ ID NO 65 ;包含 C394S 的 SEQ IDNO 66 ;包含 C400S 的 SEQ ID NO 67 ;包含 C400S 的 SEQ ID NO :68 ;包含 C400S 的 SEQ ID NO 69 ;包含 C400S 的 SEQ ID NO 70 ;包含 C400S 的 SEQ ID NO 71 ;包含 C400S 的 SEQ ID NO -J2 ;包含 C400S 的 SEQ IDNO 73 ;包含 C400S 的 SEQ ID NO 74 ;包含 C400S 的 SEQ ID NO 75 ;包含 C407S 的 SEQ ID NO 76 ;包含 C394S 的 SEQ ID NO 77 或包含 C412S 的 SEQ ID NO :78。本公开提供了包含选自由以下组成的组的序列的重组多肽(a)具有对SEQ ID NO 2的至少85%或更大的同一性、在314位具有kr的多肽,并且其中该多肽具有纤维素酶活性;(b)具有对SEQ ID NO 4的至少70%或更大的同一性、在311位具有kr的多肽, 并且其中该多肽具有纤维素酶活性;(c)对选自由以下组成的组的序列具有70%或更大的同一性的多肽⑴SEQ ID NO 12且在310位具有kr,(ii)SEQ ID NO :13且在312位具 WSer, (iii)SEQ ID NO : 14 且在 314 位具有 kr,(iv) SEQ ID NO : 15 且在 315 位具有 kr, (v)SEQ ID NO :16 且在 313 位具有 kr,(vi)SEQ ID NO :17 且在 311 位具有 kr,(vii) SEQ ID NO :19 且在 313 位具有 kr,(viii)SEQ IDNO :21 且在 312 位具有 kr,以及(ix)SEQ ID NO 22且在311位具有kr,并且其中前述多肽的每一种都具有纤维素酶活性;以及(d)包含来自两个不同的亲本纤维二糖水解酶多肽的至少两个结构域的嵌合多肽,其中这些结构域从N端到C端包含(区段1)-(区段(区段;3)-(区段4)-(区段(区段6)-(区段 7)-(区段 8);其中区段 1 包含对 SEQ ID NO 2( “1”)、SEQ IDNO 4( “2”)或 SEQ ID N0:6( “3”)的氨基酸残基大约1到大约X1具有至少50-100%同一性的序列;区段2包含对 SEQ ID NO 2( “1,,)、SEQ ID NO :4( “2,,)或 SEQ ID NO 6( “3,,)的氨基酸残基 X1到大约&具有至少50-100%同一性的序列;区段3包含对SEQ ID NO :2 ( “ 1”)、SEQ ID NO 4( “2”)或SEQID N0:6( “3”)的氨基酸残基&到大约知具有至少50-100%同一性的序列;区段 4 包含对 SEQ ID NO 2( “1”)、SEQ ID NO 4( “2”)或 SEQ ID NO 6( “3”) 的氨基酸残基知到大约&具有至少50-100%同一性的序列;区段5包含对SEQ ID NO 2( “1”)、SEQ ID NO :4( “2”)或SEQ ID N0:6( “3”)的大约氨基酸残基&到大约&具有至少50-100%同一性的序列;区段6包含对SEQ IDNO 2( “1”)、SEQ ID NO :4( “2”)或 SEQ ID NO :6( “3”)的氨基酸残基&到大约&具有至少50-100%同一性的序列;区段7 包含对SEQ ID NO 2 (“1”)或SEQ ID N0:4( “2”)的氨基酸残基知到大约X7具有至少 50-100%同一性的序列;并且区段8包含对SEQ ID NO :2 ( “ 1”)或SEQ ID NO 4( "2") 的氨基酸残基X7到大约X8具有至少50-100%同一性的序列;其中X1是SEQ IDNO 2的残基 43、44、45、46 或 47,或是 SEQ ID NO :4 或 SEQ ID NO :6 的残基 42、43、44、45 或 46 ;x2 是 SEQ ID NO :2 的残基 70、71、72、73 或 74,或是 SEQ ID NO :4 或 SEQ ID NO :6 的残基 68、69、 70、71、72、73 或 74 ;知是 SEQ ID NO :2 的残基 113、114、115、116、117 或 118,或是 SEQ ID NO :4 或 SEQ ID NO :6 的残基 110、111、112、113、114、115 或 116 是 SEQ ID NO :2 的残基 153、154、155、156 或 157,或是 SEQID NO :4 或 SEQ ID NO :6 的残基 149、150、151、152、 153、154、155 或 156 是 SEQ ID NO :2 的残基 220、221、222、223 或 224,或是 SEQ IDNO 4 或 SEQ ID NO :6 的残基 216、217、218、219、220、221、222 或 223 是 SEQ ID NO 2 的残基
256、257、258、259、260或 1,或是SEQIDNO :4 或 SEQ ID NO :6 的残基 253、254、255、256、
257、258、259或洸0 ;x7 是 SEQ ID NO :2 的残基 312、313、314、315 或 316,或是 SEQ ID NO: 4 的残基 309、310、311、312、313、314、315 或 318 ;并且 X8 是对应于具有序列 SEQ ID NO :2、 SEQ ID NO 4或SEQ ID NO 6的多肽的C端的氨基酸残基,其中该嵌合多肽在SEQ ID NO 2的314位或在SEQ ID NO :4的311位具有kr,并且其中该嵌合多肽具有纤维素酶活性和与包含SEQ IDNO :2、4或6的CBH II多肽相比改进的热稳定性和/或pH稳定性。在重组多肽的一个实施方案中,区段1包括来自SEQ ID NO :2( “1”)、SEQ ID N0:4(“2”)或 SEQ ID NO :6( “3”)的氨基酸残基大约1到大约X1并具有1_10个保守氨基酸取代;区段 2 来自 SEQ ID NO 2( “1”)、SEQ ID NO :4( “2”)或 SEQID NO 6( “3”)的大约氨基酸残基X1到大约&并具有大约1-10个保守氨基酸取代;区段3来自SEQ ID NO :2 ( “ 1 ”)、SEQ ID NO :4( “2”)或SEQ ID NO :6 ( “3”)的大约氨基酸残基&到大约知并具有大约1-10 个保守氨基酸取代;区段4来自SEQ ID NO 2( “1”)、SEQ ID NO :4( “2”)或SEQ ID NO 6( “3”)的大约氨基酸残基&到大约&并具有大约1-10个保守氨基酸取代;区段5来自 SEQ ID NO 2( “1”)、SEQ ID NO :4( “2”)或 SEQ ID NO 6( “3”)的大约氨基酸残基 & 到大约&并具有大约1-10个保守氨基酸取代;区段6来自SEQ ID NO :2( “1”)、SEQ ID NO: 4( “2”)或SEQ ID NO 6( “3”)的大约氨基酸残基、到大约&并具有大约1_10个保守氨基酸取代;区段 7 来自 SEQ IDNO 2( “1”)、SEQ ID NO :4( “2”)或 SEQ ID NO 6( “3”) 的大约氨基酸残基&到大约X7并具有大约1-10个保守氨基酸取代;并且区段8来自SEQ IDNO 2( “1”)、SEQ ID NO :4( “2”)或 SEQ ID NO 6( “3”)的大约氨基酸残基 X7 到大约 X8 并且除了在 SEQ ID NO 2 的 314 位、SEQ ID NO 4 的 311 位或 SEQ ID NO 6 的 313 位以外具有大约1-10个保守氨基酸取代。又在另一个实施方案中,嵌合多肽包含与选自由SEQ ID NO :12-62和SEQ ID NO :63组成的组的序列至少80%、90%、95%、98%或99%相同的序列。本公开内容还提供了由SEQ ID NO 12-62或SEQ ID NO 63中所列出的序列组成
的重组多肽。本公开内容还提供了编码以上所述的任何多肽的多核苷酸、包含该多核苷酸的载体和包含该多核苷酸或载体的宿主细胞。本公开内容还提供了包含以基本上纯化的形式或作为细胞裂解物的一部分的多肽的酶制备物。本公开内容还提供了处理包括纤维素的生物质的方法,该方法包括使该生物质与本公开内容的多肽或酶制备物接触。附图简述图IA-B候选的CBH II亲本基因酵母表达培养上清液的SDS-PAGE凝胶。㈧凝胶泳道(左到右)1-红褐肉座菌(H. jeCOrina),2-空载体,3-特异腐质霉(H. insolens), 4-嗜热毛壳菌(C. therm0philum),5-红褐肉座菌(第二份),6-黄孢原毛平革菌 (P. chrysosporium),7-埃默森篮状菌(T. emersonii),8-空载体(第2份),9-红褐肉座菌 (第三份)。凝胶底部的数字代表在2小时、50°C PASC水解测定之后在反应中存在的还原糖(ug/mL)的浓度。随后用BSA标准品进行的SDS-PAGE比较允许5-10mg/L的特异腐质霉表达水平的估计。(B)显示酿酒酵母(S. cerevisiaeKBH II表达培养上清液的SDS-PAGE 凝胶分析。CBH II条带只出现在60kDa分子量标准品之下。泳道,左到右,1_野生型红褐肉座菌,2-红褐肉座菌B7P3,3-红褐肉座菌C311S,4-野生型嗜热毛壳菌,5-野生型特异腐质霉,6-特异腐质霉B7P3,7-特异腐质霉C314S。数字表示在与PASC(lmg/mL)在50°C在 50mM醋酸钠pH 4. 8中100分钟孵育期间产生的每mLSDCAA表达培养上清液当量的μ g葡萄糖当量/mL反应体积。泳道1-4的值已除以2以校正上样的浓缩培养上清液的两倍体积, 如果省略这种校正将使得特异腐质霉的比活性值显得人为降低。图2A-C显示CBH II嵌合体文库区块(block)边界的图解。(A)具有靠颜色区分的区块的特异腐质霉CBH II催化结构域带状图(ribbon diagram)。CBH II酶与纤维二糖来源的异桑叶生物碱(isofagomine)糖苷酶抑制剂复合。(B)显示二级结构元件、二硫键和由黑色箭头表示的区块分割的特异腐质霉催化结构域的线性表示。(C)表示能够在重组后破裂的接触(在4. 5 A内的侧链重原子)的侧链接触图。大多数的破裂接触发生在相邻的区块之间。图3显示了 23种分泌的/活性的和15种不分泌的/无活性的样品集嵌合体的破裂接触的数目(E)和与最近亲本的突变(m)的数目。图4显示了亲本CBH II酶和三种热稳定的嵌合体的作为pH的函数的标准化至 PH 5.0的比活性。呈现的数据是两个重复的平均值,其中HJPlus和红褐肉座菌的误差棒表示两个独立试验的值。16小时反应、300ug酶/gPASC、50°C、所示pH的12. 5mM柠檬酸钠 /12. 5mM磷酸钠缓冲液。图5显示在一定温度范围内亲本和热稳定的嵌合体的长时间纤维素水解测定结果(μ g葡萄糖还原糖当量/μ g CBH II酶)。误差棒指示HJPlus和特异腐质霉CBH II酶的三个重复的标准误差。40小时反应,100 μ g酶/g PASC, 50mM醋酸钠,pH 4. 8。图6显示在63°C孵育12小时后验证集嵌合体的标准化残留活性。在用PASC作底物、50°C、25mM醋酸钠缓冲液pH 4. 8的2小时测定中确定CBH II酶在浓缩培养上清液中的残留活性。图7亲本和嵌合体CBH II酶表达载体hp352/PGK91-l-ss的图谱。绘出的载体包含野生型红褐肉座菌cel6a(CBH II酶)基因。对于嵌合的和亲本的CBH II酶来说,在 ss Lys-Arg Kex2位点后面的CBD/接头氨基酸序列是ASCSSVWGQCGGQNWSGPTCCASGSTCVYSNDYYSQCLPGAASSSSSTRAASTTSRVSPTTSRSSSATP PPGSTTTRVPPVGSGTATYS(SEQ IDNO 8)。图8显示CBH II亲本和51CBH II嵌合体的观察到的T5tl值和预测的T5tl值。线表示线性回归模型方程(表7中的参数)。亲本CBH II T5tl值被表示为正方形。图9A-C显示作为温度的函数的针对微晶纤维素(Avicel)的CBH II比活性。(a) CBH II亲本和嵌合体的比活性。(b)CBH II亲本、C311S突变体和B7P3单区块取代嵌合体的比活性。反应在具有15mg/mL的微晶纤维素浓度的50mM醋酸钠pH 4. 8中运行16小时。 (c)作为温度的函数的针对微晶纤维素的CBH II亲本、单点突变体和单区块取代嵌合体活性(μ g/葡萄糖/mL反应)。反应在具有15mg/mL的微晶纤维素浓度的50mM醋酸钠pH 4. 8 中运行150分钟。在55°C配制CBH II酵母培养上清液以达到粗略相等的还原糖产物浓度。 呈现的数据是两个独立重复的平均值,其中误差棒指示每个温度点的双份活性值。
图10显示来自亲本1特异腐质霉和亲本3嗜热毛壳菌的区块7的ClustalW多重序列比对。箭头表示在回复突变体中改变的残基。图11显示21111331嵌合体点突变体的T5tl值。值显示为两个独立重复的平均值, 误差棒指示每个点突变体的双份T5tl值。在50mM醋酸钠缓冲液PH 4. 8中、在所测试的温度下进行10分钟失活。通过在50°C在以上缓冲液中与lg/L磷酸膨胀纤维素(PASC)孵育 100分钟来确定残留活性。图12显示特异腐质霉和红褐肉座菌的亲本CBH II、Ser单点突变体和B7P3区块取代嵌合体的T5tl值,值显示为三个独立重复的平均值,误差棒指示每个CBH II的一倍标准偏差。在50mM醋酸钠缓冲液pH 4. 8中、在所测试的温度下进行10分钟失活。通过在50°C 在以上缓冲液中与lg/L磷酸膨胀纤维素(PASC)孵育100分钟来确定残留活性。图13显示CBH II嵌合体31311112、13231111和来自黄孢原毛平革菌且从酿酒酵母异源分泌的野生型CBH II催化结构域(融合至红褐肉座菌CBM)的T5tl值。值显示为两个独立的重复,其中误差棒指示每个试验的值。在50mM醋酸钠缓冲液pH 4. 8中、在所测试的温度下进行10分钟失活。通过在50°C在以上缓冲液中与lg/L磷酸膨胀纤维素(PASC) 孵育100分钟来确定残留活性。图14A-D显示CBH II重组区块界面。(a)其中可能存在新颖的非亲本残基对 (连接球)的区块间位点通常被表面暴露,潜在地容许溶剂筛选相互作用。(b)实例界面 (B5-B6)图解了主链(对齐的红褐肉座菌和特异腐质霉的漫画)的保守、在表面上的可变残基以及在残基173和残基253(箭头)的新颖的埋藏的疏水对的比较稀少的可能性。(c) 虽然在B3部分(黄色)中观察到与底物结合有关的移动(箭头),来自红褐肉座菌的区块 1-4(黑色漫画)匹配同源的特异腐质霉区块(颜色标记的漫画)而没有大的偏差。(d)同源的区块5-8也是相似的,但在B6、B7接合处的indel (箭头)将需要构象改变。图15显示了 C314S突变的结构分析及其稳定作用。(a)向高分辨率特异腐质霉结构(Iocn)的氢位添加 REDUCE. 1 (b)在 PyMOL(http: (//)www. pymol. org)中对模拟的丝氨酸结构的重构几何学建模。在SHARPEN2建模平台中的侧链优化(用所有原子Rosetta能量函数)还表明,Cys314和kr314将贡献出氢键给ftx)339的羰基,并接受来自Gly316的酰胺的氢键。丝氨酸优异的氢键合能力可能在包含丝氨酸的变体的更大稳定性中起作用。另一种可能的解释是几何互补性。具体地说,Iocn的Cys位显示构象应力(conformational strain)的证据,因为侧链被显著弯曲(S卩,N-C-C α-C β的非正常二面角(improper dihedral angle)是距标准位置6° ),增加了距离Pro羰基的距离。图中前面没有字母的数字表示氢键距离(A )。详述如在此处和在所附权利要求书中所用的那样,除非上下文另外清楚地指明,否则单数形式“一种”、“一个”和“该”包括多个指称。因此,例如,提及“结构域”包括多个这样的结构域,提及“蛋白,,包括提及一种或更多种蛋白,等等。同样,除非另外声明,“或”表示“和/或”。类似地,“包含(comprise)”、“包含 (comprises) ”、“包含(comprising),,、“包括(include) ”、“包括(includes)” 和“包括 (including)”是可互换的并且不旨在限制。还应理解,在各实施方案的描述使用术语“包含”时,本领域技术人员将理解在一些具体情况下,实施方案能够可替代地使用语言“基本上由...组成”或“由...组成”描述。尽管在本公开的方法和组合物的实施中可使用与本文所述的方法和材料相似或等同的方法和材料,但在此处描述了示例性方法、装置和材料。除非另外定义,否则本文所用的所有技术术语和科学术语具有与本公开所属技术领域的普通技术人员所通常理解的相同的含义。因此,如本申请通篇所使用的,以下术语应具有以下含义。最近的研究已证明在实验室规模的生物质转化工程中来自嗜热真菌的纤维素酶相对于嗜温真菌的纤维素酶的优异表现,在实验室规模的生物质转化工程中增强的稳定性导致在适中的温度和高温下在更长的时间段内保留活性。真菌纤维素酶是有吸引力的,因为它们具有高度活性并且能够以高达40g/L的水平表达在真菌宿主如红褐肉座菌(无性型里氏木霉(Trichoderma reesei))的上清液中。不幸地,证明的热稳定的真菌纤维素酶集很小。在进行性(processive)纤维二糖水解酶II类(CBH II)酶的情况下,在CAZy数据库中注释了少于10种天然的热稳定基因序列。如在此更完整地描述的,使用递归的嵌合多肽的产生和分析鉴定了具有赋予的热稳定性和改进的活性的特别稳定的结构域和最终的具体氨基酸。如在以下更详细地描述的,本发明至少部分地基于催化纤维素水解的新颖的酶的产生和表达。在一个实施方案中,提供了已被工程化以便在增加的温度下水解纤维素的新颖的多肽。这些多肽包括已被改变而在指定的残基处包括氨基酸取代的纤维二糖水解酶变体。尽管这些变体将在以下更详细地描述,应理解本公开的多肽可包含一个或更多个修饰的氨基酸。存在修饰的氨基酸可能在例如以下方面是有利的(a)提高多肽的半衰期,(b) 热稳定性,以及(c)增加的底物转换。氨基酸在重组生产期间被例如共翻译地或翻译后地修饰(例如,在哺乳动物细胞中表达期间在N-X-S/T基序处的N连接的糖基化)或者通过合成手段修饰。因此,“突变的”、“变异的”或“修饰的”蛋白、酶、多核苷酸、基因或细胞表示已从亲本的蛋白、酶、多核苷酸、基因或细胞改变或衍生、或以某种方式不同或变化的蛋白、 酶、多核苷酸、基因或细胞。突变的或修饰的蛋白或酶通常但不一定由突变的多核苷酸或基因表达。“突变”表示导致突变的蛋白、酶、多核苷酸、基因或细胞的任何过程或机制。这包括其中蛋白、酶、多核苷酸或基因序列被改变的任何突变以及从这种突变产生的细胞的任何可检出的改变。通常,突变通过一个或多个核苷酸残基的点突变、缺失或添加而发生在多核苷酸或基因序列中。突变包括在基因的蛋白编码区内出现的多核苷酸变化以及在蛋白编码序列之外的区域中的变化,所述蛋白编码序列之外的区域包括但不限于调节序列或启动子序列。基因中的突变可以是“沉默的”,即,在表达后不反映在氨基酸变化中,产生该基因的“序列保守性”变体。这一般在一个氨基酸对应于多于一个密码子时发生。修饰的氨基酸的非限制性实例包括糖基化的氨基酸、硫酸化的氨基酸、异戊二烯基化的(法尼基化的、香叶基香叶基化的)氨基酸、乙酰化的氨基酸、酰化的氨基酸、聚乙二醇化的氨基酸、生物素酰化的氨基酸、羧基化的氨基酸、磷酸化的氨基酸等等。在氨基酸修饰上足以指导本领域技术人员的参考文献在本文中是充足的。实例方案见于Walker (1998) Protein Protocols on CD-ROM(光盘上的蛋白质实验方案)(Humana Press, Towata, N. J.)。本文描述了用于产生和分离本公开内容的修饰的纤维二糖水解酶多肽的重组方法。除了重组产生之外,该多肽可通过使用固相技术的直接肽合成来产生(例如, Mewart 等人(I969)Solid-Phase Peptide Synthesis (固相肽合成)(WH Freeman Co, San Francisco);和 Merrifield(196 J. Am. Chem. Soc. 85 :2149-2154)。肽合成可通过利用人工技术或通过自动化来进行。自动化合成可例如利用Applied Biosystems 431A肽合成器 (Perkin Elmer, Foster City, Calif.)根据制造商提供的说明来实现。“纤维二糖水解酶II”或“CBH II酶”表示广泛分布于细菌和真菌的纤维素酶家族 6蛋白中的一种酶。这种酶参与纤维素的水解。所谓“纤维素酶活性”表示能够水解纤维素的酶。纤维素酶是指由真菌、细菌和原生动物产生的催化纤维素的水解的一类酶。然而,还存在由其他类型生物如植物和动物产生的纤维素酶。这组酶的EC编号是EC 3.2. 1.4。基于催化的反应类型,存在五种一般的纤维素酶类型内切纤维素酶(endo-cellulase);外切纤维素酶(exo-cellulase),在这个类别中存在两种主要的外切纤维素酶类型(或纤维二糖水解酶,缩写CBH)- —种类型从纤维素的还原端渐进地起作用,并且一种类型从纤维素的非还原端渐进地起作用;纤维二糖酶或β-葡糖苷酶水解酶;氧化性纤维素酶;以及利用磷酸代替水来解聚纤维素的纤维素磷酸化酶。大多数真菌纤维素酶具有两个结构域由柔性接头连接的催化结构域和纤维素结合结构域。在本公开的具体实施方案中,纤维素酶活性是CBH活性。在一些情况下,本文所述的序列包括纤维素结合结构域和催化结构域二者,或只包括催化结构域。在只提供催化结构域序列的这种情况下,应认识到,纤维素结合结构域(CBD)如在SEQ ID NO :8中提供的纤维素结合结构域可以直接地或通过接头与催化结构域功能性相连(作为编码序列的一部分或在后面融合)。“蛋白”或“多肽”这些术语在本文可互换地使用,包括由被称为肽键的化学键连接在一起的称为氨基酸的化学结构单元的一个或多个链。“酶”表示催化或促进(具体地或多或少)一种或多种化学反应或生物化学反应的任何物质,优选全部或大部分由蛋白组成。 “天然”或“野生型”蛋白、酶、多核苷酸、基因或细胞表示在自然界中出现的蛋白、酶、多核苷酸、基因或细胞。“氨基酸序列”是氨基酸的聚合物(蛋白、多肽等等)或代表氨基酸聚合物的字符串,这取决于上下文。术语“蛋白”、“多肽”和“肽1本文可互换地使用。“氨基酸”是具有如下结构的分子其中中心碳原子与氢原子、羧酸基团(其碳原子在此称为“羧基碳原子”)、 氨基基团(其氮原子在此称为“氨基氮原子”)和侧链基团R相连。当加入到肽、多肽或蛋白中时,在连接一个氨基酸与另一个氨基酸的脱水反应中氨基酸失去其氨基酸羧基的一个或多个原子。结果,当加入到蛋白中时,氨基酸被称为“氨基酸残基”。给定蛋白的具体氨基酸序列(即,当从氨基端到羧基端书写时为多肽的“一级结构”)由mRNA的编码部分的核苷酸序列决定,mRNA进而由遗传信息指定,所述遗传信息通常为基因组DNA (包括细胞器DNA,例如线粒体DNA或叶绿体DNA)。因此,确定基因的序列帮助预测对应的多肽的一级序列和更特别的是预测由该基因或多核苷酸序列编码的多肽或蛋白的作用或活性。特定序列的“保守的氨基酸取代”或简单地说“保守变化”是指一个氨基酸或一系列氨基酸由基本上相同的氨基酸序列替换。本领域技术人员将认识到,改变、添加或缺失单个氨基酸或在编码的序列中的氨基酸百分比的单个取代、缺失或添加导致“保守变化”,其中该变化导致氨基酸的缺失、氨基酸的添加或氨基酸被化学上相似的氨基酸取代。提供功能上相似的氨基酸的保守取代表是本领域公知的。例如,一个保守取代组包括丙氨酸(A)、丝氨酸( 和苏氨酸(T)。另一个保守取代组包括天冬氨酸(D)和谷氨酸 (E)。另一个保守取代组包括天冬酰胺(N)和谷氨酰胺⑴)。又另一个保守取代组包括精氨酸(R)和赖氨酸(K)。另一个保守取代组包括异亮氨酸(I)、亮氨酸(L)、甲硫氨酸(M)和缬氨酸(V)。另一个保守取代组包括苯丙氨酸(F)、酪氨酸(Y)和色氨酸(W)。因此,列出的多肽序列(例如,SEQ ID NO :2、4、6和SEQ ID NO 12-78)的“保守氨基酸取代”包括该多肽序列的氨基酸百分比(通常小于10% )被保守选择的同一保守取代组的氨基酸取代。因此,本公开内容的多肽的保守取代的变化可包含100、75、50、25或10 个同一保守取代组的保守取代的变化的取代。应理解不改变核酸分子的编码活性的序列的添加,如非功能序列或非编码序列的添加是基本核酸的保守变化。酶的“活性”是其催化反应即“起作用”的能力的量度,并且可表示为产生反应产物的速率。例如,酶活性可被表示为每单位时间或每单位酶产生的产物的量(例如,浓度或重量),或者以亲和力或解离常数表示。在本文可互换使用的“纤维二糖水解酶活性或纤维素酶活性”、“纤维二糖水解酶或纤维素酶的生物活性”或“纤维二糖水解酶或纤维素酶的功能活性”是指由根据标准技术在体内或体外确定的,对纤维素底物具有纤维素酶活性以及在特定实施方案中具有纤维二糖水解酶活性的蛋白、多肽所发挥的活性。本领域技术人员将理解,公开的核酸构建体的许多保守变化产生功能上相同的构建体。例如,如以上所讨论的,由于遗传密码的简并性,“沉默取代”(即,不导致编码多肽的变化的核酸序列中的取代)是编码氨基酸的每个核酸序列的暗含的特征。类似地,在氨基酸序列中一个或若干个氨基酸的“保守氨基酸取代”被具有高度相似特性的不同氨基酸取代,也容易被鉴定为与公开的构建体高度相似。每条公开序列的这种保守变化是本文提供的多肽的特征。“保守变体”是如下蛋白或酶其中给定氨基酸残基已被改变但没有改变该蛋白或酶的总体构象和功能,包括但不限于,氨基酸被具有相似特性的氨基酸替换,所述相似特性包括极性或非极性特征、大小、形状和电荷。除了表明为保守的氨基酸之外的氨基酸可能在蛋白或酶中不同,以使得在具有相似功能的任何两种蛋白之间的蛋白或氨基酸序列相似性百分比可以改变,并且可以是,例如,至少30 %、至少50 %、至少70 %、至少80 %或至少 90%,如根据比对方案所确定的。如本文提及的“序列相似性”表示核苷酸序列或蛋白序列相关的程度。两条序列之间的相似性程度可基于序列同一性百分比和/或序列保守性百分比。“序列同一性”本文表示两个核苷酸序列或氨基酸序列不变的程度。“序列比对”表示出于评定相似性程度的目的,将两条或更多条序列对齐以达到最大的同一性水平(并且在氨基酸序列的情况下,为保守性水平)的方法。许多用于比对序列和评定相似性/同一性的方法是本领域已知的,诸如,例如,其中相似性是基于MEGALIGN算法的Cluster方法,以及 BLASTN、BLASTP 和 FASTA(Lipman 和 Pearson,1985 ;Pearson 和 Lipman,1988)。当使用所有这些程序时,优选的设置是那些导致最高的序列相似性的设置。特定多肽的非保守修饰是取代不被表征为保守取代的任何氨基酸的修饰。例如, 跨越六个组的界限的任何取代在以上列出。这些取代包括碱性氨基酸或酸性氨基酸取代中性氨基酸(例如,Asp、Glu、Asn或Gln取代Val、lie、Leu或Met),芳香族氨基酸取代碱性氨基酸或酸性氨基酸(例如,Phe, Tyr或Trp取代Asp、Asn, Glu或Gln),或者不用同类的氨基酸替换氨基酸的任何其他取代。碱性侧链包括赖氨酸(K)、精氨酸00、组氨酸(H);酸性侧链包括天冬氨酸(D)、谷氨酸(E);不带电的极性侧链包括甘氨酸(G)、天冬酰胺(N)、 谷氨酰胺⑴)、丝氨酸(S)、苏氨酸(T)、酪氨酸(Y)、半胱氨酸(C);非极性侧链包括丙氨酸 (A)、缬氨酸(V)、亮氨酸(L)、异亮氨酸(I)、脯氨酸(P)、苯丙氨酸(F)、甲硫氨酸(M)、色氨酸(W) 分支的侧链包括苏氨酸(T)、缬氨酸(V)、异亮氨酸(I);芳香族侧链包括酪氨酸 (Y)、苯丙氨酸(F)、色氨酸(W)、组氨酸(H)。“亲本”蛋白、酶、多核苷酸、基因或细胞是使用任何方法、工具或技术从其获取或制备任何其他蛋白、酶、多核苷酸、基因或细胞的任何蛋白、酶、多核苷酸、基因或细胞,而不论该亲本本身是天然的还是突变的。亲本多核苷酸或基因编码亲本蛋白或酶。除了提供CBH II多肽的变体以外,还提供了包含以下结构域的嵌合多肽1)分离自第一亲本链并且被修饰以包含氨基酸取代的变异结构域;以及2)分离自第二亲本链的未被修饰或被修饰以包括新活性或补充该结构域的活性的结构域。本文还公开了用于将本公开内容的嵌合多肽工程化的方法。本公开内容提供了相比于野生型蛋白或亲本蛋白具有增加的热稳定性的纤维素酶和纤维二糖水解酶(CBH)II变体、突变体和嵌合体,其中所述野生型蛋白由SEQ ID NO 2、4或6组成。该变体在包含其中X是C、A或G的序列GE)(DG (SEQ ID NO 107)的基序的 C端区域中包含丝氨酸,其中X被丝氨酸取代,该变体包含纤维素酶活性并且其中该多肽与在序列GEXDG(SEQ ID NO 107)中缺乏丝氨酸的野生型纤维素酶相比具有增加的热稳定性。 在一个实施方案中,该变体在见于大多数纤维素酶和纤维二糖水解酶II蛋白(如以下更完整的描述的)的基序GE⑶G(见,例如,SEQ ID NO :2的氨基酸312-316)中包含至少一个 Cys — Ser突变,并且可包含改进热稳定性或活性的另外的突变。纤维素酶之间的同一性可能相当低。如以上所述的丝氨酸取代可适用于具有SEQ ID NO :107的基序的任何纤维素酶 (例如,其中该多肽具有与SEQ ID NO 2或SEQ ID NO 4的至少60%或更大的同一性)。例如,本公开内容提供了具有增加的热稳定性和纤维素酶活性的多肽,该多肽包含的序列是包含C314S的至少85%、90%、95%、98%、99%相同的SEQ ID NO :2 ;是包含 C311S的至少85%、90%、95%、98%、99%相同的SEQ ID NO :4 ;是包含 C310S 的至少 85%、 90%、95%、98%、99%相同的 SEQ ID NO :12 ;是包含 C312S 的至少 85%、90%、95%、98%、 99%相同的 SEQ ID NO :13 ;是包含 C314S 的至少 85%、90%、95%、98%、99%相同的 SEQ ID N0:14;是包含C315S的至少85%、90%、95%、98%、99%相同的SEQ ID N0:15;是包含 C313S 的至少 85%、90%、95%、98%、99%相同的 SEQ ID NO :16 ;是包含 C311S 的至少 85%、90%、95%、98%、99%相同的 SEQ ID NO :17 ;是包含 C313S 的至少 85%、90%、95%、 98%、99%相同的 SEQ ID NO :19 ;是包含 C312S 的至少 85%、90%、95%、98%、99%相同的 SEQ ID NO :21 ;是包含 C311S 的至少 85%、90%、95%、98%、99%相同的 SEQ ID NO :22 ;是包含C400S的至少85%、90%、95%、98%、99%相同的SEQ ID NO :64 ;是包含C407S的至少 85%、90%、95%、98%、99%相同的 SEQ ID NO :65 ;是包含 C394S 的至少 85%、90%、95%、 98%、99%相同的 SEQ ID NO :66 ;是包含 C400S 的至少 85%、90%、95%、98%、99%相同的 SEQ ID NO :67 ;是包含 C400S 的至少 85%、90%、95%、98%、99%相同的 SEQ ID NO :68 ;是包含C400S的至少85%、90%、95%、98%、99%相同的SEQ ID NO :69 ;是包含C400S的至少 85%、90%、95%、98%、99%相同的 SEQ ID NO :70 ;是包含 C400S 的至少 85%、90%、95%、 98%、99%相同的 SEQ ID NO :71 ;是包含 C400S 的至少 85%、90%、95%、98%、99%相同的 SEQ ID N0:72;是包含C400S的至少85%、90%、95%、98%、99%相同的SEQ ID NO :73 ;是包含C400S的至少85%、90%、95%、98%、99%相同的SEQ ID NO :74 ;是包含C400S的至少 85%、90%、95%、98%、99%相同的 SEQ ID NO :75 ;是包含 C407S 的至少 85%、90%、95%、 98%、99%相同的 SEQ ID NO :76 ;是包含 C394S 的至少 85%、90%、95%、98%、99%相同的 SEQ ID N0:77;或是包含C412S的至少85%、90%、95%、98%、99%相同的SEQ ID NO 78 ; 其中前述多肽具有纤维素酶活性和与其对应的缺乏Cys — Ser突变的亲本(野生型)蛋白相比改进的热稳定性。又在另一个实施方案中,本公开内容提供了如以上所述的多肽,然而,它们还包含至少一个可通过与SEQ ID NO :64比对而确定的添加突变,其中SEQ ID NO :64在413位包含 ftx),或在231位包含Ser或Thr,或在305位包含Ser或Thr,或在410位包含Gln或Asn, 或在82位包含Glu,或包含前述的任意组合。类似的取代可通过SEQ ID NO :64的氨基酸序列与SEQ ID NO :2、4、6、SEQ ID NO 12-63以及SEQ ID NO :65-78的氨基酸序列的序列比对来确定。本公开内容还提供了重组产生、合成制备或以其他方式非天然产生的基本上纯化的多肽,其中该多肽包括除了在其中存在C — S取代的以下鉴定的位置之外具有1-10个、 10-20个或20-30个保守氨基酸取代的以下列出的序列包含C314S 的 SEQ ID NO 2 ;包含C311S 的 SEQ ID NO 4 ;[0066 [0067 [0068 [0069 [0070 [0071 [0072 [0073 [0074 [0075 [0076 [0077 [0078 [0079 [0080 [0081 [0082 [0083 [0084 [0085 [0086 [0087 [0088 [0089 [0090多肽.
包含C310S 包含C312S 包含C314S 包含C315S 包含C313S 包含C311S 包含C313S 包含C312S 包含C311S 包含C400S 包含C407S 包含C394S 包含C400S 包含C400S 包含C400S 包含C400S 包含C400S 包含C400S 包含C400S 包含C400S 包含C400S 包含C407S 包含C394S 包含C412S
的的 的的 的的 的的 的的 的的 的的 的的 的的 的的 的的 的的
SEQ SEQ SEQ SEQ SEQ SEQ SEQ SEQ SEQ SEQ SEQ SEQ SEQ SEQ SEQ SEQ SEQ SEQ SEQ SEQ SEQ SEQ SEQ SEQ
ID ID ID ID ID ID ID ID ID ID ID ID ID ID ID ID ID ID ID ID ID ID ID ID
NO NO NO NO NO NO NO NO NO NO NO NO NO NO NO NO NO NO NO NO NO NO NO NO
12
13
14
15
16 17 19 21 22 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78,
或
“分离的多肽”是指与其天然伴随的其他污染物例如蛋白、脂质和多核苷酸分离的该术语包括已自其天然存在环境或表达系统(例如,宿主细胞或体外合成)中移出或纯化的多肽。“基本上纯的多肽”是指如下组合物在其中多肽物类是存在的优势物类(即,在摩尔基础或重量基础上它比该组合物中的任何其他个体大分子物类更丰富),并且当目标物类构成存在的大分子物类的按摩尔或重量%计至少约50%时一般是基本上纯化的组合物。一般而言,基本上纯的多肽组合物将构成该组合物中所存在的所有大分子物类的按摩尔或重量%计的约60%或更多、约70%或更多、约80%或更多、约90%或更多、约95%或更多以及约98%或更多。在一些实施方案中,将目标物类纯化至基本的均一性(即,通过常规检测方法不能在组合物中检测出污染物类),其中组合物基本上由单一大分子物类组成。 溶剂物类、小分子(< 500道尔顿)、以及元素离子物类不被认为是大分子物类。“参考序列”是指用作序列比较的基础的限定序列。参考序列可以是较大序列的子部分(subset),例如,全长基因或多肽序列的区段。一般而言,参考序列长度可为至少20 个核苷酸或氨基酸残基,至少25个核苷酸或残基,至少50个核苷酸或残基,或核酸或多肽的全长。因为两个多核苷酸或多肽可以各自(1)包括在这两条序列之间相似的序列(即完
15整序列的一部分),以及⑵还可以包括在这两条序列之间相异的序列,所以在两条(或多条)多核苷酸或多肽之间的序列比较通常是通过在“比较窗口”比较这两条多核苷酸或多肽的序列而进行的,以识别和比较局部区域的序列相似性。“序列同一性”表示在比较窗口上两条氨基酸序列基本上相同(即,在逐个氨基酸的基础上)。术语“序列相似性”是指共有相同的生物物理特点的相似氨基酸。术语“序列同一性百分比”或“序列相似性百分比”是通过如下方式计算的在比较窗口比较两条最佳比对的序列,确定相同的残基(或相似的残基)在两条多肽序列中都存在的位置的数目以得出匹配的位置的数目,用匹配的位置的数目除以比较窗口中的位置的总数目(即,窗口大小),并且将结果乘以100得出序列同一性百分比(或序列相似性百分比)。关于多核苷酸序列,这些术语序列同一性和序列相似性具有对于蛋白质序列所述的类似的含义,其中术语“序列同一性的百分比”指示在比较窗口上两条多核苷酸序列是相同的(在逐个核苷酸的基础上)。这样,还可以计算多核苷酸序列同一性的百分比(或多核苷酸序列相似性的百分比,例如,对于沉默取代或其他取代来说的,基于分析算法的)。最大对应可通过使用本文所述的序列算法之一(或本领域普通技术人员可用的其他算法)或通过视觉检查来确定。当应用于多肽时,术语基本的同一性或基本的相似性表示两条多肽序列当例如通过使用缺省空位权重(default gap weight)的程序BLAST、GAP或BESTFIT或通过视觉检查进行最优比对时共有序列同一性或序列相似性。类似地,在应用于两条核酸的语境时,术语基本的同一性或基本的相似性表示这两条核酸序列当例如通过使用缺省空位权重(如本文其他地方描述的)的程序BLAST、GAP或BESTFIT或通过视觉检查进行最优比对时共有序列同一性或序列相似性。适于确定序列同一性百分比或序列相似性百分比的算法的一个实例是FASTA算法,它描述于 Pearson,W. R.&Lipman,D.J.,(1988) Proc. Natl. Acad. Sci. USA 85:2444。还参见 W. R. Pearson,(1996)Methods Enzymology266 :227_258。在计算同一性百分比或相似性百分比的DNA序列的FASTA比对中使用的优选的参数被优化,BL50 Matrix 15 :_5, k-tuple = 2 ;连接罚分(joining penalty) = 40,最优=28 ;空位罚分-12,空位长度罚分 =-2 ;以及宽度=16。有用的算法的另一个实例是PILEUP。PILEUP利用渐进的配对比对从一组相关序列中创建多序列比对来显示关系和序列同一性百分比或序列相似性百分比。它还绘制树图或系统树图,显示用于创建比对的聚类关系。PILEUP利用Feng&Doolittle,(1987) J. Mol. Evo 1. 35 =351-360的渐进比对方法的简化形式。所用的方法与Higgins&Siarp,CABIOS 5 151-153,1989所述的方法类似。该程序可比对高达300条序列,各具有5,000个核苷酸或氨基酸的最大长度。多重比对步骤开始于两条最相似序列的配对比对,产生两条比对序列的簇。然后这种簇与下一个最相近的序列或比对的序列的簇进行比对。通过两个个体序列的配对比对的简单延伸对序列的两个簇进行比对。通过一系列渐进的配对比对实现最终的比对。通过指定具体的序列及其序列比对区域的氨基酸或核苷酸坐标和通过指定程序参数来运行该程序。使用PILEUP,利用以下参数将参考序列与其他测试序列进行比较来确定序列同一性百分比(或序列相似性百分比)关系缺省空位权重(3. 00)、缺省空位长度权重 (0. 10)以及权重端空位(weighted end gap)。PILEUP可以从GCG序列分析软件包例如7. 0版本获得(Devereaux 等人,(1984) Nuc. Acids Res. 12 :387-395)。适于多重DNA和氨基酸序列比对的算法的另一个实例是CLUSTALW程序 (Thompson,J. D.等人,(1994) Nuc. Acids Res. 22 :4673-4680)。CLUSTALW 在序列组之间进行多重配对比较并且基于序列同一性将它们装配成多重比对。空位幵放罚分(Gap open penalty)和空位扩展罚分(Gap extension penalty)分别是10和0· 05。对于氨基酸比对来说,BLOSUM算法可用作蛋白权重矩阵(protein weight matrix) (Henikoff 和 Henikoff, (1992) Proc. Natl. Acad. Sci. USA 89 :10915-10919)。如以上所提到的,可通过序列比对和在基序GE⑶G(见,例如,SEQID NO 2的氨基酸312-316)进行的取代来鉴定纤维二糖水解酶和纤维素酶家族成员。然后可如下所述在不同的温度和条件下对修饰的多肽的活性进行测定来鉴定引入有利活性的那些修饰。示例性序列可见于以下GenBmk登录号,它们的序列通过引用并入本文。
权利要求
1.一种重组多肽,所述重组多肽在C端区域中在包含其中X是C、A或G的序列 GEXDG(SEQ ID NO 107)的基序中包含丝氨酸,其中X被丝氨酸取代,其中所述变体包含纤维素酶活性并且其中所述多肽与在序列GE)(DG (SEQ ID NO 107)中缺乏丝氨酸的野生型纤维素酶相比具有增加的热稳定性。
2.如权利要求1所述的重组多肽,其中所述多肽包含如下序列所述序列是包含C314S 的至少85%、90%、95%、98%、99%相同的SEQ ID NO :2 ;是包含 C311S 的至少 85%、90%、 95%、98%、99%相同的 SEQ ID NO :4 ;是包含 C310S 的至少 85%、90%、95%、98%、99%相同的 SEQ ID N0:12;是包含C312S的至少85%、90%、95%、98%、99%相同的SEQ ID NO: 13 ;是包含 C314S 的至少 85%、90%、95%、98%、99%相同的 SEQ ID NO :14 ;是包含 C315S 的至少85%、90%、95%、98%、99%相同的 SEQ ID NO :15 ;是包含C313S 的至少85%、90%、 95%、98%、99%相同的 SEQ ID NO :16 ;是包含C311S 的至少85%、90%、95%、98%、99%相同的 SEQ ID N0:17;是包含C313S的至少85%、90%、95%、98%、99%相同的SEQ ID NO: 19 ;是包含 C312S 的至少 85%、90%、95%、98%、99%相同的 SEQ ID NO :21 ;是包含 C311S 的至少85%、90%、95%、98%、99%相同的 SEQ ID NO :22 ;是包含C400S 的至少85%、90%、 95%、98%、99%相同的 SEQ ID NO :64 ;是包含C407S 的至少85%、90%、95%、98%、99%相同的 SEQ ID N0:65;是包含C394S的至少85%、90%、95%、98%、99%相同的SEQ ID NO: 66;是包含C400S的至少85%、90%、95%、98%、99%相同的SEQ ID NO :67 ;是包含 C400S 的至少85%、90%、95%、98%、99%相同的 SEQ ID NO :68 ;是包含C400S 的至少85%、90%、 95%、98%、99%相同的 SEQ ID NO :69 ;是包含C400S 的至少85%、90%、95%、98%、99%相同的 SEQ ID N0:70;是包含C400S的至少85%、90%、95%、98%、99%相同的SEQ ID NO: 71;是包含C400S的至少85%、90%、95%、98%、99%相同的SEQ ID NO :72 ;是包含 C400S 的至少85%、90%、95%、98%、99%相同的 SEQ ID NO :73 ;是包含C400S 的至少85%、90%、 95%、98%、99%相同的 SEQ ID NO :74 ;是包含 C400S 的至少 85%、90%、95%、98%、99% 相同的 SEQ ID NO :75 ;是包含 C407S 的至少 85%、90%、95%、98%、99%相同的 SEQ ID NO :76 ;是包含 C394S 的至少 85%、90%、95%、98%、99%相同的 SEQ ID NO 77 ;或是包含 C412S的至少85%、90%、95%、98%、99%相同的SEQ ID NO :78 ;其中前述多肽具有纤维素酶活性和与其对应的缺乏Cys — Ser突变的亲本(野生型)蛋白相比改进的热稳定性。
3.—种重组多肽,所述重组多肽包含除了在其中存在C — S取代的以下已鉴定的位置之外具有1-10个、10-20个或20-30个保守氨基酸取代的以下列出的序列包含C314S的 SEQ ID NO 2 ;包含 C311S 的 SEQ IDNO 4 ;包含 C310S 的 SEQ ID NO 12 ;包含 C312S 的 SEQ ID NO 13 ;包含 C314S 的 SEQ ID NO 14 ;包含 C315S 的 SEQ ID NO 15 ;包含 C313S 的 SEQ ID NO :16 ;包含 C311S 的 SEQ ID NO :17 ;包含 C313S 的 SEQ IDNO 19 ;包含 C312S 的 SEQ ID NO 21 ;包含 C311S 的 SEQ ID NO 22 ;包含 C400S 的 SEQ ID NO 64 ;包含 C407S 的 SEQ ID NO 65 ;包含 C394S 的 SEQ ID NO 66 ;包含 C400S 的 SEQ ID NO 67 ;包含 C400S 的 SEQ IDNO :68 ;包含 C400S 的 SEQ ID NO :69 ;包含 C400S 的 SEQ ID NO 70 ;包含 C400S 的 SEQ ID NO 71 ;包含 C400S 的 SEQ ID NO 72 ;包含 C400S 的 SEQ ID NO 73 ;包含 C400S 的 SEQ ID NO 74 ;包含 C400S 的 SEQ IDNO 75 ;包含 C407S 的 SEQ ID NO 76 ;包含 C394S 的 SEQ ID NO 77 或包含 C412S 的 SEQ ID NO :78。
4.如权利要求1所述的重组多肽,所述重组多肽包含选自由以下组成的组的序列(a)具有对SEQID NO :2的至少85%或更大的同一性的、在314位具有kr的多肽,并且其中所述多肽具有纤维素酶活性;(b)具有对SEQID NO :4的至少70%或更大的同一性的、在311位具有kr的多肽,并且其中所述多肽具有纤维素酶活性;(c)对选自由以下组成的组的序列具有70%或更大的同一性的多肽(i)SEQID NO 12 且在 310 位具有 kr,(ii) SEQ ID NO 13 且在 312 位具有 kr,(iii) SEQ ID NO :14 且在 314 位具有 kr,(iv)SEQ ID NO :15 且在 315 位具有 kr,(ν) SEQ ID NO :16 且在 313 位具 WSer, (vi)SEQ ID NO :17 且在 311 位具有 kr,(vii) SEQ ID NO : 19 且在 313 位具有 kr, (viii)SEQ IDNO :21 且在 312 位具有 kr,以及(ix)SEQ ID NO :22 且在 311 位具有 kr,并且其中前述多肽的每一种都具有纤维素酶活性;(d)包含来自两个不同的亲本纤维二糖水解酶多肽的至少两个结构域的嵌合多肽,其中所述结构域从N端到C端包含(区段1)-(区段幻-(区段幻-(区段4)-(区段幻-(区段6)-(区段7)-(区段8);其中区段 1 包含对 SEQ ID NO :2( “1”)、SEQ ID NO 4( “2”)或 SEQ ID NO 6( “3”)的氨基酸残基大约1到大约X1具有至少50-100%同一性的序列;区段2包含对SEQ ID NO 2(“1”)、SEQ ID NO :4( “2”)或SEQ ID N0:6(“3,,)的氨基酸残基X1到大约&具有至少 50-100% 同一性的序列;区段 3 包含对 SEQID NO 2( “1”)、SEQ ID NO :4( “2”)或 SEQ ID N0:6(“3”)的氨基酸残基&到大约知具有至少50-100%同一性的序列;区段4包含对 SEQ ID NO 2( “1”)、SEQ ID NO :4( “2”)或 SEQ ID NO 6( “3”)的氨基酸残基知到大约X4具有至少50-100%同一性的序列;区段5包含对SEQ ID NO 2( “1”)、SEQID NO 4( “2”)或SEQ ID N0:6( “3”)的大约氨基酸残基&到大约、具有至少50-100%同一性的序列;区段 6 包含对 SEQ ID NO 2( “1”)、SEQ ID NO 4( “2”)或 SEQ ID NO 6( “3”) 的氨基酸残基X5到大约&具有至少50-100%同一性的序列;区段7包含对SEQ ID NO 2( “1”)、SEQ ID NO :4( “2”)或SEQID N0:6( “3”)的氨基酸残基知到大约X7具有至少 50-100%同一性的序列;并且区段8包含对SEQ ID NO 2( “1”)、SEQ ID NO :4( “2”)或 SEQ ID N0:6( “3”)的氨基酸残基X7到大约知具有至少50-100%同一性的序列;其中 X1 是 SEQ ID NO :2 的残基 43、44、45、46 或 47,或是 SEQ ID NO :4 或 SEQ ID NO 6 的残基 42、43、44、45 或 46 是 SEQ ID NO :2 的残基 70、71、72、73 或 74,或是 SEQ ID N0: 4 或 SEQ ID NO :6 的残基 68、69、70、71、72、73 或 74 ;知是 SEQ ID NO :2 的残基 113、114、 115、116、117 或 118,或是 SEQ ID NO :4 或 SEQ ID NO :6 的残基 110、111、112、113、114、115 或 116; 是 SEQ ID NO :2 的残基 153、154、155、156 或 157,或是 SEQ ID NO :4 或 SEQ ID NO 6 的残基 149、150、151、152、153、154、155 或 156 ;X5 是 SEQ ID NO 2 的残基 220,221, 222、223 或 224,或是 SEQ ID NO :4 或 SEQ ID NO :6 的残基 216、217、218、219、220、221、222 或 223; 是 SEQ ID NO :2 的残基 256、257、258、259、260 或洸1,或是 SEQ ID NO :4 或 SEQ ID NO :6 的残基253、254、255、256、257、258、259或洸0 ;X7 是SEQ ID NO :2 的残基 312、313、 314、315 或 316,或是 SEQ ID NO :4 或 SEQ ID NO :6 的残基 309、310、311、312、313、314、315 或318 ;并且知是对应于具有序列SEQ ID NO :2、SEQ ID NO 4或SEQ IDNO 6的多肽的C 端的氨基酸残基,其中所述嵌合多肽在SEQ ID NO 2的314位或在SEQ ID NO 4的311位包含kr,并且其中所述嵌合多肽具有纤维素酶活性和与包含SEQ IDNO 2, SEQ ID NO :4或SEQ ID NO: 6的CBH II多肽相比改进的热稳定性和/或pH稳定性。
5.如权利要求4所述的重组多肽,其中区段1包括来自SEQID N0:2( “1”)、SEQ ID NO 4( “2”)或SEQ ID NO :6( “3”)的氨基酸残基大约1到大约X1并具有1-10个保守氨基酸取代;区段 2 来自 SEQ ID NO 2( “1”)、SEQ IDNO :4( “2”)或 SEQ ID NO 6( “3”)的大约氨基酸残基X1到大约&并具有大约1-10个保守氨基酸取代;区段3来自SEQ ID NO 2(“1”)、SEQ ID NO :4( “2”)或SEQ ID NO :6( “3,,)的大约氨基酸残基&到大约知并具有大约1-10个保守氨基酸取代;区段4来自SEQ ID N0:2( “1”)、SEQ ID NO :4( “2,,) 或SEQID NO 6 (“3”)的大约氨基酸残基&到大约&并具有大约1_10个保守氨基酸取代; 区段 5 来自 SEQ ID NO 2( “1”)、SEQ ID NO :4( “2”)或 SEQ ID NO 6( “3”)的大约氨基酸残基A到大约、并具有大约1-10个保守氨基酸取代;区段6来自SEQ ID N0:2(“l”)、 SEQ ID NO :4( “2”)或SEQ ID NO :6 ( “3”)的大约氨基酸残基&到大约&并具有大约 1-10 个保守氨基酸取代;区段 7 来自 SEQ ID NO :2( “1”)、SEQ ID NO :4( “2”)或 SEQ ID NO 6 (“3”)的大约氨基酸残基&到大约X7并具有大约1-10个保守氨基酸取代;并且区段 8 来自 SEQ ID NO 2( “1”)、SEQ ID NO :4( “2”)或 SEQ ID NO 6( “3”)的大约氨基酸残基X7到大约知并且除了在SEQ ID NO 2的314位、SEQ ID NO 4的311位或SEQ ID NO 6的313位以外具有大约1-10个保守氨基酸取代。
6.如权利要求4所述的重组多肽,其中所述嵌合多肽包含与选自由SEQID NO 12-62 和SEQ ID NO :63组成的组的序列至少80%、90%、95%、98%或99%相同的序列。
7.如权利要求1所述的重组多肽,其中所述多肽包含与SEQIDNO :79-105或SEQ ID NO 106具有至少85%同一性并且在序列SEQ IDNO :107中的X处具有丝氨酸的序列。
8.一种多核苷酸,所述多核苷酸编码权利要求1、2、3、4或7所述的多肽。
9.一种载体,所述载体包含权利要求8所述的多核苷酸。
10.一种宿主细胞,所述宿主细胞包含权利要求8所述的多核苷酸。
11.一种宿主细胞,所述宿主细胞包含权利要求9所述的载体。
12.—种酶制备物,所述酶制备物包含权利要求1、2、3、4或7所述的多肽。
13.一种酶制备物,所述酶制备物包含由权利要求10所述的宿主细胞产生的多肽。
14.一种处理包含纤维素的生物质的方法,所述方法包括使所述生物质接触权利要求 1、2、3、4或7所述的多肽。
15.一种处理包含纤维素的生物质的方法,所述方法包括使所述生物质接触权利要求 12所述的酶制备物。
全文摘要
本公开内容涉及CBH II嵌合体融合多肽、编码该多肽的核酸以及用于产生这种多肽的宿主细胞。
文档编号C12P19/04GK102369284SQ201080015610
公开日2012年3月7日 申请日期2010年4月6日 优先权日2009年4月6日
发明者弗朗西斯·H·阿诺德, 皮特·海因策尔曼 申请人:加州理工学院