1.本发明涉及酶的定向进化技术,尤其涉及一种酶的定向进化数据的存储方法、装置及存储介质,一种酶的定向进化数据的检索方法、装置及存储介质,以及一种存储酶的定向进化数据的计算机可读存储介质。
背景技术:2.酶是生物体中具有催化作用的大分子,其化学组成通常是蛋白质、核糖核酸或它们与有机小分子、金属离子的复合物。酶催化反应往往可以比纯有机化学合成减少步骤、达到更高的原子经济性和收率,并且酶本身可降解、可从生物界获取,属于可再生资源。酶的定向进化技术通过使用分子生物学技术手段在酶的分子结构中引入一处或多处差异,并把构成蛋白质的氨基酸残基中的一个或多个替换成其它不同的氨基酸,以进行突变。由此得到的分子结构中有一处或多出改变的酶被称为突变体。技术人员对一个先代酶进行不同的突变,以得到的大量突变体的组合,再以特定的反应条件进行筛选,以找出比先代酶性能提高的后代酶,从而通过不断重复上述突变及筛选的过程,并经过有限次迭代,即可不断积累性能提高,以得到比最早的先代酶(即祖先酶)的性能显著提高并适合非天然底物、非天然反应条件的后代酶。
3.由于上述定向进化的过程需要构建并筛选大量的突变体,其数量越大,得到性能提高更多的突变体的几率就越大。现有的定向进化技术普遍需要反复、大量地重复突变及筛选的过程,因而存在进化周期长、进化成本高等缺陷。为了克服该缺陷,本领域提出了一些基于数字化方法的定向进化技术,能够基于smiles、inchi、mol2、sdf、fasta、genbank、pdb、mmcif等现有的数据结构进行有限的可视化处理,以方便技术人员的直观理解和分享。然而,这些现有的数据结构普遍是单独针对配体小分子、酶序列或酶结构的单维度数据来构建,存在数据内容单一、格式互不兼容等问题,并且缺少酶的定向进化研究所需要的催化活性、特异性、耐受性等催化性能数据,以及表征各种酶之间的生物信息学关联的关系数据,因而无法满足酶的定向进化技术在大规模存储、大数据检索等方面的应用需求,限制了酶的定向进化技术的数字化发展。
4.为了克服现有技术存在的上述缺陷,本领域亟需一种酶的定向进化数据的处理技术,用于整合酶的定向进化过程所涉及的多维度数据、表征酶的催化性能、表征各种酶之间的生物信息学关联,并实现这些多维度数据的高效存储和检索。
技术实现要素:5.以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之前序。
6.为了克服现有技术存在的上述缺陷,本发明提供了一种酶的定向进化数据的存储
方法、装置及存储介质,一种酶的定向进化数据的检索方法、装置及存储介质,以及一种存储酶的定向进化数据的计算机可读存储介质,能够整合酶的定向进化过程所涉及的多维度数据、表征酶的催化性能、表征各种酶之间的生物信息学关联,并实现这些多维度数据的高效存储及检索。
7.具体来说,根据本发明的第一方面提供的上述酶的定向进化数据的存储方法包括以下步骤:获取目标酶的定向进化数据;对所述定向进化数据进行结构化处理,以确定所述目标酶的至少一个关系字段以及至少一个信息字段;从数据库中检索信息字段与所述目标酶的至少一个关系字段相符的至少一个关联酶,以构建所述目标酶的关联集;根据所述目标酶及所述关联集中各所述关联酶的至少一个关系字段以及至少一个信息字段,分别定义所述目标酶及各所述关联酶的数据存储节点,并分别确定各所述数据存储节点之间的关联关系,以构建关于所述目标酶的数据关系结构体;以及将关于所述目标酶的数据关系结构体存储到存储器。
8.进一步地,在本发明的一些实施例中,所述关系字段至少包括前代字段。所述从数据库中检索信息字段与所述目标酶的至少一个关系字段相符的至少一个关联酶,以构建所述目标酶的关联集的步骤包括:根据所述结构化处理确定的至少一个信息字段检索所述数据库,以确定所述目标酶的前代字段以及信息字段;根据所述前代字段检索所述数据库,以确定信息字段与所述目标酶的前代字段相符的前代酶;根据所述前代字段检索所述数据库,以确定前代字段与所述目标酶的前代字段相符的至少一个关联酶;以及根据所述前代酶以及所述至少一个关联酶,构建所述目标酶的关联集。
9.进一步地,在本发明的一些实施例中,所述前代字段包括野生祖先字段,所述前代酶包括所述目标酶的野生祖先酶,所述至少一个关联酶包括野生祖先字段与所述野生祖先酶相符的至少一个后代酶。
10.进一步地,在本发明的一些实施例中,所述前代字段还包括指示唯一亲代的亲代字段。所述关系字段还包括指示至少一个子代的子代字段。所述根据所述目标酶及所述关联集中各所述关联酶的至少一个关系字段以及至少一个信息字段,分别定义所述目标酶及各所述关联酶的数据存储节点,并分别确定各所述数据存储节点之间的关联关系,以构建关于所述目标酶的数据关系结构体的步骤包括:根据所述子代字段、所述至少一个信息字段以及所述亲代字段,分别定义所述目标酶、所述野生祖先酶及各所述关联酶的数据存储节点;以及以所述野生祖先酶的数据存储节点为祖先节点,逐级遍历其各级子代,并以所述子代字段及所述亲代字段来表征所述祖先节点及各级子代节点之间的进化关系,直到完成所述关联集中各所述酶的数据存储节点的遍历,以构建所述关于所述目标酶的进化树结构体。
11.进一步地,在本发明的一些实施例中,所述关系字段包括野生祖先字段、亲代字段、子代字段中的至少一者。此外,所述信息字段包括别称字段、表达系统字段、唯一编号字段、学名字段、备注字段、生物学来源字段、催化性能字段、参考文献字段、酶序列字段、酶结构字段中的至少一者。
12.进一步地,在本发明的一些实施例中,所述表达系统字段采用表达系统结构体,所述表达系统结构体中至少包括表达宿主字段、备注字段、酶承载基因字段、唯一编号字段中的至少一者。此外,所述催化性能字段采用催化性能结构体,所述催化性能结构体中至少包
括反应条件字段、实验编号字段、反应产物字段、反应试剂字段、反应底物字段中的至少一者。此外,所述参考文献字段采用参考文献结构体,所述参考文献结构体中至少包括引文出处字段、公开日期字段、备注字段、引文uri字段、引文标题字段中的至少一者。此外,所述酶序列字段采用酶序列结构体,所述酶序列结构体中至少包括genbank收录号字段、gi编号字段、突变字段、备注字段、引文uri字段、序列内容字段、序列uri字段、序列类别字段、uniprot id字段中的至少一者。此外,所述酶结构字段采用酶结构结构体,所述酶结构结构体中至少包括配体字段、突变字段、备注字段、引文uri字段、序列uri字段、结构uri字段、结构内容字段、结构类别字段中的至少一者。
13.进一步地,在本发明的一些实施例中,所述反应条件字段采用反应条件结构体,所述反应条件结构体中至少包括相对湿度字段、ph字段、反应时间字段、反应器字段、反应温度字段中的至少一者。此外,所述反应产物字段采用反应产物结构体,所述反应产物结构体中至少包括反应转化率字段、产物非对映体过量值字段、产物非对映体比率字段、产物对映体过量值字段、对映体选择率字段、产物对映体比率字段、产物分子字段、产物纯度字段、产物位置异构体过量值字段、产物位置异构体比率字段、分离收率字段、原位收率字段中的至少一者。此外,所述反应试剂字段由至少一个反应试剂结构体组成,每一所述反应试剂结构体对应一种反应试剂,其中至少包括添加方式字段、稀释方式字段、加入量字段、试剂分子字段中的至少一者。此外,所述反应底物字段由至少一个反应底物结构体组成,每一所述反应底物结构体对应一种反应底物,其中至少包括添加方式字段、稀释方式字段、加入量字段、底物分子字段中的至少一者。
14.进一步地,在本发明的一些实施例中,所述反应器字段采用反应器结构体,所述反应器结构体中至少包括搅拌字段、直径字段、高度字段、形状字段中的至少一者。此外,所述产物分子字段、所述试剂分子字段、所述底物分子字段中的至少一者采用配体结构体,所述配体结构体中至少包括cas编号字段、inchi字段、学名字段、smiles字段、化学结构字段中的至少一者。此外,所述添加方式字段采用添加方式结构体,所述添加方式结构体中至少包括方法字段、速度字段、时间点字段中的至少一者。此外,所述稀释方式字段采用稀释结构体,所述稀释结构体中至少包括稀释剂字段和/或稀释剂用量字段,其中,所述稀释剂字段采用所述配体结构体。此外,所述加入量字段采用物理量结构体,所述物理量结构体中至少包括下限字段、目标值字段、单位字段、上限字段中的至少一者。
15.进一步地,在本发明的一些实施例中,所述搅拌字段采用搅拌结构体,所述搅拌结构体中至少包括搅拌幅度字段、搅拌方式字段、搅拌速度字段中的至少一者。
16.进一步地,在本发明的一些实施例中,所述突变字段由至少一个突变结构体组成,每一所述突变结构体对应一处突变,其中至少包括突变序列片段字段、突变位置字段、样板序列片段字段、突变类型字段中的至少一者。
17.进一步地,在本发明的一些实施例中,各所述字段分别由相互关联的字段键及字段值组成。所述关系字段的关系字段键指示关系类型,而其关系字段值指示具有对应关系类型的关联酶。所述信息字段的信息字段键指示信息类型,而其信息字段值指示属于对应信息类型的信息数据。
18.此外,根据本发明的第二方面提供的上述酶的定向进化数据的检索方法包括以下步骤:获取关于目标酶的检索信息;根据所述检索信息确定所述目标酶的数据存储节点;确
定所述数据存储节点所属的数据关系结构体,其中,所述数据关系结构体是由本发明的第一方面提供的上述酶的定向进化数据的存储方法存储获得;以及输出所述数据关系结构体中至少一个数据存储节点记载的酶的定向进化数据。
19.此外,根据本发明的第三方面提供的上述酶的定向进化数据的存储装置包括第一存储器及第一处理器。所述第一处理器连接所述第一存储器,并被配置用于实施本发明的第一方面提供的上述酶的定向进化数据的存储方法。
20.此外,根据本发明的第四方面提供的上述酶的定向进化数据的检索装置包括第二存储器及第二处理器。所述第二处理器连接所述第二存储器,并被配置用于实施本发明的第二方面提供的上述酶的定向进化数据的检索方法。
21.此外,根据本发明的第五方面提供的上述计算机可读存储介质,其上存储有计算机指令。所述计算机指令被处理器执行时,实施本发明的第一方面提供的上述酶的定向进化数据的存储方法。
22.此外,根据本发明的第六方面提供的上述计算机可读存储介质,其上存储有计算机指令。所述计算机指令被处理器执行时,实施本发明的第二方面提供的上述酶的定向进化数据的检索方法。
23.此外,根据本发明的第七方面提供的上述计算机可读存储介质,其上存储有酶的数据关系结构体,其中,所述数据关系结构体是通过本发明的第一方面提供的上述酶的定向进化数据的存储方法存储获得。
附图说明
24.在结合以下附图阅读本公开的实施例的详细描述之后,能够更好地理解本发明的上述特征和优点。在附图中,各组件不一定是按比例绘制,并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。
25.图1示出了根据本发明的一些实施例提供的酶的定向进化数据的存储方法的流程示意图。
26.图2示出了根据本发明的一些实施例提供的酶的定向进化数据的ecd结构体的示意图。
27.图3示出了根据本发明的一些实施例提供的酶的定向进化数据的非关系型数据库的示意图。
28.图4示出了根据本发明的一些实施例提供的酶的定向进化数据的进化树结构体的示意图。
29.图5示出了根据本发明的一些实施例提供的酶的定向进化数据的检索方法的流程示意图。
具体实施方式
30.以下由特定的具体实施例说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其他优点及功效。虽然本发明的描述将结合优选实施例一起介绍,但这并不代表此发明的特征仅限于该实施方式。恰恰相反,结合实施方式作发明介绍的目的是为了覆盖基于本发明的权利要求而有可能延伸出的其它选择或改造。为了提
供对本发明的深度了解,以下描述中将包含许多具体的细节。本发明也可以不使用这些细节实施。此外,为了避免混乱或模糊本发明的重点,有些具体细节将在描述中被省略。
31.能理解的是,虽然在此可使用用语“第一”、“第二”、“第三”等来叙述各种组件、区域、层和/或部分,这些组件、区域、层和/或部分不应被这些用语限定,且这些用语仅是用来区别不同的组件、区域、层和/或部分。因此,以下讨论的第一组件、区域、层和/或部分可在不偏离本发明一些实施例的情况下被称为第二组件、区域、层和/或部分。
32.如上所述,smiles、inchi、mol2、sdf、fasta、genbank、pdb、mmcif等现有的数据结构普遍是单独针对配体小分子、酶序列或酶结构的单维度数据来构建,存在数据内容单一、格式互不兼容等问题,并且缺少酶的定向进化研究所需要的催化活性、特异性、耐受性等催化性能数据,以及表征各种酶之间的生物信息学关联的关系数据,因而无法满足酶的定向进化技术在大规模存储、大数据检索等方面的应用需求,限制了酶的定向进化技术的数字化发展。
33.为了克服现有技术存在的上述缺陷,本发明提供了一种酶的定向进化数据的存储方法、装置及存储介质,一种酶的定向进化数据的检索方法、装置及存储介质,以及一种存储酶的定向进化数据的计算机可读存储介质。这些酶的定向进化数据的存储方法、装置及存储介质,能够整合酶的定向进化过程所涉及的多维度数据、表征酶的催化性能、表征各种酶之间的生物信息学关联,并实现这些多维度数据的高效存储。这些酶的定向进化数据的检索方法、装置及存储介质,能够基于整合了酶的定向进化过程所涉及的多维度数据、表征了酶的催化性能,并表征了各种酶之间的生物信息学关联的数据关系结构体,实现这些多维度数据的高效检索。该存储酶的定向进化数据的计算机可读存储介质,能够整合酶的定向进化过程所涉及的多维度数据、表征酶的催化性能、表征各种酶之间的生物信息学关联,并实现这些多维度数据的高效存储及检索。
34.在一些非限制性的实施例中,本发明的第一方面提供的上述存储方法可以由本发明的第三方面提供的上述存储装置来实施。具体来说,该存储装置中配置有第一存储器及第一处理器。该第一存储器包括但不限于本发明的第五方面提供的上述计算机可读存储介质,其上存储有计算机指令。该第一处理器连接该第一存储器,并被配置用于执行该第一存储器上存储的计算机指令,以实施本发明的第一方面提供的上述酶的定向进化数据的存储方法。
35.在一些非限制性的实施例中,本发明的第二方面提供的上述检索方法可以由本发明的第四方面提供的上述检索装置来实施。具体来说,该检索装置中配置有第二存储器及第二处理器。该第二存储器包括但不限于本发明的第六方面提供的上述计算机可读存储介质,其上存储有计算机指令。该第二处理器连接该第二存储器,并被配置用于执行该第二存储器上存储的计算机指令,以实施本发明的第二方面提供的上述酶的定向进化数据的检索方法。
36.以下将首先结合一些存储方法的实施例来描述上述存储装置及存储介质的工作原理。本领域的技术人员可以理解,这些存储方法只是本发明提供的一些非限制性的实施方式,旨在清楚地展示本发明的主要构思,并提供一些便于公众实施的具体方案,而非用于限制上述存储装置及存储介质的全部功能或全部工作方式。同样地,该存储装置及存储介质也只是本发明提供的一种非限制性的实施方式,不对这些存储方法中各步骤的执行主体
构成限制。
37.首先请参考图1,图1示出了根据本发明的一些实施例提供的酶的定向进化数据的存储方法的流程示意图。
38.如图1所示,在存储酶的定向进化数据的过程中,存储装置可以首先获取目标酶的定向进化数据。此处,该定向进化数据包括但不限于酶的别称、酶的野生祖先信息、酶的天然宿主信息、承载酶的基因的dna信息、酶的学名、酶的生物学来源信息、酶的进化亲代信息、酶的催化性能数据、记载该酶的参考文献或引用资料信息、酶的序列数据、酶的结构数据等多维度的相关数据。
39.之后,存储装置可以对获取的定向进化数据进行结构化处理,以确定目标酶的至少一个关系字段以及至少一个信息字段。
40.在一些实施例中,上述结构化处理可以基于预先构建的ecd(evocloud droplet)结构体来进行。请参考图2,图2示出了根据本发明的一些实施例提供的酶的定向进化数据的ecd结构体的示意图。
41.如图2所示,在对酶的定向进化数据进行结构化处理的过程中,存储装置可以首先基于预先构建的数据结构,将酶的定向进化数据根据规定的数据类型对应地填入[a1~a12]字段,从而为每一种酶的定向进化数据构建一个ecd结构体,以整合酶的定向进化过程所涉及的多维度数据、表征酶的催化性能,并实现这些多维度数据的高效存储和检索。
[0042]
该ecd结构体中涉及的数据类型和数据结构体,如以下[a0]字段记载。
[0043]
[a0-1]字符串:电子计算机系统中的一般概念。
[0044]
[a0-2]整数:电子计算机系统中的一般概念。
[0045]
[a0-3]浮点数:电子计算机系统中的一般概念。
[0046]
[a0-4]日期时间:电子计算机系统中的一般概念。
[0047]
[a0-5]添加方式(charging)结构体:描述衡量酶的催化性能所进行的反应中某种物料的加入方式,包含以下成员字段:
[0048]
[a0-5-1]方法(method)字段:描述加料的方式,其数据类型是字符串,允许值为字符串枚举值[“continuous feeding”,“one time charging”,“other”,“portionwise charging”]中之一,分别代表连续流加、一次性加料、其它、分批加料。
[0049]
[a0-5-2]速度(speed)字段:描述加料的速度,其数据类型是物理量(physicalquantity)结构体。如果方法(method)字段取值为“continuous feeding”,则单位(unit)字段允许值为字符串枚举值[“l/h”,“ml/h”,“ml/min”,“ml/s”,“vvh”,“vvm”,“vvs”]中之一。如果方法(method)字段取值为“portionwise charging”,则单位(unit)字段允许值为字符串枚举值[“l/time”,“ml/time”,“v/time”]中之一。
[0050]
[a0-5-3]时间点(timepoints)字段:描述加料的时间点,其数据类型是由若干物理量(physicalquantity)结构体组成的数组(array)。如果方法(method)字段取值为“continuous feeding”或“one time charging”,则时间点(timepoints)字段仅包含1个成员,即加料开始时间。如果方法(method)字段取值为“portionwise charging”,则时间点(timepoints)字段可包含多个成员,每个成员表示每次加料的时间点。时间点(timepoints)字段中每个成员的单位(unit)字段允许值为字符串枚举值[“day”,“h”,“min”,“s”]中之一。
[0051]
[a0-6]稀释(dilution)结构体:描述衡量酶的催化性能所进行的反应中,某种物料的以溶液的形式使用时的溶液组成,包含以下成员字段:
[0052]
[a0-6-1]溶剂(solvent)字段:描述溶液的溶剂或稀释剂,其数据类型是配体(ligand)结构体。
[0053]
[a0-6-2]用量(loading)字段:描述溶剂或稀释剂的用量,其数据类型是物理量(physicalquantity)结构体,其单位(unit)字段允许值为字符串枚举值[“l”,“ml”,“v”,“μl”]中之一。
[0054]
[a0-7]配体(ligand)结构体:描述一个小分子物质的信息,如结构、组成、及其符合通用规则的索引等,其包含以下成员字段:
[0055]
[a0-7-1]cas字段:描述一个物质的cas编号。这种编号是有美国化学会下设的化学文摘社所维护的化学品登记系统中为每一种登记在册的物质分配的编号,这种编号目前广泛用于化学品特别是可供销售和生产使用的化学品的描述。数据类型是字符串。
[0056]
[a0-7-2]inchi字段:描述一个物质的inchi(国际化合物标识,international chemical identifier),由国际纯粹与应用化学联合会和美国国家标准技术研究所(national institute of standards and technology,nist)联合制定的,用以唯一标识化合物iupac名称的字符串。数据类型是字符串。
[0057]
[a0-7-3]iupacname字段:描述一个物质的符合系统命名法规则的学名。该命名法是由国际纯粹与应用化学联合会(iupac)规定的,系统命名化学物质的方法,它规定了从有机到无机、从分子到高分子及各方面化学术语。数据类型是字符串。
[0058]
[a0-7-4]smiles字段:描述一个物质的smiles(simplified molecular input line entry system,简化分子线性输入规范)字符串,是一种用ascii字符串明确描述分子结构的规范。smiles字符串可以被大多数分子编辑软件导入并转换成二维图形或分子的三维模型,是当前计算机系统中处理小分子化学组成的通用方案之一。数据类型是字符串。
[0059]
[a0-7-5]结构(struture)字段:描述一个物质的化学结构的mol2格式文本,包括其分子中所包含的原子的元素种类、彼此连接方式、价态、电荷、三维坐标等信息。sybyl、discovery studio等生物化学计算软件,通常使用mol2格式存储小分子的化学信息。数据类型是字符串。
[0060]
[a0-8]突变(mutation)结构体:描述一条氨基酸序列或碱基序列,相对于其自然界的祖先的对应序列,在某处的不同,即突变,包含以下成员字段:
[0061]
[a0-8-1]突变序列片段(mutationmotif)字段:描述突变的位置处的序列的片段,其数据类型是字符串。如果类型(type)字段取值为“nucleotide”,则突变序列片段(mutationmotif)字段允许值为字符串枚举值[“a”,“c”,“g”,“t”]中之一个或多个的1次或3次组合,分别代表腺嘌呤脱氧核糖核苷酸、胞嘧啶脱氧核糖核苷酸、鸟嘌呤脱氧核糖核苷酸、胸腺嘧啶脱氧核糖核苷酸。如果类型(type)字段取值为“peptide”,则突变序列片段(mutationmotif)字段允许值为字符串枚举值[“a”,“c”,“d”,“e”,“f”,“g”,“h”,“i”“k”,“l”,“m”,“n”,“p”,“q”,“r”,“s”,“t”,“v”,“w”,“y”]中之一,分别代表丙氨酸残基、半胱氨酸残基、天冬氨酸残基、谷氨酸残基、苯丙氨酸残基、甘胺酸残基、组氨酸残基、异亮氨酸残基、赖氨酸残基、亮氨酸残基、甲硫氨酸残基、天冬酰胺残基、脯氨酸残基、谷氨酰胺残基、精氨酸残基、丝氨酸残基、苏氨酸残基、缬氨酸残基、色胺酸残基、酪氨酸残基。
[0062]
[a0-8-2]位置(position)字段:描述突变发生处相对整个序列的位置,其数据类型是整数,允许值是正整数。
[0063]
[a0-8-3]样板序列片段(templatemotif)字段:描述自然界祖先在该突变位置处的对应序列的片段,其数据类型是字符串。如果类型(type)字段取值为“nucleotide”,则样板序列片段(templatemotif)字段字段允许值为字符串枚举值[“a”,“c”,“g”,“t”]中之一个或多个的1次或3次组合,分别代表腺嘌呤脱氧核糖核苷酸、胞嘧啶脱氧核糖核苷酸、鸟嘌呤脱氧核糖核苷酸、胸腺嘧啶脱氧核糖核苷酸。如果类型(type)字段取值为“peptide”,则样板序列片段(templatemotif)字段字段允许值为字符串枚举值[“a”,“c”,“d”,“e”,“f”,“g”,“h”,“i”“k”,“l”,“m”,“n”,“p”,“q”,“r”,“s”,“t”,“v”,“w”,“y”]中之一,分别代表丙氨酸残基、半胱氨酸残基、天冬氨酸残基、谷氨酸残基、苯丙氨酸残基、甘胺酸残基、组氨酸残基、异亮氨酸残基、赖氨酸残基、亮氨酸残基、甲硫氨酸残基、天冬酰胺残基、脯氨酸残基、谷氨酰胺残基、精氨酸残基、丝氨酸残基、苏氨酸残基、缬氨酸残基、色胺酸残基、酪氨酸残基。
[0064]
[a0-8-4]类型(type)字段:描述突变的类型,其数据类型是字符串,允许值为字符串枚举值[“nucleotide”,“peptide”]中之一,分别代表碱基序列中的突变、氨基酸序列中的突变。
[0065]
[a0-9]物理量(physicalquantity)结构体:描述一个物理量。科学上,物理量由数值和单位构成。此外,在工程技术上,由于任何测量或者对仪器设备的任何设定,都不可能做到绝对精确,因此还需要指定作为过程参数的物理量偏离目标值的最低和最高允许值:
[0066]
[a0-9-1]下限(lowelimit)字段:允许值的下限,其数据类型是浮点数。
[0067]
[a0-9-2]目标值(targetvalue)字段:设定的目标值,其数据类型是浮点数。
[0068]
[a0-9-3]单位(unit)字段:物理量的单位,一般是iupap规定的基本单位或他们的有限次幂的乘积,其数据类型是字符串。
[0069]
[a0-9-4]上限(upperlimit)字段:允许值的上限,其数据类型是浮点数。
[0070]
进一步地,基于上述[a0]字段的定义,ecd结构体的[a1~a12]字段可以被如下定义。
[0071]
[a1]别称(alias)字段:描述酶的别称,其数据类型是由若干字符串组成的数组(array)。通常酶可以有多个别称,用于在文献中简记,或者作为商品名称等用途。
[0072]
[a2]野生祖先(acestorid)字段:描述酶的野生祖先在存储系统中的唯一编号的编号,其数据类型是字符串。
[0073]
[a3]表达系统(expressionsystem)字段:描述酶的表达系统,其数据类型是表达系统(expressionsystem)结构体,包含以下成员字段:
[0074]
[a3-1]宿主(host)字段:描述酶的表达宿主,其数据类型是字符串。酶的来源可以是其在自然界的来源生物,即天然宿主,也可以是用于分子克隆或过量表达的重组细胞等工程宿主。
[0075]
[a3-2]备注(note)字段:备注信息,其数据类型是字符串。
[0076]
[a3-3]承载基因(vector)字段:描述用于承载酶的基因的dna,其数据类型是字符串。在不同的宿主中,酶的基因可以整合在细胞的染色体或染色质dna中,即基因组中,也可以是嵌入独立于基因组的小dna,如质粒、细胞器dna中。
[0077]
[a4]id字段:描述酶在存储系统中的唯一编号,其数据类型是字符串。
[0078]
[a5]学名(name)字段:描述酶的学名,其数据类型是字符串。
[0079]
[a6]备注(note)字段:备注信息,其数据类型是字符串。
[0080]
[a7]生物学来源(organism)字段:描述酶的生物学来源,其数据类型是字符串,通常是首次发现或分离此酶的生物,遵循现代生物分类学中通用的“双名命名法”的学名。
[0081]
[a8]亲代(parentid)字段:描述酶的进化亲代在存储系统中的唯一编号的编号,其数据类型是字符串。
[0082]
[a9]催化性能(performances)字段:描述酶的酶的催化性能数据,其数据类型是由若干催化性能(performance)结构体组成的数组(array)。每一个催化性能(performance)结构体都代表酶的一条反应性能数据,包含以下成员字段:
[0083]
[a9-1]条件(conditions)字段:描述衡量酶的催化性能所进行的反应的条件和参数,其数据类型是条件(conditions)结构体,包含以下成员字段:
[0084]
[a9-1-1]湿度(humidity)字段:相对湿度,其数据类型是浮点数,允许的值为0~100%。
[0085]
[a9-1-2]ph字段:ph值,其数据类型是浮点数,允许的值为0~14。
[0086]
[a9-1-3]反应时间(reactiontime)字段:描述衡量酶的催化性能所进行的反应的时间,其数据类型是物理量(physicalquantity)结构体,其单位(unit)字段允许值为字符串枚举值[“ms”,“s”,“min”,“h”,“day”]中之一。
[0087]
[a9-1-4]反应器(reactor)字段:描述衡量酶的催化性能所进行的反应的容器,其数据类型是反应器(reactor)结构体,包含以下成员字段:
[0088]
[a9-1-4-1]搅拌(agitation)字段:描述搅拌方式和速度,其数据类型是搅拌(agitation)结构体,包含以下成员字段:
[0089]
[a9-1-4-1-1]幅度(magnitude)字段:描述搅拌的幅度,如搅拌磁子的大小、机械搅拌桨的直径、气升的流速或错流的速度等,其数据类型是物理量(physicalquantity)结构体。
[0090]
[a9-1-4-1-2]方法(method)字段:描述搅拌的方式,其数据类型是字符串,允许值为字符串枚举值[“air lift”,“cross current”,“linear shaking”,“magnetic agitation”,“mechanic agitation”,“orbit shaking”,“other”,“vertex mixing”]中之一,分别代表气升式混合、错流式混合、往复震荡、磁子搅拌、机械搅拌、圆周震荡、其它、漩涡混匀。
[0091]
[a9-1-4-1-3]速度(speed)字段:描述搅拌的速度,其数据类型是物理量(physicalquantity)结构体,其单位(unit)字段允许值为字符串枚举值[“hz”,“m/s”,“rad/s”,“rpm”]中之一。
[0092]
[a9-1-4-2]直径(diameter)字段:描述反应器的直径,其数据类型是物理量(physicalquantity)结构体,其单位(unit)字段允许值为字符串枚举值[“cm”,“dm”,“m”,“mm”]中之一。
[0093]
[a9-1-4-3]高度(height)字段:描述反应器的高度,其数据类型是物理量(physicalquantity)结构体,其单位(unit)字段允许值为字符串枚举值[“cm”,“dm”,“m”,“mm”]中之一。
[0094]
[a9-1-4-4]形状(shape)字段:描述反应器的形状,其数据类型是字符串,允许值为字符串枚举值[“eppendorf tube”,“glass vial”,“hydrogenation reactor”,“jacket”,“microplate vial”,“round bottom flask”“t-flask”,“test tube”,“other”]中之一,分别代表离心管、玻璃瓶、氢化反应瓶、夹套反应瓶、微孔板孔位、圆底烧瓶、锥形瓶、试管和其它。
[0095]
[a9-1-5]温度(temperature)字段:描述衡量酶的催化性能所进行的反应的温度,其数据类型是物理量(physicalquantity)结构体,其单位(unit)字段允许值为字符串枚举值[“℃”,“k”]中之一。
[0096]
[a9-2]id字段:描述实验的编号,其数据类型是字符串类型。
[0097]
[a9-3]产物(product)字段:描述衡量酶的催化性能所进行的反应的产物和结果,其数据类型是产物(product)结构体,包含以下成员字段:
[0098]
[a9-3-1]转换率(conversionratio)字段:描述衡量酶的催化性能所进行的反应的转化率,其数据类型是浮点数,允许值为0~1的数字。
[0099]
[a9-3-2]de字段:描述衡量酶的催化性能所进行的反应的产物非对映体过量值,即diastereomer excess,其数据类型是浮点数,允许值为0~1的数字。
[0100]
[a9-3-3]dr字段:描述衡量酶的催化性能所进行的反应的产物非对映体比率,即diastereomer ratio,其数据类型是浮点数,允许值为大于0的数字。
[0101]
[a9-3-4]ee字段:描述衡量酶的催化性能所进行的反应的产物对映体过量值,即enantiomer excess,其数据类型是浮点数,允许值为0~1的数字。
[0102]
[a9-3-5]对映体选择率(enantioselectivityratio)字段:描述衡量酶的催化性能所进行的反应的对映体选择率,其数据类型是浮点数,允许值为大于零0的数字。
[0103]
[a9-3-6]er字段:描述衡量酶的催化性能所进行的反应的产物对映体比率,其数据类型是浮点数,允许值为大于0的数字。
[0104]
[a9-3-7]分子(molecule)字段:描述衡量酶的催化性能所进行的反应的产物分子,其数据类型是配体(ligand)结构体。
[0105]
[a9-3-8]纯度(purity)字段:描述衡量酶的催化性能所进行的反应的产物纯度,其数据类型是浮点数,允许值为0~1的数字。
[0106]
[a9-3-9]re字段:描述衡量酶的催化性能所进行的反应的产物位置异构体过量值,即regioisomeric excess,其数据类型是浮点数,允许值为0~1的数字。
[0107]
[a9-3-10]rr字段:描述衡量酶的催化性能所进行的反应的产物位置异构体比率,其数据类型是浮点数,允许值为大于0的数字。
[0108]
[a9-3-11]分离收率(isolatedyield)字段:描述衡量酶的催化性能所进行的反应的分离收率,其数据类型是浮点数,允许值为0~1的数字。
[0109]
[a9-3-12]原位收率(solutionyield)字段:描述衡量酶的催化性能所进行的反应的原位收率,其数据类型是浮点数,允许值为0~1的数字。
[0110]
[a9-4]试剂(reagents)字段:描述衡量酶的催化性能所进行的反应的试剂,其数据类型是由若干试剂(reagents)结构体组成的数组(array)。每一个产物(product)结构体都代表一个试剂,其包含以下成员字段:
[0111]
[a9-4-1]添加方式(charging)字段:描述试剂加入反应的方式,其数据类型是添
加方式(charging)结构体。
[0112]
[a9-4-2]稀释(dilution)字段:描述当试剂以溶液的形式加入时,其稀释方式,其数据类型是稀释(dilution)结构体。
[0113]
[a9-4-3]用量(loading)字段:描述试剂的加入量,其数据类型是物理量(physicalquantity),其单位(unit)字段允许值为字符串枚举值[“eq.”,“g”,“l”,“kg”,“mg”,“ml”,“mmol”,“mol”,“v”,“x”,“μl”]中之一。
[0114]
[a9-4-4]分子(molecule)字段:描述试剂分子,其数据类型是配体(ligand)结构体。
[0115]
[a9-5]底物(substrates)字段描述衡量酶的催化性能所进行的反应的底物或主原料,其数据类型是由若干底物(substrate)结构体组成的数组(array)。每一个底物(substrate)结构体都代表一个底物或主原料,包含以下成员字段:
[0116]
[a9-5-1]添加方式(charging)字段:描述衡量酶的催化性能所进行的反应中,底物加入反应的方式,其数据类型是添加方式(charging)结构体。
[0117]
[a9-5-2]稀释(dilution)字段:描述衡量酶的催化性能所进行的反应中,当底物以溶液的形式加入时的稀释方式,其数据类型是稀释(dilution)结构体。
[0118]
[a9-5-3]用量(loading)字段:描述衡量酶的催化性能所进行的反应的底物的加入量,其数据类型是物理量(physicalquantity)结构体,其单位(unit)字段允许值为字符串枚举值[“eq.”,“g”,“l”,“kg”,“mg”,“ml”,“mmol”,“mol”,“v”,“x”,“μl”]中之一。
[0119]
[a9-5-4]分子(molecule)字段:描述衡量酶的催化性能所进行的反应的底物分子,其数据类型是配体(ligand)结构体。
[0120]
[a10]参考文献(references)字段:描述参考文献或引用资料的信息,其数据类型是由若干参考文献(reference)结构体组成的数组(array)。每一个参考文献(reference)结构体代表一条参考文献或引用资料,包含以下成员字段:
[0121]
[a10-1]引文(citation)字段:描述引文的的出处,如期刊杂志、书籍、学位论文,及其卷、期、页码等,其数据类型是字符串。
[0122]
[a10-2]日期(date)字段:描述引文最早公开的日期时间,其数据类型是日期时间。
[0123]
[a10-3]备注(note)字段:描述引文的备注信息,其数据类型是字符串。
[0124]
[a10-4]参考文献uri(referenceuri)字段:描述从互联网或存储系统中的访问引文的统一资源标识符(unified resource indicator),其数据类型是字符串。
[0125]
[a10-5]标题(title)字段:描述引文的标题,其数据类型是字符串。
[0126]
[a11]序列(sequences)字段:描述酶序列,其数据类型是由若干序列(sequence)结构体组成的数组(array)。每一序列(sequence)结构体都代表一条酶序列,包含以下成员字段:
[0127]
[a11-1]基因序列数据库收录号(genbankaccession)字段:描述酶序列的genbank accession,即基因序列数据库(genbank)的收录号,其数据类型是字符串。genbank是美国国家生物技术信息中心(national center for biotechnology information,ncbi)建立的dna序列数据库,从公共资源中获取序列数据,主要是科研人员直接提供或来源于大规模基因组测序计划。为保证数据尽可能的完全,genbank与embl(欧洲embl-dna数据库)、ddbj
(日本dna数据库:dna data bank of japan)建立了相互交换数据的合作关系。
[0128]
[a11-2]gi字段:描述酶序列的gi编号,即基因信息标识符(geninfo identifier),其数据类型是字符串。
[0129]
[a11-3]突变(mutations)字段:描述酶序列相对于其自然界的祖先的所有不同之处,即突变,其数据类型是由若干突变(mutation)结构体组成的数组(array)。每一个突变(mutation)结构体都代表一处突变。
[0130]
[a11-4]备注(note)字段:描述酶序列的备注信息,其数据类型是字符串。
[0131]
[a11-5]参考文献(referenceuri)字段:描述首次报道此条酶序列的出处,如参考文献或公开数据库中对应条目的统一资源标识符(unified resource indicator),其数据类型是字符串。
[0132]
[a11-6]序列(sequence)字段:描述酶序列的具体内容,其数据类型是字符串,允许值必须符合fasta格式。
[0133]
[a11-7]序列uri(sequenceuri)字段:描述从互联网或存储系统中的访问此条酶序列的统一资源标识符(unified resource indicator),其数据类型是字符串。
[0134]
[a11-8]类别(type)字段:描述酶序列的类别,其数据类型是字符串,允许值为字符串枚举值[“nucleotide”,“peptide”]中之一,分别代碱基序列和氨基酸序列。
[0135]
[a11-9]uniprot字段:描述酶序列的uniprot id,其数据类型是字符串。uniprot是universal protein的英文缩写,是信息最丰富、资源最广的蛋白质数据库。它由整合swiss-prot、trembl和pir-psd三大数据库的数据而成。他的数据主要来自于基因组测序项目完成后,后续获得的蛋白质序列。它包含了大量来自文献的蛋白质的生物功能的信息。
[0136]
[a12]结构(structures)字段:描述酶结构,其数据类型是由若干结构(structure)结构体组成的数组(array)。每一个结构(structure)结构体都代表一种酶的一个立体结构,包含以下成员字段:
[0137]
[a12-1]配体(ligands)字段:描述酶结构中的配体,即酶结构中除去构成蛋白的主链之外的小分子组成部分,通常可以是水分子、溶于水的离子、溶于水的有机小分子溶质,或者结合在蛋白表面或内部的有机小分子,如底物、产物、抑制剂等,其数据类型是由若干配体(ligand)结构体组成的数组(array)。每一个配体(ligand)结构体代表酶结构中的一个配体。
[0138]
[a12-2]突变(mutations)字段:描述酶结构所对应的序列相对于其自然界的祖先的所有不同之处,即突变,其数据类型是由若干突变(mutation)结构体组成的数组(array)。每一个突变(mutation)结构体都代表一处突变。
[0139]
[a12-3]备注(note)字段:描述酶结构的备注信息,其数据类型是字符串。
[0140]
[a12-4]参考文献uri(referenceuri)字段:描述首次报道此酶结构的出处,如参考文献或公开数据库中对应条目的统一资源标识符(unified resource indicator),其数据类型是字符串。
[0141]
[a12-5]序列uri(sequenceuri)字段:描述首次报道此酶结构对应的酶序列的出处,如参考文献或公开数据库中对应条目的统一资源标识符(unified resource indicator),其数据类型是字符串。
[0142]
[a12-6]结构uri(structureuri)字段:描述从互联网或存储系统中的访问此酶结
构的统一资源标识符(unified resource indicator),其数据类型是字符串。
[0143]
[a12-7]结构(structure)字段:描述酶序列的具体内容,其数据类型是字符串,允许值必须符合pdb格式。
[0144]
[a12-8]类别(type)字段:描述酶结构的类别,其数据类型是字符串,允许值为字符串枚举值[“cryosem”,“nmr”,“other”,“predicted model”,“xrd”]中之一,分别代表冷冻电子显微镜、核磁共振、其它、预测结构模型、x射线晶体衍射结构。
[0145]
在一些实施例中,响应于完成结构化处理并得到目标酶的ecd结构体,存储装置可以将该目标酶的定向进化数据按照ecd结构体的架构存入本发明的第七方面提供的上述计算机可读存储介质,并收集多种酶的ecd结构体以构建酶的定向进化数据的evocloud数据库。
[0146]
进一步地,上述ecd结构体可以选用json(javascript object notation,javascript,对象简谱)为容器格式,即ecma-404规范(european computer manufacturers association standard 404,欧洲计算机制造商协会404号规范)所定义的格式。json是目前广泛使用的计算机程序数据交换格式,其序列化、反向序列化、节点插入、节点删除、节点编辑等处理,被最新的ecmascript(ecma-262)、c语言(iso/iec 9899:2011)、c++(iso/iec 14882)、java(iso/iec tr 13066)、c#(ecma-334)等主流的计算机程序高级语言直接支持,可以在不需要额外数据处理的情况下,直接被计算机程序理解和运算。
[0147]
更进一步地,本发明提供的上述ecd结构体可以采用字典结构(dictionary)的非关系型数据库组织结构来实现。请参考图3,图3示出了根据本发明的一些实施例提供的酶的定向进化数据的非关系型数据库的示意图。
[0148]
如图3所示,在不同的计算机程序语言或数据库系统中,字典结构又称关联数组(associate array)、映射(map)等,是一个抽象的数据结构,包含着多组类似于(键,值)的有序对。这种数据结构支持配对检索、添加配对、删除配对、修改配对等多种常见的操作。例如,在配对检索的操作中,其操作参数是要查找的键,返回的是对应的值。如果没有相应的键值对,有些实现会引发异常,而另外一些则会使用所给的键创建并添加新的键值对,其中的“值”为其类型的默认值(零、空容器等)。又例如,在添加配对的操作中,存储装置可以添加一个新的键值对,并建立从新键到新值的映射,其操作参数是要添加的键和值。又例如,在删除配对的操作中,存储装置可以移除一个键值对,并取消从该键到该值的映射,其操作参数为要删除的键。又例如,在修改配对的操作中,存储装置可以更改已有键值对的值,并把原有的键映射到新的值,其操作参数为键和值。
[0149]
在一些实施例中,存储装置可以将ecd结构体的[a2]野生祖先(acestorid)字段、[a8]亲代(parentid)字段等前代字段作为指示生物信息学关联的关系字段,而将ecd结构体中的其余字段(即[a1]、[a3]~[a7]、[a9]~[a12]字段)或所有字段(即[a1]~[a12]字段)作为记载目标酶的定向进化数据的信息字段。此处,各字段分别由相互关联的字段键及字段值组成。具体来说,关系字段的关系字段键指示关系类型,而其关系字段值指示具有对应关系类型的关联酶。信息字段的信息字段键指示信息类型,而其信息字段值指示属于对应信息类型的信息数据。
[0150]
由于javascript(即ecmascript,国际标准ecma-262定义的计算机程序语言)等计算机程序语言内置基本的数据类型都能提供对该字典结构的支持,indexeddb、redis、
mangodb等现代化的nosql(no-only structural query language,非关系型数据库)数据库系统直接支持字典结构作为其存储数据的方式,且cam(content-addressable memory,内容定址存储器)也在硬件层面上实现对字典结构的支持,以字典结构存储的该ecd结构体不需要额外的数据处理就能直接被计算机程序理解和运算。此外,由于字典结构按键-值关系一对一地存储数据,其有检索效率远高于其他关联性的存储方式,更适合酶的定向进化数据的大规模存储、索引和运算优化设计。
[0151]
进一步地,在完成酶的定向进化数据的结构化处理,并确定目标酶的ecd结构体之后,本发明还可以采用该ecd结构体来构建酶的定向进化数据的数据关系结构体,以表征各种酶之间的生物信息学关联。该数据关系结构体包括但不限于基于亲子关系构建的进化树结构体。
[0152]
请结合参考图1及图4,图4示出了根据本发明的一些实施例提供的酶的定向进化数据的进化树结构体的示意图。
[0153]
如图1及图4所示,在上述进化树结构体的实施例中,存储装置可以将ecd结构体中的前代字段和/或后代字段作为指示进化关系的关系字段,而将ecd结构体的其余字段或者所有字段作为记载酶的定向进化数据的信息字段,以定义进化树结构体的数据存储节点的evonode结构体。此处,该前代字段包括但不限于ecd结构体的[a2]野生祖先(acestorid)字段和/或[a8]亲代(parentid)字段。该后代字段包括但不限于指示至少一个子代的子代字段。
[0154]
具体来说,在定义evonode结构体的过程中,存储装置可以首先为evonode结构体配置子代(children)字段、ecd字段及亲代(parent)字段。该子代(children)字段的数据类型是由至少一个evonode结构体组成的数组(array),用于记载本存储节点所代表的酶(或突变)的全部子代酶(或突变体),其中,同一个存储节点的子代(children)字段的所有成员之间互为兄弟节点。该ecd字段的数据类型是ecd结构体,用于记载本存储节点所代表的酶(或突变)的详细信息。该亲代(parent)字段的数据类型是指针,指向进化得到本存储节点所代表的酶(或突变)的唯一亲代酶的存储节点或空(null),用于描述本存储节点所代表的酶(或突变)的唯一亲代。此处,如果亲代(parent)字段的取值为空指针,则代表本存储节点是整个进化树结构体的根,即祖先节点。
[0155]
在完成evonode结构体的定义之后,存储装置可以根据目标酶的至少一个关系字段,从上述evocloud数据库中检索信息字段与该目标酶的至少一个关系字段相符的至少一个关联酶,以构建该目标酶的关联集,并基于该关联集中的各关联酶来构建目标酶的数据关系结构体。
[0156]
具体来说,对于操作人员给定的输入值s(例如:酶的序列数据、酶的结构数据、酶的配体分子信息等检索信息),存储装置可以首先根据该输入值s在evocloud数据库中检索以s为主键的条目,即找到一个数据条目ein唯一满足ein.id=s。如此,存储装置即可根据该数据条目ein确定目标酶的ecd结构体,并以该ecd结构体来构建本evonode存储节点的ecd信息字段。
[0157]
之后,存储装置可以将该目标酶的ecd结构体的[a2]野生祖先(acestorid)字段作为前代字段,并根据该[a2]字段的值(value)检索evocloud数据库,从而在evocloud数据库中检索出以ein的野生祖先的主键为主键的条目,即找到一个数据条目e0唯一满足e0.id=
e.ecd.ancestorid。如此,存储装置即可根据该数据条目e0确定信息字段与该目标酶的[a2]字段相符的前代酶,从而确定该目标酶的野生祖先酶的ecd结构体。
[0158]
此外,存储装置还可以在计算机内存中构建一个数组eprime,其成员都为ecd数据结构。之后,存储装置可以根据该目标酶的[a2]字段的值检索evocloud数据库,遍历evocloud数据库中的全部条目e[i],将满足e[i].ecd.ancestorid=ein.ecd.ancestorid的所有e[i].ecd添加到数组eprime尾部入栈,以确定[a2]字段与该目标酶的[a2]字段相符的至少一个关联酶的ecd结构体。此处,[a2]字段与该目标酶的[a2]字段相符的至少一个关联酶与该目标酶具有相同的野生祖先酶,都属于该野生祖先酶的后代酶。
[0159]
再之后,存储装置即可根据该野生祖先酶以及该至少一个关联酶的ecd结构体,构建该目标酶的关联集,并基于该关联集中的野生祖先酶及各关联酶的ecd结构体来构建该目标酶的进化树结构体。
[0160]
具体来说,在构建目标酶的进化树结构体的过程中,存储装置可以首先在计算机内存中建立一个数据类型为上述evonode结构体的变量e,将其亲代字段初始化e.parent=null(空指针),并将其ecd字段初始化为e.ecd=e0.ecd,从而将上述野生祖先酶的数据存储节点确定为整个进化树结构体的祖先节点。之后,存储装置可以遍历上述数组eprime,为其中满足eprime[j].ecd.parentid=e.ecd.id的每一个成员eprime[j]分别构建一个新的evonode结构体,初始化其亲代(parent)字段以指向e,并将其添加到数组e.children的尾部入栈,以分别确定该祖先节点变量e与其各子1代数据存储节点之间的关联关系。
[0161]
再之后,存储装置可以从数组eprime中删除各子1代数据存储节点所对应的成员eprime[j],并判断数组eprime中是否还存在其他成员。响应于数组eprime中还存在其他成员的判断结果,存储装置可以再次遍历数组eprime,为其中满足eprime[l].ecd.parentid=e.children[k].ecd.id的每一个成员eprime[l]分别构建一个新的evonode结构体,初始化其亲代(parent)字段指向对应的e.children[k]节点,并将其添加到数组e.children[k].children的尾部入栈,以分别确定各子1代数据存储节点与其对应的各子2代数据存储节点之间的关联关系。
[0162]
以此类推的,存储装置可以从数组eprime中进一步删除各子2代数据存储节点所对应的成员eprime[1],并进一步判断数组eprime中是否还存在其他成员。响应于数组eprime中还存在其他成员的判断结果,存储装置可以再次遍历数组eprime,并重复上述构建及初始化新的evonode结构体的操作,直到数组eprime中的所有成员都被删除。由此,存储装置最终得到的变量e即可形成图4所示的包含目标酶的进化树结构体。
[0163]
之后,响应于构建获得关于目标酶的进化树结构体,存储装置可以将该目标酶及其关联酶的定向进化数据按照上述进化树结构体的架构存入本发明的第七方面提供的上述计算机可读存储介质,并收集关于多种目标酶的进化树结构体,以构建酶的定向进化数据的进化树数据库。
[0164]
如此,本发明的第一方面提供的上述酶的定向进化数据的存储方法、本发明的第三方面提供的上述酶的定向进化数据的存储装置、本发明的第五方面提供的上述计算机可读存储介质,以及本发明的第七方面提供的上述计算机可读存储介质,即可整合酶的定向进化过程所涉及的多维度数据、表征酶的催化性能、表征各种酶之间的生物信息学关联,并实现这些多维度数据的高效存储。
[0165]
此外,根据本发明的第二、第四及第六方面,本公开还提供了一种酶的定向进化数据的检索方法、检索装置及计算机可读存储介质。以下将结合一些检索方法的实施例来描述上述检索装置及存储介质的工作原理。本领域的技术人员可以理解,这些检索方法只是本发明提供的一些非限制性的实施方式,旨在清楚地展示本发明的主要构思,并提供一些便于公众实施的具体方案,而非用于限制上述检索装置及存储介质的全部功能或全部工作方式。同样地,该检索装置及存储介质也只是本发明提供的一种非限制性的实施方式,不对这些检索方法中各步骤的执行主体构成限制。
[0166]
请参考图5,图5示出了根据本发明的一些实施例提供的酶的定向进化数据的检索方法的流程示意图。
[0167]
如图5所示,在检索目标酶的定向进化数据的过程中,技术人员可以首先将检索装置连接到本发明的第七方面提供的上述计算机可读存储介质,并经由该检索装置的人机交互接口输入目标酶的序列数据、结构数据、配体分子信息等检索信息s。响应于获取得到关于该目标酶的检索信息s,检索装置可以首先在evocloud数据库中检索以s为主键的条目,即找到一个数据条目ein唯一满足ein.id=s。如此,检索装置即可根据该数据条目ein确定该目标酶的ecd结构体,并根据预设的检索指令和/或技术人员给定的检索指令,输出该目标酶的[a1]~[a12]字段中的一者或多者。
[0168]
进一步地,在确定该目标酶的ecd结构体之后,检索装置还可以在上述进化树数据库中检索包含该目标酶的ecd结构体的evonode数据存储节点,并确定该evonode数据存储节点所属的进化树结构体。之后,检索装置即可根据预设的检索指令和/或技术人员给定的检索指令,输出该进化树结构体中对应的一个或多个evonode数据存储节点的ecd字段中的一个或多个子字段(即[a1]~[a12])的值,从而实现各关联酶的定向进化过程所涉及的酶序列、酶结构、催化性能、生物信息学关联等多维度数据的高效检索,以便技术人员简便、快捷地了解目标酶的野生祖先酶、亲n代酶、子n代酶、兄弟酶等各种关联酶的定向进化数据。
[0169]
因此,本发明的第二方面提供的上述酶的定向进化数据的检索方法、本发明的第四方面提供的上述酶的定向进化数据的检索装置、本发明的第六方面提供的上述计算机可读存储介质,以及本发明的第七方面提供的上述计算机可读存储介质,即可整合酶的定向进化过程所涉及的多维度数据、表征酶的催化性能、表征各种酶之间的生物信息学关联,并实现这些多维度数据的高效检索。
[0170]
尽管为使解释简单化将上述方法图示并描述为一系列动作,但是应理解并领会,这些方法不受动作的次序所限,因为根据一个或多个实施例,一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。
[0171]
本领域技术人员将可理解,信息、信号和数据可使用各种不同技术和技艺中的任何技术和技艺来表示。例如,以上描述通篇引述的数据、指令、命令、信息、信号、位(比特)、码元、和码片可由电压、电流、电磁波、磁场或磁粒子、光场或光学粒子、或其任何组合来表示。
[0172]
本领域技术人员将进一步领会,结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性,各种解说性组件、框、模块、电路、和步骤在上面是以
其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性,但这样的实现决策不应被解读成导致脱离了本发明的范围。
[0173]
结合本文所公开的实施例描述的各种解说性逻辑模块、和电路可用通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器,但在替换方案中,该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合,例如dsp与微处理器的组合、多个微处理器、与dsp核心协作的一个或多个微处理器、或任何其他此类配置。
[0174]
结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在ram存储器、闪存、rom存储器、eprom存储器、eeprom存储器、寄存器、硬盘、可移动盘、cd-rom、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中,存储介质可以被整合到处理器。处理器和存储介质可驻留在asic中。asic可驻留在用户终端中。在替换方案中,处理器和存储介质可作为分立组件驻留在用户终端中。
[0175]
在一个或多个示例性实施例中,所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品,则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者,其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定,这样的计算机可读介质可包括ram、rom、eeprom、cd-rom或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如,如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(dsl)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来,则该同轴电缆、光纤电缆、双绞线、dsl、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(cd)、激光碟、光碟、数字多用碟(dvd)、软盘和蓝光碟,其中盘(disk)往往以磁的方式再现数据,而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。
[0176]
提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的,且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此,本公开并非旨在被限定于本文中所描述的示例和设计,而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。