专利名称:化学物质的信息的处理和匹配方法、系统及存储系统的制作方法
技术领域:
本公开涉及化学信息处理技术,尤其是,涉及存储和匹配化学物质的信息的方法和系统及存储系统。
背景技术:
众所周知,在化学领域中术语是相当复杂且不一致的。以化学名称为例,存在以下多种不兼容命名法· IUPAC命名系统一种有系统地命名化合物的方法。该命名法用一个确定的名称来描述每一种有清楚的结构式的化合物,便于研究人员可以没有歧义的进行交流。同时, IUPAC命名系统也接受一些物质和基团的惯用普通命名。· SMILES命名系统一种用于使用短的ASCII字符串来无歧义地描述化学分子的结构的规范。SMILES串可以被大多数分子编辑器导入以转换回到分子的2维图或3维图。· IUPAC国际化学标识符anChi)命名系统和SMILES类似,也是一种用于表示化学物质结构的文本标识符。Inchi既是可读的,也可以用来建立结构索引数据库。.CAS 注册号(CAS Registry Number 或称 CAS Number, CASRn, CAS#)它是有机化合物、无机化合物、金属、合金、元素、蛋白质与核酸、聚合物等的唯一数字标识符。在上述命名系统中,SMILES和INCHI着重于表示化学结构,而IUPAC提供抽象表示,CAS编号使用数字编码而没有任何语义含义。其次,除了不同的化学名称命名法则,在同一种命名方式下,化学名称的同名(也称为“同义词”)非常普遍。根据DrugBank 的统计,对于药物Valium(安定),DrugBank 给出了 117个同义词,其中包括Clobazam(氯巴占)、Alboral、Duxen、Paceum、Solis等等。在过去几十年里,信息技术的快速发展已经实现了信息技术在化学信息处理领域中的应用。例如,在现有技术中,有的技术通过分析化学物质INCHI名称,建立索引,实现化学名称的检索;有的技术从IUPAC化学名称中抽取出最频繁出现的子字符串作为索引,获得具有该子字符串的所有化学名称;另外还有的系统提供了绘制化学结构式的工具,用户可以利用该工具将绘制出部分结构作为查询条件,然后提交到搜索系统进行化学结构相似度的搜索。此外,这些技术并没有从功能的角度去分析化学结构,因此不能从功能的角度获得某一化学物质同一命名方法命名下的同义词,更不用说使用其它命名方法命名的同义词。
发明内容
由上述可知,现有技术中存在以下缺陷第一,仅仅使用一种命名法来进行查询, 这种查询往往要求完全匹配,从而难以搜索到用其它命名法命名的同一种物质;第二,这些技术难以搜索具有相同或相似功能但具有不同名称的化学物质;第三,虽然已经有一些基于结构相似度的匹配方法,但由于化学结构非常复杂,简单的应用结构匹配并不能找出具有相同或相似功效的匹配。也就是说,使用现有的信息技术在化学信息处理领域里仍然不能够基于一种化学物质的任一特定命名或结构式获得该化学名称的全部同义词。因此,现有技术中需要一种独立于命名方法而处理和/或匹配化学物质的信息的方法和系统及其存储系统。考虑到现有技术中存在的上述问题,本公开的一个方面提供了一种利用特征子结构高效全面地索引和/或查询化学物质的信息的方法和系统及其存储系统。根据本公开的一个实施例提供了一种将化学结构式用于化学信息处理的方法和系统。在这种化学信息处理系统中使用化学物质的有功能区分度的化学子结构,而不是化学名称或者普通的根据频率抽取出的子结构,作为索引和检索的基本单元。在此情况下,本公开的一个实施例解决了在化学领域中遇到的多种命名法和对同义词进行分组的问题。更具体而言,本公开的一个实施例可以独立于使用任一具体命名方法的命名而获得具有相同或相似功能的化学物质的信息。本发明的实施例可以以包括方法或系统的多种方式实施。下面讨论本发明的几个实施例。作为一种化学物质的信息的处理方法,本发明的一个实施例至少包括下列操作 获得所述化学物质的化学结构式的子结构;从所获得的子结构中确定所述化学物质的特征子结构;以及存储所述化学物质的所述特征子结构。作为一种化学物质的信息的查询方法,本发明的一个实施例至少包括获得化学物质的查询请求;以及获得所要查询的化学物质的特征子结构。作为一种用于相关联地存储化学物质与特征子结构的存储系统,本发明的一个实施例至少包括接口装置,用于响应于外部请求,传送所述化学物质的信息及其特征子结构;以及与所述接口装置耦接的存储装置,用于相关联地存储化学物质的信息及其特征子结构。作为一种化学物质的信息的处理系统,本发明的一个实施例至少包括子结构获得装置,用于获得所述化学物质的化学结构式的子结构;特征子结构确定装置,用于从所获得的子结构中确定所述化学物质的特征子结构;以及存储装置,用于存储所述化学物质的所述特征子结构。作为一种化学物质的信息的查询系统,本发明的一个实施例至少包括接收装置, 用于获得化学物质的查询请求;以及特征子结构获得装置,用于获得所要查询的化学物质的特征子结构。本发明的其中一个实施例至少提供了以下优点能够独立于命名方法而获得化学物质的同义词。
图1示出了根据本发明的一个实施例的用于关联化学物质的化学结构式与化学物质的信息的方法的示意性流程图。图2示出了根据本发明的一个实施例的在图1所示的步骤103中包括的步骤的示意性流程图。图3示出了根据本发明的一个实施例的在图1所示的步骤105中包括的步骤的示意性流程图。
6
图4示出了根据本发明的一个实施例的用于基于化学物质的化学结构式匹配化学物质的方法的示意性流程。图5示出了根据本发明的一个实施例的在图4所示的步骤405中包括的步骤的示意性流程图。图6示出了根据本发明的一个实施例的在图4所示的步骤407中包括的步骤的示意性流程图。图7示出了本发明的一个实施例在生物医药领域中的应用的一个例子的示意图。图8示出了根据本发明的一个实施例的用于存储和匹配化学结构式的系统的示意性框图。
具体实施例方式下列讨论中,提供大量具体的细节以帮助彻底了解本发明。然而,很显然对于本领域技术人员来说,即使没有这些具体细节,并不影响对本发明的理解。并且应该认识到,使用如下的任何具体术语仅仅是为了方便描述,因此,本发明不应当局限于只用在这样的术语所表示和/或暗示的任何特定应用中。在进行详细描述之前,先对本文中出现的术语进行说明。“子结构”是指化学物质的化学结构式的一部分或全部。“特征子结构”是指具有功能区分度的子结构,更具体地,具有相同或相似功能的化学物质部分或全部共有的子结构,这种子结构往往代表一种或者多种功能。图1示出了根据本发明的一个实施例的用于基于化学物质的化学结构式索引化学物质的过程的示意性流程图。在步骤101,过程开始。在步骤103,基于所获得的关于化学物质的信息,获得化学物质的化学结构式的子结构。图2示出了根据本发明的一个实施例的在图1所示的步骤103中包括的步骤的示意性流程图。如图2所示,过程一旦进行到步骤103,首先执行步骤201。在步骤201,可以根据已有数据,获得具有相同或相似功能的一类化学物质的信息。在此说明的是,所获得的一类化学物质中可以包括具有相同或相似功能的一种或多种化学物质。如果获得了多种化学物质的信息,则需要针对每一种化学物质的信息,执行图2所示的过程,直到获得了该具有相同或相似功能的多种化学物质的全部子结构为止。还要说明的是,在下文中,为了便于说明,将作为图2中的步骤的处理对象的一种化学物质称为“化学物质”,并且将所获得的一类化学物质中的除作为处理对象的一种化学物质之外的化学物质称为“其它化学物质”。在化学领域中,已有数据可以是来自诸如DrugBank之类的商业数据源的数据。并且,在现有技术中,已有如下聚类算法来从诸如医学文献之类的数据源挖掘出具有某一共有属性的数据集,这些具有某一共有属性的化学物质往往是具有相同或相似功能的化学物质1) LDA (Latent Dirichlet Allocation),一种话题模型,2002 年由加州大学伯克利分校教授提出,用于对文章的话题进行识别;是一个集合概率模型,主要用于处理离散的数据集合,目前主要用在数据挖掘(dm)中的text mining和自然语言处理中,主要是用来降低维度的。2) LSA(Latent Semantic Analysis),潜在语义分析,是 ScottDeerwester, Susan Τ. Dumais等人在1990年提出来的一种新的索引和检索方法。该方法和传统向量空间模型 (vector space model) 一样使用向量来表示词(terms)禾口文档(documents),并通过向量间的关系(如夹角)来判断词及文档间的关系。3)PLSA(Probabilistic latent semantic analysis),概率潜在语义分析,基于双模式和共现的数据分析方法延伸的经典的统计学方法。PLSA应用于信息检索,过滤,自然语言处理,文本的机器学习或者其他相关领域。PLSA与LSA的不同是,LSA是以共现表(就是共现的矩阵)的奇异值分解的形式表现的,而PLSA是一个概率模型。例如在生物医药领域中,使用现有的这些技术可以从来自医疗文献,如专利文献 (US,W0,EU专利文献),论文(Medline)中自动地挖掘药物、疾病、蛋白质之间的关系,从而获得具有相同或相似功效的多种药物的信息。使用现有技术获得的化学物质的信息包括化学物质的名称和/或化学物质的化学结构式。化学物质的名称可以是使用各种命名方法而获得的名称,诸如化学物质的IUPAC名称、SMILES名称、InChi名称、CAS注册号等。化学物质的化学结构式可以是化学结构式的图像、3D分子图像等。在步骤203,判断所获得的化学物质的信息中是否包括化学结构式。如果判定不包括化学结构式,则过程前进到步骤205,否则过程前进到步骤207。在步骤205,将所获得的化学物质的信息转换成化学物质的化学结构式。然后,过程前进到步骤207。目前已经存在现有工具,例如Cambridge公司提供的name = structure工具,用户可以将化学物质的名称转换成化学物质的化学结构式。在步骤207,将获得的化学结构式分割为子结构。然后,过程返回到图1所示的步骤 105。在步骤105,从所获得的子结构中确定化学物质的特征子结构。图3示出了根据本发明的一个实施例的在图1所示的步骤105中包括的步骤的示意性流程图。如图3所示,过程一旦进行到步骤105,首先执行步骤301。在步骤301,针对在步骤103中获得的化学物质,确定该种化学物质的至少一个子结构在步骤103中获得的具有相同或相似功能的其它化学物质的全部子结构中出现的次数。在该步骤中,统计化学物质的每一个子结构在由功能聚类结果获得的同类的其它化学物质的化学结构式中出现的次数,出现频率高的子结构就用来代表着该化学物质特
点ο在步骤303,判断所确定的次数是否满足预定条件。预定条件是次数的预定阈值、 次数的排序阈值、和次数与所有其它化学物质的总数的比值的预定阈值中的一种或多种。 如果满足预定条件,则过程前进到步骤305,否则,针对下一子结构继续进行判定。在步骤305,将满足预定条件的子结构确定为是该种化学物质的特征子结构。例如,具有类似功能的一组化学物质包括ChCpdl、ChCpd2、ChCpd3。ChCpdl具有3 个子结构 SubStrl-U SubStrl-2、SubStrl-3,ChCpd2 具有 5 个子结构,而 ChCpd3 具有 4个子结构。例如,ChCpdl的子结构SubMrl-I在ChCpd2、ChCpd3的子结构中都出现了, SubStrl-2在ChCpd2、ChCpd3的子结构中都没有出现,而SubStrl_3仅在ChCpd2的子结构中出现了。那么,SubStrl-I的出现次数为2,SubStrl-2的出现次数为0,而SubStrl_3的出现次数为1。假设预定条件是出现次数大于等于1。那么对于化学物质ChCpdl,确定其特征子结构为SubStrl-l、SubStrl-3。对于其它两种化学物质ChCpd2和ChCpd3,也可执行上述过程。可替换地,如果预定条件是次数的排序在前2位,那么由于ChCpdl的三个子结构的次数排序为SubStrl-1、SubStrl-3、SubStrl-2,所以对于化学物质ChCpdl,其特征子结构仍为SubStrl-l、SubStrl-3。对于其它两种化学物质ChCpd2和ChCpd3,也可执行上述过程。可替换地,如果预定条件是次数与所有其它化学物质的总数的比值大于50%,那么由于ChCpdl的三个子结构SubStrl-l、SubStrl-3、SubStrl-2的出现次数与其它化学物质的总数2的比值分别为100%、0和50%,所以对于化学物质ChCpdl,其特征子结构仍为 SubStrl-I ο在前述的Smsha等人提出的GraphGr印算法中,公开了将化学结构式用高频出现的子结构表示。在该GraphGrep算法,穷举数据库中存储的所有图形的所有路径,并且根据每一路径在全部路径中出现的频率,将出现频率达到或超过某一阈值的路径用作索引。但是该GraphGrep算法没有考虑功能,也就是说,没有从数据库中的所有图形中确定具有某一功能的图形,并且针对这部分图形来确定用作为索引的子结构,从而导致很多子结构对于该部分图像来说是无用的。例如双苯环、单苯环在各种化学物质中出现,但是其本身并不表征某种功能。同样地,在 Xifeng Yan 等人的论文 “Graph Indexing :A Frequent Structurebased Approach", SIGMOD 2004 June 13-18,2004,Paris,France 中可以找到用于将化学结构式分割成子结构,并且选择出出现频率高的作为有代表性的子结构,而本发明是挖掘出具有功能区分度的特征子结构。在步骤107,存储该种化学物质的特征子结构。现有技术中,已经存在用于存储化学结构式图的以下方式1)邻接矩阵;2)如前所述的INCHI ;3)如前所述的Smiles。本领域技术人员应当知道,在步骤107中可以将该种化学物质的特征子结构与该种化学物质的其它信息(诸如,使用各种命名法的命名信息,其包括IUPAC名称、SMILES名称、InChi名称、CAS注册号中的一个或多个)相关联地存储起来。化学物质的其它信息和特征子结构中的一个或多个能够用作为用于查询所述化学物质及其同义词的索引。值得注意的是,在以上给出了确定特征子结构的一种优选方法。但是,特征子结构也可以是用户根据其先验经验指定的,也可以用其它方式给出。在步骤109,过程结束。
图4示出了根据本发明的一个实施例的用于基于化学物质的化学结构式匹配化学物质的方法的示意性流程。在步骤401,过程开始。在步骤403,获得对于化学物质的查询请求。根据本发明的一个实施例,对于化学物质的查询请求是用户输入的。根据本发明的另一个实施例,对于化学物质的查询请求是系统生成的。查询请求包括化学物质的命名、 分子结构式。此外,查询请求中还可能包括指定的子结构,用户有可能希望使用该指定的子结构作为特征子结构查询其它化学物质。在步骤405,获得所要查询的化学物质的特征子结构。图5示出了根据本发明的一个实施例的在图4所示的步骤405中包括的步骤的示意性流程图。如图5所示,过程一旦进行到步骤405,首先执行步骤501。在步骤501,判断查询请求中是否包括化学结构式。在此化学结构式可以是图像格式、3D图像格式、SMILES格式或INCHI格式等。如果查询请求中不包括化学结构式,则过程前进到步骤503,否则,过程前进到步骤505。在步骤503,基于查询请求中的信息查询存储库,以获得相关的特征子结构。通常, 在查询请求中包括化学物质的名称、名称的关键字等等。由于如前所述,存储库中已经相关联地存储了化学物质的信息和特征子结构,因此查询存储库可以快速获得特征子结构。在步骤505,将获得的结构式显示给用户以供用户选择,并将所选择的结构式确定为作为检索条件的特征子结构。在步骤505中,用户也可以选择排除某些子结构作为特征子结构。也就是,用户希望获得不包括被排除的子结构的化学物质。此外,步骤505可以重复执行多次,直到用户确定不再进行选择为止,并且将用户最终选择的结构式确定为作为检索基础的特征子结构。步骤505是可选的。如图5中虚线所示,也可以将在步骤503中所获得的特征子结构直接用于检索,而无需用户进一步选择。在此情况下,将不执行图5中的步骤505。可替换地,如果在步骤501中确定查询请求中包括请求查询的子结构,则在步骤 501中可以获得请求查询的子结构。然后,将所获得的请求查询的子结构作为特征子结构用于查询。例如,如果用户知道某种农药的一子结构对某种害虫有杀灭作用并且希望查询具有该作用的多种农药,那么用户在查询请求中直接输入该子结构,然后将该子结构用作为特征子结构进行查询。在此情况下,可以不执行步骤505。在步骤407,基于获得的特征子结构,确定与特征子结构匹配的其它化学物质。子结构的比较可以使用现有技术中已有的方法,例如,“An algorithm for subgraph isomorphism", JR Ullmann-Journal of the ACM(JACM),1976 中公开的图匹配算法。图6示出了根据本发明的一个实施例的在图4所示的步骤407中包括的步骤的示意性流程图。如图6所示,过程一旦进行到步骤407,首先执行步骤601。在步骤601,基于在步骤405中确定的特征子结构,检索出与该特征子结构全部或部分匹配的化学物质的信息。在步骤603,判断检索出的化学物质中的每一种化学物质与特征子结构匹配的子结构的个数是否满足预定条件。预定条件可以是个数的预定阈值、个数的排序阈值、和个数与检索出的特征子结构的总个数的比值的预定阈值中的一种或多种。如果不满足预定条件,则针对下一种化学物质执行步骤603。否则,过程前进到步骤605。例如,用于检索的特征子结构有3个,分别是SubStrl-1、SubStrl-2、SubStr 1-30 检索后得出与SubMrl-I匹配的物质有ChCpdl-ChCpd3和ChCpd8_ChCpdll,与 SubStrl-2 匹配的物质有 ChCpdl-ChCpd4,与 SubMrl-3 匹配的物质有 ChCpdl_ChCpd2 和 ChCpd4-ChCpdll。如果预定条件是匹配子结构的个数大于等于3,那么匹配的物质是与3个子结构都匹配的ChCpdl和ChCpd2。可替换地,如果预定条件是个数的排序在前2位,那么匹配的物质是 ChCpdl-ChCpd4 和 ChCpd8_ChCpdll。可替换地,如果预定条件是个数与检索出的特征子结构的总个数的比值大于 50%,那么匹配的物质是 ChCpdl-ChCpcM 和 ChCpd8-ChCpdll。在步骤605,将满足预定条件的化学物质确定为与特征子结构匹配的其它化学物质。此外,还可以将该其它化学物质的命名信息提供给用户以供使用。在步骤409,过程结束。图7示出了本发明的一个实施例在生物医药领域中的应用的一个例子的示意图。在步骤701从现有数据中识别出具有特定功能的一类药品中的每一种药品的名称。如图所示,在本例子中识别出的具有镇定功能的药品的名称是Valium(安定)。在步骤703将该药品的名称转换成化学结构式。在步骤705将给化学结构式分割成各种子结构。在步骤707确定每一种药品的特征子结构。在步骤709将每一种药品的特征子结构与其名称相关联地存储在数据库中。在步骤711用户输入查询请求。该查询请求包括要查询的药品的名称。在步骤713基于该名称信息从数据库中查询出该药品的特征子结构。在步骤715基于所获得的特征子结构从数据库中查询出与特征子结构全部或部分匹配的全部药品。在步骤717将匹配的子结构的个数符合预定条件的所有药品的名称显示给用户。图8示出了根据本发明的一个实施例的用于存储和匹配化学结构式的系统的示意性框图。如图所示,系统包括后端、前端及其之间的存储设备。系统的后端包括输入装置 801、转换装置803 (可选)、子结构分割装置805、特征子结构确定装置807、存储装置809。 系统的前端包括接收装置813、特征子结构获得装置815、选择装置817 (可选)和匹配装置 819。后端和前端之间的存储系统包括接口装置821和存储库811。可替换地,存储系统可以被结合到前端或后端中作为其中的一部分。输入装置801用于接收现有工具从已有数据源获得的具有相同或相似功能的多种化学物质的信息。转换装置803是可选的。如果转换装置803从输入装置801接收的化学物质的信息包括化学结构式,那么转换装置803无需执行任何操作。如果转换装置803从输入装置801接收的化学物质的信息不包括化学结构式,而是包括化学物质的名称,那么转换装置 803将化学物质的名称转换成其化学结构式。子结构分割装置805将从转换装置803接收到的化学结构式分割成各种子结构。 如前所述,子结构分割处理可以使用现有技术来实现。特征子结构确定装置807从分割出的子结构中确定化学物质的特征子结构。具体地,特征子结构确定装置807首先基于已有数据将化学物质进行聚类以获得具有相同或相似功能的一类化学物质。使用现有技术,聚类过程可以包括如下处理-对于每一篇文献(专利文献、论文、或技术报告),将其表示为一组术语,例如,该组术语可以包括仅仅化学物质名称;或包括化学物质名称以及疾病名称、蛋白质等;以及-使用LDA、PLSA或LSA来对整组术语进行聚类。例如,对于药物,可以根据医疗文献中对于致病基因,所导致的疾病名称,以及所诱发的蛋白质等物质以及它们的共同出现情况来确定哪些药物能够用来治疗某一种疾病或具有某一疗效。再例如,对于清洁剂,将可以用来清洗食物的清洁剂归为一类,并将可以用来清洗非食品的清洁剂归为另一类。然后,特征子结构确定装置807统计聚类所获得的一类化学物质中的一种化学物质的每一个子结构在该类中全部化学物质的化学结构式中出现的次数。再然后,特征子结构确定装置807判断所统计的次数是否满足预定条件,如果满足预定条件,则认为该子结构是该种化学物质的特征子结构。预定条件是次数的预定阈值、次数的排序阈值、和次数与所有化学物质的总数的比值的预定阈值中的一种或多种。概言之,特征子结构确定装置807 针对每次聚类都按照相关性对名称列表进行排序,并且对于每次聚类,选择最高排序的化学物质名称,并且选择最频繁出现的结构作为关注的结构(即,具有功能区分度的结构)。当然,如前所述,特征子结构也可以根据用户的先验知识来选择确定。关联存储装置809将特征子结构确定装置807针对每一化学物质所确定的全部特征子结构与该化学物质的信息相关联地存储到存储库811中。存储库811用于相关联地存储化学物质的信息及其特征子结构。接口装置821与存储库811和其它设备连接,其它设备经由接口装置821访问存储库811。接收装置813接收用户输入的查询请求。用户输入的查询请求可能包括某种化学物质的某种名称或者用户已知的某种化学物质的一个或多个特征子结构。如果用户输入的查询请求中包括请求查询的子结构,则特征子结构获得装置815 可以获得请求查询的子结构并将该子结构确定为特征子结构。否则,特征子结构获得装置 815根据查询请求中包括的名称查询存储库811以获得与该名称相关联的特征子结构。选择装置817是可选的。用于将接收到的特征子结构发送给显示设备以显示给用户,供用户选择。如上所述,该选择不限于一次,而是可以由用户多次选择。例如,用户可能选择某些特征子结构以获得具有这些特征子结构所带来的特定功效的化学物质。当然,用户也可以排除某些特征子结构以获得不具有这些特征子结构所带来的特定功效的化学物质。匹配装置819基于选择装置817提供的特征子结构,从存储库811中查询与特征子结构全部或部分匹配的化学物质。匹配装置819判断查询得到的每一化学物质的与特征子结构匹配的子结构的个数是否满足预定条件。如果满足预定条件,将满足预定条件的化学物质的信息显示给用户。以上通过具体实施例说明了本发明。在本发明中首先提出了特征子结构的概念, 即具有功能区分度的子结构,并且基于特征子结构来关联和匹配化学物质的信息,从而本发明能够检索出功能相同或相似的多种化学物质,而与使用何种命名方法来命名这种化学物质无关。此外,现有技术中的匹配是完全匹配,例如,查询请求中包括某一关键词,查询结果就是包括该关键词的化学物质信息。而本发明的查询请求使用的是特征子结构,而查询结果是根据化学物质的子结构与特征子结构的匹配情况是否满足预定条件而确定的化学物质信息,因而本发明实际上使用的部分匹配。因此,本发明的查询结果范围更加宽泛。本发明在网络系统中可能特别有用。大多数网络系统现在允许用户检索关键字。 如果用户想要给它们的产品,药物Penicillin(盘尼西林)做检索,除了药物名称之外,用户还需要检索其它40种名称,象“Abbocillin” “Galofak”,这些都指的是同一种药。如果清洁剂的某种化学结构会导致疾病,用户在使用本发明进行检索时可以排除该化学结构, 以获得不包括该化学结构的安全洗涤剂。使用本发明,可以将检索关键词都变换成结构表示并使用该结构表示进行检索,从而使检索独立于任一具体的命名方法,然后根据结构相似性确定将哪些内容与搜索结果一起显示给用户,从而可以检索出具有相同或相似功能的所有产品,大大降低成本和耗时。本发明的各实施例可采用任何适宜的方式实现,包括硬件、软件、固件或其任何组合。或者,可将本发明实施例至少部分地实现为在一个或多个数据处理器和/或数字信号处理器上运行的计算机软件。本发明的实施例的元件和组件可采用任何合适的方式在物理上、功能上和逻辑上实现。的确,可将该功能实现于单个部件、多个部件中,或作为其他功能部件的一部分。这样,可将本发明实施例实现在单个部件中,或将其在物理上和功能上分布在不同部件和处理器之间。用于执行本发明的操作的计算机程序码,可以以一种或多种程序设计语言的任何组合来编写,所述程序设计语言包括面向对象的程序设计语言-诸如JaVa、Smalltalk、C++ 之类,还包括常规的过程式程序设计语言-诸如” C”程序设计语言或类似的程序设计语言。程序码可以完全地在用户的计算上执行、部分地在用户的计算机上执行、作为一个独立的软件包执行、部分在用户的计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中,远程计算机可以通过任何种类的网络——包括局域网 (LAN)或广域网(WAN)-连接到用户的计算机,或者,可以(例如利用因特网服务提供商来通过因特网)连接到外部计算机。以上参照按照本发明实施例的方法、系统和计算机程序产品的流程图和/或框图描述了本发明。要明白的是,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得通过计算机或其它可编程数据处理装置执行的这些指令,产生实现流程图和/或框图中的方框中规定的功能/操作的装置。也可以把这些计算机程序指令存储在能指令计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中,这样,存储在计算机可读介质中的指令产生一个包
13括实现流程图和/或框图中的方框中规定的功能/操作的指令装置(instruction means) 的制造品。也可以把计算机程序指令加载到计算机或其它可编程数据处理装置上,使得在计算机或其它可编程数据处理装置上执行一系列操作步骤,以产生计算机实现的过程,从而在计算机或其它可编程装置上执行的指令就提供实现流程图和/或框图中的方框中规定的功能/操作的过程。本发明通过使用本发明的实施例的详细说明被描述,这些实施例作为例子被提供,并且不打算限制本发明的范围。尽管本发明描述了这些实施例,不过对本领域的技术人员来说,对这些实施例的变更和改变是显而易见的。因此,对示例性实施例的上述说明并不限定或约束本发明。其它变化、替代和更改也是可能的,并不脱离由下面的权利要求限定的本发明的精神和范围。
权利要求
1.一种化学物质的信息的处理方法,包括 获得所述化学物质的化学结构式的子结构;从所获得的子结构中确定所述化学物质的特征子结构,其中所述特征子结构是具有功能区分度的子结构;以及存储所述化学物质的所述特征子结构。
2.根据权利要求1所述的方法,其中,所述获得子结构的步骤还包括 获得关于所述化学物质的信息;如果所获得的关于所述化学物质的信息不是所述化学物质的化学结构式,则将所述化学物质的信息转换成化学结构式;以及将所述化学物质的化学结构式分割成子结构。
3.根据权利要求2所述的方法,其中,所述确定特征子结构的步骤包括获得所述化学物质的至少一个子结构在具有与所述化学物质相同或相似功能的其它化学物质的子结构中出现的次数;以及如果所述次数满足预定条件,则认为所述至少一个子结构是所述化学物质的特征子结构。
4.根据权利要求3所述的方法,其中,所述预定条件是所述次数的预定阈值、所述次数的排序阈值、和所述次数与所述其它化学物质的总数的比值的预定阈值中的一种或多种。
5.一种化学物质的信息的查询方法,包括 获得化学物质的查询请求;以及获得所要查询的化学物质的特征子结构,其中所述特征子结构是具有功能区分度的子结构。
6.根据权利要求5所述的方法,还包括基于所述特征子结构,确定与所述特征子结构匹配的其它化学物质。
7.根据权利要求6所述的方法,其中,所述获得特征子结构的步骤包括基于所述查询请求中包括的信息,从存储库中检索出所述特征子结构,其中在所述存储库中存储了多种化学物质的特征子结构。
8.根据权利要求7所述的方法,还包括将检索出的所述特征子结构呈现给用户以供用户选择;并且所述确定匹配的其它化学物质的步骤是基于用户选择的特征子结构匹配其它化学物质。
9.根据权利要求7所述的方法,还包括响应于匹配的特征子结构的个数满足预定条件,确定实现匹配;并且其中所述预定条件是所述个数的预定阈值、所述个数的排序阈值、和所述匹配的特征子结构的个数与所述检索出的特征子结构的总个数的比值的预定阈值中的一种或多种。
10.根据权利要求6所述的方法,其中,如果所获得的查询请求包括要排除的子结构, 则在确定匹配的其它化学物质的步骤中,从匹配的其它化学物质中排除具有该要排除的子结构的其它化学物质。
11.根据权利要求5所述的方法,其中所述获得化学物质的查询请求的步骤包括获得请求查询的子结构,并且所述获得所述化学物质的特征子结构的步骤包括将所述请求查询的子结构确定为所要查询的特征子结构;并且其中,所述方法还包括基于所述特征子结构,确定与所述特征子结构匹配的化学物质。
12.一种用于相关联地存储化学物质与特征子结构的存储系统,所述存储系统包括 接口装置,用于响应于外部请求,传送所述化学物质的信息及其特征子结构,其中所述特征子结构是具有功能区分度的子结构;以及与所述接口装置耦接的存储库,用于相关联地存储化学物质的信息及其特征子结构。
13.一种化学物质的信息的处理系统,包括子结构获得装置,用于获得所述化学物质的化学结构式的子结构; 特征子结构确定装置,用于从所获得的子结构中确定所述化学物质的特征子结构,其中所述特征子结构是具有功能区分度的子结构;以及存储装置,用于存储所述化学物质的所述特征子结构。
14.根据权利要求13所述的系统,其中,所述子结构获得装置包括 输入装置,用于获得关于所述化学物质的信息;转换装置,用于如果所获得的关于所述化学物质的信息不是所述化学物质的化学结构式,则将所述化学物质的信息转换成化学结构式;以及子结构分割装置,用于将所述化学物质的化学结构式分割成子结构。
15.根据权利要求14所述的系统,其中,所述特征子结构确定装置还用于获得所述化学物质的至少一个子结构在具有与所述化学物质功能相同或相似的其它化学物质的子结构中出现的次数,并且如果所述次数满足预定条件,则判定所述至少一个子结构是所述化学物质的特征子结构。
16.根据权利要求15所述的系统,其中,所述预定条件是所述次数的预定阈值、所述次数的排序阈值、和所述次数与所述其它化学物质的总数的比值的预定阈值中的一种或多种。
17.一种化学物质的信息的查询系统,包括 接收装置,用于获得化学物质的查询请求;以及特征子结构获得装置,用于获得所要查询的化学物质的特征子结构,其中所述特征子结构是具有功能区分度的子结构。
18.根据权利要求17所述的系统,还包括匹配装置,用于基于所述特征子结构,确定与所述特征子结构匹配的其它化学物质。
19.根据权利要求18所述的系统,其中,所述特征子结构获得装置还用于基于所述查询请求中包括的信息,从存储库中检索出所述特征子结构,其中在所述存储库中存储了多种化学物质的特征子结构。
20.根据权利要求19所述的系统,还包括选择装置,用于将检索出的所述特征子结构呈现给用户以供用户选择;并且其中,所述匹配装置基于用户选择的特征子结构匹配其它化学物质。
21.根据权利要求19所述的系统,其中所述匹配装置还用于响应于匹配的特征子结构的个数满足预定条件,确定实现匹配;并且其中所述预定条件是所述个数的预定阈值、所述个数的排序阈值、和所述匹配的特征子结构的个数与所述检索出的特征子结构的总个数的比值的预定阈值中的一种或多种。
22.根据权利要求18所述的系统,其中,如果所获得的查询请求包括要排除的子结构, 则所述匹配装置从匹配的其它化学物质中排除具有该要排除的子结构的其它化学物质。
23.根据权利要求17所述的系统,其中所述接收装置进一步用于获得请求查询的子结构,并且所述特征子结构获得装置进一步用于将所述请求查询的子结构确定为所要查询的特征子结构,并且其中,所述系统还进一步包括匹配装置,用于基于所述特征子结构,确定与所述特征子结构匹配的化学物质。
全文摘要
本公开提供了化学物质的信息的处理和匹配方法、系统及存储系统。根据本发明的一个实施例,化学物质的信息的处理方法包括获得所述化学物质的化学结构式的子结构;从所获得的子结构中确定所述化学物质的特征子结构;以及存储所述化学物质的所述特征子结构。本公开的一个方面所要解决的技术问题在于提供一种能够独立于现有的各种命名方法而处理和/或匹配化学物质的信息的方法和系统。本公开的一个方面提供了一种利用特征子结构高效全面地索引和/或查询化学物质的信息的方法和系统及其存储系统。
文档编号G06F17/30GK102436447SQ20101029905
公开日2012年5月2日 申请日期2010年9月29日 优先权日2010年9月29日
发明者吴贤, 张俐, 苏中, 蔡柯柯, 郭宏蕾 申请人:国际商业机器公司