专利名称:用于校验化学名称的方法及系统的制作方法
技术领域:
本发明总体上涉及信息处理技术领域,特别地,涉及一种用于校验化学名称的方法及系统
背景技术:
目前并行存在多种化学物质的命名法,包括IUPAC命名法、CAS编号、化学式、 SMILES和国际化合物标识等。其中IUPAC命名法包括了 IUPAC(国际纯化学与应用化学联 盟)规定的一系列的命名法,它规定了从有机到无机,从高分子到微分子及各方面的化学 术语,IUPAC命名法被广泛使用在化学文档、专利说明书、手册以及教科书等中,一个IUPAC 命名法的例子如4_(aminomethyl) cyclohexane-l-carboxylic acid(氨基环己胺羧基酸, 结构如图4所示,下面将相继给出其它命名规则对应氨基环已胺羧基酸的名称)。化学式 是把元素符号组合起来,用以表示物质(包括单质和化合物)组成的式子。化学式仅表 示纯净物,混合物没有化学式,如 C8H15N02。SMILES (Simplified molecular input line entry specification),简化分子线性输入规范,是一种用ASCII字符串明确描述分子结构 的规范。例如C1CC(CCClCN)C( = 0)0。国际化合物标识(InChI,International Chemical Identifier)是由国际纯粹与应用化学联合会和美国国家标准技术研究所(National Institute of Standards and Technology, NIST)联合制定的,用以唯一标识化合物 I UPAC 名称的字符串,例如InChI = lS/C8H15N02/c9-5-6-l-3_7 (4-2-6)8 (10) ll/h6_7H, 1-5,9H2, (H,10,11)。随着在过去几十年中信息技术的迅猛发展,人们发展了越来越多的计算机辅助 应用以处理化学数据。比如,光学字符识别技术(OCR,Optical Character Recognition) 被用来扫描纸件文档并将其以数字形式存储。命名实体识别技术(NER,Named Entity Recognition)被用来从文档中自动识别化学名称。搜索引擎则被用来检索包括相关化学名 称的相关文档。这些技术大大地帮助了人们处理化学信息。但现实需要更多的新的技术来帮助处理各种化学文档。其中之一就是利用编辑工 具帮助使用者输入、使用或校验正确的化学名称。以IUPAC化学名称为例,绝大多数IUPAC 化学名称非常长,难以书写,即便是最有经验的专家也常常犯错误。因此一个自动校验化 学名称的应用就显得非常有必要。现有的工具主要是采用比如Microsoft Word, Lotus Sympathy等通用的文档处理工具。但这些通用的文档处理工具难以处理化学名称。在自然语言处理(NLP,Natural Language Processing)技术中,现存的较广泛使 用的方法可以分为两种一种是基于编辑距离的方法,其通过在字典中搜索最相像的名字 (即编辑距离最短)进行替换。其中编辑距离算法是两个字符串之间相似度的一个度量方 法,编辑距离就是用来计算从一个字符串转换到另一个字符串所需的最少插入、删除和替 换的字符个数。例如,“three”与“tree”两个字符串的编辑距离为1,因为只需要删除一个 字符,两个字符串就一样了。另一种是基于发音的方法,其通过搜索发音最接近的名字进行 替换。其中基于发音的拼写校验是根据发音的相似性纠正拼写错误,比如wrench这个词,用户可能因为发音的原因的错误的写成了 rench,因为w是不发音的。基于发音的拼写校验 会把rench修改成wrench。但遗憾的是,上述两种技术都不适合校验化学名称
发明内容
本发明一方面提供一种用于校验化学名称的方法,所述方法包括将化学名称进 行分段以获得相应的词片;根据词片所代表的化学组成之间的化学关联对化学名称进行校验。本发明另一方面提供一种化学名称校验系统,包括分段器,被配置用于将化学名 称进行分段以获得相应的词片;校验器,被配置用于根据词片所代表的化学组成之间的化 学关联对化学名称进行校验。本发明通过提供一种用于化学名称校验的方法和系统,从而可以不仅帮助用户发 现和纠正化学名称的拼写错误,还可以对整个化学名称在化学关联的层面进行校验,从而 既可以发现拼写错误的化学名称,还可以发现不符合化学规律的化学名称,并且可以很大 程度上帮助用户对化学名称进行纠错。
为了对本发明实施例的特征和优点进行详细说明,将参照以下附图。如果可能的 话,在附图和描述中使用相同或者类似的参考标号以指代相同或者类似的部分。其中图1示出了本发明校验化学名称的方法的一个实施例;图2示出了本发明进行化合价校验的流程3示出了本发明校验化学名称的方法的另一个实施例;图4、5示出了本发明校验具体化学名称的实例;图6示出了本发明的校验化学名称系统的框图。
具体实施例方式现在将参考本发明的示例性实施例进行详细的描述,在附图中图解说明了所述实 施例的示例,其中相同的参考数字始终指示相同的元件。应当理解,本发明并不限于所公开 的示例实施例。还应当理解,并非所述方法和设备的每个特征对于实施任一权利要求所要 求保护的本发明都是必要的。此外,在整个公开中,当显示或描述处理或方法时,方法的步 骤可以以任何顺序或者同时执行,除非从上下文中能清楚一个步骤依赖于先执行的另一步 骤。此外,步骤之间可以有显著的时间间隔。化学物质的各个化学组成之间会存在很多受自然规律约束的化学关联,比如化合 价(valence),化合价是指一个原子或者结构片段最多可以连接一价的原子(比如氢原子 和氯原子)的数目,或者被替换成一价的原子(比如氢原子和氯原子)的数目。比如氢氧根 的化合价是-1,因为它最多可以再连接一个氢原子,形成水分子。一个化学名称的化学名称 片段的化合价有正负,不能只出现正价片段或者负价片段,所有化学名称片段的化合价之 和接近于0,或者等于0。另外对于有机物,化合价和位置信息有关。对于链烷基和环烷基有 机物,对于开头或者结尾的炭原子所连接的分子片段化合键值之和不能大于3,其他的位置 不能大于 2。比如对于这个化学名称3-bromo-2-chloro-5-ethyl-4,4-dimethyloctane,化学片段链烷基dimethyloctane存在3个位置(3号位氟代基,2号位氯代基,5号位乙烷 基)具有氢原子的取代基。原来的化合价为0,需要减去3,化合价为-3,然后作为该化学片 段的化合价。利用化学物质的这个自然规律,就可以来进行化学名称的校验。考虑到IUPAC 命名法使用的广泛性,下面主要以IUPAC命名法为例详细说明书本发明的具体实施例。本 发明既采用了自然语言处理中的校验纠错方法,又利用了化学物质的内在化学关联,比如 化学名称中化合价的规律。这个特性也可以扩展到上述SMILES和INCHI等其它命名法检 验中,比如对其中每个原子设定好化合价的值,检查所有原子的化合价之和是否为0,如果 不是,则该名称无效。另外虽然以下实施例更多地针对化学物质的化合价之间的规律进行 校验,但是化学物质的任何合适的化学关联都可以用于本发明进行校验,比如对于链烷基 和环烷基有机物,对于开头或者结尾的炭原子所连接的分子片段个数不能大于3,其他的位 置不能大于2等等。
参见图1,图1描述了本发明的校验化学名称的方法的第一实施例。在步骤101 中,将化学名称进行分段以获得代表化学组成的词片。其中对化学名称进行分段,可以利用 分词方法(Tokenization)基于命名法总结出的正则表达式来将化学名称分隔成化学名称 词片。如下是基于IUPAC命名法总结出来的正则表达式的示例(\n)、( ;) [a-zA-Z0-9\s]、 ester (\s)、urea (. )、amide (, )、imide (, )、methanone (\s)、butanonone (\s)、 propanone (\s)、one(\s)
、ο 1 (\s)、ol (, \s) ["\s]> ile (\s)、(,)[a_z][a_z]、 [a-zA-Z] (, \s) ["\s] > (\s)mono、(\s)di、(\s)tri、(\s)tetra、(\s)penta、(\s)hexa、(\s)h印ta、(\s)octa、(\s)nona、(\s)deca、(\t)........以上的正则表达式中,用括号包含的部分是分隔符号,将不被包含在分隔好的化学名称片段中。例如对于4-(amin0methyl) cyclohexane-l-carboxylic acid(氨基环已胺羧基酸),利用所述总结出来的正则表达式 经过分段后就会变成词片aminomethyl、cyclohexane和carboxylic,其中各个词片代表 相应的化学组成,而acid因为比较通用会作为停止词(stop word)被忽略。
在步骤103中,根据词片所代表的化学组成之间的化学关联对化学名称进行校 验。其中词片所代表的化学组成存在一定的化学关联,该关联可以是化合价的关联,也可以 是各个化学组成的其它化学关联,比如结合位置是否恰当,相关化学组成是否可以共存等 等。利用化学领域的化学组成之间的化学关联规律,基于本发明,本领域技术人员可以构思 出各种恰当的可以应用的化学关联而实施本发明。如果词片所代表的化学组成之间的化学 关联是正确的,则判断所述化学名称为正确的而通过所述校验,相反,如果词片所代表的化 学组成之间的化学关联不符合相关自然规律,则可以判断所述化学名称是不正确的而未通 过所述校验。判断化学组成的化学关联可以先预设一些符合自然规律的相关约束规则,从 而校验就转化成检查待检测的化学名称的词片所代表的化学组成之间的化学关联是否符 合这些规则,本领域技术人员基于本申请当然可以根据其自身必备的技术常识而制定出各 种适于应用的各种约束规则。则此时可以将对化学名称的校验结果呈现给用户以供参考。
优选地(这并非解决本发明问题的必要步骤),该方法还包括步骤105。在步骤 105中,如果化学名称未通过校验,则替换未通过校验的化学名称的至少部分词片,并再执 行上述校验步骤。其中,可以基于现有的化学名称词典,例如PubChem等(http://pubchem. ncbi. nlm. nih. gov)提供了大量化学物质的信息,包括各种名称(IUPAC,Smile等等)),通 过上述介绍的分词方法将相关化学名称分成对应的词片,优选地将这些词片存储形成化学名称词片字典,例如该化学名称词片字典的一个词条可以为monoxide (单氧基)。根据基于 化学名称词典生成的词片或者化学名称词片字典,选择词片替换未通过校验的词片,然后 重复执行上述校验步骤以得到通过校验的化学名称。优选地,可以在化学名称词片字典中, 根据化学名称词片对应于和这个化学名称词片共同出现在化学名称中的其它化学名称词 片以及共同出现的次数,使用倒排表的方法对这个字典建立索引,从而可以提高读取替换 词片的速度,以提高和优化化学名称的校验效率,其中倒排表是现有一种广泛使用的索引 方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。 这里一个化学名称词片对应于和该词片共同出现过所有词片的名称以及共同出现的次数。 当然本领域技术人员也可以采用其它排序方式或者其它现有的方式来建立索引。
图2示出了优选的进行化合价校验的实施方式。在步骤201中,获得化学名称的 每个词片所代表的化学组成的化合价。获取词片所代表的化学组成的化合价可以采用多 种方式,可以生成每个化学名称词片及其对应的化学价的词片化合价字典。这个字典可以 手工编撰,另外可以半自动的生成,例如从一个种子字典开始,这个种子字典包括一小部分 的化学名称片段和化合键值,处理大量的化学名称中的词片,若只有一个词片的化合价未 知,利用化学名称中化合价之和为0的特点,可以获得该未知词片的化合键值,从而扩大了 种子字典的数量,利用迭代的方法不断扩大种子字典中化学名称词片的数量从而可以得到 一个比较完备的词片化合价字典。该词片化合价字典的一个词条可以为dinitr0gen,+2, +10。在步骤203中,将化学名称的每个词片所代表的化学组成的化合价累加得到化合价 和。另外如果化学组成的化合价与位置相关,所述字典中记录该化学组成的初始化合价,在 实际的比较中再行结合在化学名称中的位置信息来判断该化学组成的化合价。而在步骤 205中,则判断所得到的化合价和是否为零。如果所述化合价和为零,则在步骤207中判断 所述化学名称通过校验;如果所述化合价和不为零,则在步骤209中确定词片所属的化学 名称未通过校验。
图3示出了本发明更为优选的另一实施方式。需要说明的是,在该优选实施方式 中,为简单起见,该实施例采用的化学关联是化合价的关联,但这并非意味着需要将本发明 的化学关联限定到化合价的关联,这仅仅是本发明的一种优选方式,选用化合价的关联的 有益效果在于其用在名称校验中简单易实施,并且效率高,是申请人通过创造性构思和辛 苦的试验所获得的结论,而且与其他的自然语言理解中的自动纠错方法不同,使用化合价 的关联可以利用到化学物质内部结构的关系而获得符合自然规律的校验效果。
在步骤301中,从文档中自动抽取出化学名称。文档可以是专利,说明手册等任 意的无结构化文本数据或者有结构的数据。自动抽取可以使用基于规则的或者基于机器 学习的方法。其中基于规则的方法是总结化学名称常用前缀,后缀以及其他出现频率高 的字符串,使用这些特征判断一个词是否化学名称,以及将这个词和周边的其他词区分开 来。而基于机器学习的方法是利用已经标注好的样本,训练出自动对化学名称进行标注的 模型。比较常用的是顺序统计模型,比如HMM(Hidden Morkov Model,隐形马尔可夫模型), MeMM(Maximum Entropy Markov Model,牛IM ), CRF(Conditional Random Field,条件随机场)等。从无结构文本数据或者有结构的数据中抽取特定类型的词的现有 方法很多,在此不再一一介绍。
在步骤303中,使用前文介绍过的正则表达式和分词方法,对抽取出来的化学名称进行分词。在步骤305中,则对该化学名称的所有词片根据上述的化学名称词片字典进 行词片查询校对,如果该化学名称的每个词片都在词片字典中匹配到相同的词片,则转到 步骤309。在步骤309中,根据上述的词片化合价字典,对该化学名称的每个词片赋予相应 的化合价,在有些情况下,一个词片可能有多个化合价。在步骤311中,判断一个化学名称 的所有词片的化合价之和是否为0,如果为0,则转到步骤313,该化学名称被认定是正确的 化学名称并结束对该化学名称的校验;如果没有一种组合的和为0,则转到步骤315,对当 前的化学名称进行校验纠错。其中步骤305、309、311和313有利于快速分离出正确的化学 名称,而不需要进行后续高量级复杂度的计算,取得了显著的技术效果。优选地,可以根据 化学名称字典在化学名称未进行分段的时候进行整个名称的拼写检查,以进一步过滤正确 的化学名称,这样可以进一步减少运算量。
如果在步骤305中发现有一个或一个以上的词片没有完全匹配到,就转到步骤 315。在步骤315中,根据化学名称词片字典为该化学名称的至少一个词片寻找合适的替代 词片,优选为所有词片寻找合适的替代词片。寻找合适的替代词片包含有两个方面的度量, 如步骤317所示使用编辑距离去度量,即对针对和当前词片的编辑距离对词片库中所有词 片打分,编辑距离越小的,打分越高,例如cyclobutane和cyclooctane的编辑距离为2,和 cyclopropane的编辑距离为3,所以优先选取cyclooctane作为替代;或者如步骤319所 示使用共同出现次数去度量,其使用本词片在化学名称中的邻近词片,计算化学名称词片 字典中的词片和这些邻居词片共同出现的次数,共同出现次数越多的,打分越高,例如对于 dinitrogen monoxide,如果要替换monoxide,会发现pentoxide 禾口 dinitrogen共同出现次 数较多,所以使用pentoxide替换monoxide。如上所述,可以在化学名称词片字典中就提供 这些共同出现次数高的词片对。在步骤323中,结合这两方面的度量,对化学名称词片字典 里的所有词片进行排序,排名靠前的作为该词片的替代词片,值得注意的是,并非被校验的 化学名称的所有词片都必须替换。值得注意的是,步骤317、319是并列的,可以只执行其中 的任一个步骤,优选是二者的结合。采用二者的结合,可以配合同时校正多种类型的错误, 为用户提供更准确的建议。
在步骤323中,根据上述推荐的用于替换的词片,生成每个词片的替换词片列表。 在步骤325中,将所有词片的替换词片以及未被替换的词片(如果有的话)组合起来,形成 一个该化学名称的候选化学名称的纠错列表。对每个候选化学名称,在如步骤309的步骤 327中对每个化学名称相应的词片赋予相应的化合价,而在步骤329中检查化合价之和,如 果和为0,则将其作为可能的校验纠错结果,最后输出给用户。优选地,将多个化学名称排序 以推荐给用户,更优选地将在化学名称词片字典中共同出现频率高的词片所组成的通过校 验的化学名称优先推荐给用户。
作为上述实施方式的一种变通,也可以采用不是一次提供多种或者所有替换组 合,而只提供一种或者少数几种替换组合进行化学关联的校验,如果这些替换组合没有通 过校验则再提供其他替换组合。更为优选地,可以先将根据在化学名称词片字典中共同出 现频率高的词片所组成的替换组合进行校验,如果通过校验则优先推荐给用户,否则再提 供其他替换组合。所有这些本领域技术人员基于本发明的能够构思出的各种替代方式都应 该在本发明的保护范围之内。
下面以对化学名称dinitrogen monoxide (N20,氧化亚氮)的校验过程来示例本发明校验化学名称的方法。其中先将化学名称dinitrogen monoxide分为dinitrogen, monoxide两个词片,然后根据化学名称词片字典对词片进行拼写校验,即检查每个词片是 否在化学名称词片字典中出现,结果发现dinitrogen,monoxide在化学名称词片字典中 都存在,则通过上述化学价值索引表进行检索可以得到每个化学名称词片可能的化学键 11 dinitrogen (+2, +10), monoxide (-2), dinitrogen (+2, +10), monoxide (-2)白勺"SJ 能化合键值进行累加得到可能化合价和分别为0、8,发现可能化合价和中存在为0的情 况,则判断dinitrogen monoxide为合法的化学名称,从而完成了对化学名称dinitrogen monoxide (N20,氧化亚氮)的校验。
图 4 示出了 ιΗ石角IK学名禾尔 4-(aminomethyl) cyclohexane-l-carboxylic acid(M 基环已胺羧基酸)的分子结构以及化合价。图5则示出了如何具体对一个错误的化学 名称4-(amino)cyclohexane-l-carboylic acid的校验过程的示例。其中同样先将化 学名称 4- (amino) cyclohexane-l-carboylic acid t艮据上述分 i司方 ^去分成 amino> cyclohexane、和carboylic。然后根据化学名称字典或者化学名称词片字典对词片根 据所述的编辑距离算法进行检查,发现词片carboylic应该为carboxylic。检查每个 词片是否在化学名称词片字典中出现,如果是,就根据词片化合价字典获得各个词片对 应的化合价值Amino (-3),carboxylic (-1),根据词片化合价字典和结合位置信息4, 1得出cyclohexane的化合价为(+ 结果发现化合价和不为零,因此判定化学名称 4- (amino) eyelohexane-l-carboy 1 ic acid是错误的化学名称。则根据化学名称词片 字典对每个化学名称片段找出可以替代的片段并且重新组合,得到一系列新的化学名称 4-(aminomethyl)eyelohexane-1-carboxylic acid、4_(amino)cyclohexane-l-acetic ac Λ4 -(phenylmethy1)cyclohexane-l-carboxylic acid、4_ (aminomethyl) cyclobutene-l-carboxylic acid、4_(aminomethyl)cyclohexane-l-hexadecanoic acid 等。对这些化学名称,根据词片化合价索引字典为每一个片段重新赋予化合键值,重新 检验,从而发现 4- (aminomethyl) cyclohexane-l-carboxylic acid、4_ (phenylmethyl) cyclohexane-l-carboxylic acid、4_(aminomethyl)cyclohexane-l-hexadecanoic acid 是有效的,则按照共同出现的频率排序并提供给用户作为纠错参考。
图6示出了一种化学名称校验系统601。所述化学名称校验系统601包括有分段 器605,其被配置用于将化学名称进行分段以获得代表化学组成的词片;校验器607,其被 配置用于根据词片所代表的化学组成之间的化学关联对化学名称进行校验。优选地,化学 名称校验系统601还可以包括替换器609,其被配置用于如果化学名称未通过校验,则替换 未通过校验的化学名称的至少部分词片,并指令上述校验器校验替换后的化学名称,优选 地所述替换未通过校验的化学名称的词片包括根据化学名称词片字典获取词片以替换未 通过校验的化学名称的至少部分词片。优选地,所述化学名称校验系统601还包括有抽取 器603,其被配置为用于从化学文档中抽取化学名称。优选地,在所述校验器607的前端还 配置有根据化学名称词片字典对词片进行拼写检查的装置。优选地,所述化学名称的命名 法是IUPAC命名法,其中所述词片所代表的化学组成之间的化学关联是指化学组成的化合 价的关联。
优选地,所述校验器607还包括用于获得词片所代表的化学组成的化合价的装 置,优选地,用于获得化学名称的每个词片所代表的化学组成的化合价的装置包括用于根据词片化合价字典获得化学名称的每个词片对应的化合价的部件;用于将化学名称的每个 词片所代表的化学组成的化合价累加得到化合价和的装置;用于判断化合价和是否为零的 装置;用于如果化合价和不为零,则确定词片所属的化学名称未通过校验的装置。
优选地,所述化学名称词片字典是根据化学名称的词片和与该化学名称的词片共 同出现在正确化学名称中的其它化学词片以及共同出现的次数,使用倒排表的方法建立索 引的,其中上述根据化学名称词片字典获取词片以替换未通过校验的化学名称的词片包 括根据化学名称词片词典,基于词片的编辑距离的度量和词片的共同出现的次数的度量 中的至少之一选择用于替换的词片。
优选地,所述化学名称校验系统601还包括呈现器611,其被配置为根据所述替换 器609提供多个用于替换的词片以形成多个替换组合从而得到的多个通过校验的化学名 称而将在化学名称词片字典中共同出现的次数高的词片所组成的通过校验的化学名称优 先推荐给用户。
以上详细描述了化学名称校验系统601的各个部件以及相互的关联关系。由于在 本发明的方法的多个实施例已经详尽描述了与各个部件相关的实现方法,因此在此不再赘 述。
由此可见,本发明通过提供一种用于化学名称校验的方法和系统,从而可以不仅 帮助用户发现和纠正化学名称的拼写错误,还可以对整个化学名称在化学关联层面进行校 验,从而既可以发现拼写错误的化学名称,还可以发现不符合化学规律的化学名称,并且可 以为用户在很大程度上对化学名称进行纠错。取得了显著的技术效果。
另外,根据本发明的保护用户信息的方法还可以通过计算机程序产品来实施,该 计算机程序产品包括用于当在计算机上运行所述计算机程序产品时执行以实施本发明的 仿真方法的软件代码部分。
还可以通过在计算机可读记录介质中记录一计算机程序来实施本发明,该计算机 程序包括用于当在计算机上运行所述计算机程序时执行以实施根据本发明的仿真方法的 软件代码部分。即,根据本发明的仿真方法的过程能够以计算机可读介质中的指令的形式 和各种其它形式分发,而不管实际用来执行分发的信号承载介质的特定类型。计算机可读 介质的例子包括诸如EPROM、ROM、磁带、纸、软盘、硬盘驱动器、RAM和CD-ROM的介质以及诸 如数字和模拟通信链路的传输型介质。
尽管参考本发明的优选实施例具体展示和描述了本发明,但是本领域一般技术人 员应该明白,在不脱离所附权利要求限定的本发明的精神和范围的情况下,可以对其进行 形式和细节上的各种修改。
权利要求
1.一种用于校验化学名称的方法,所述方法包括 将化学名称进行分段以获得代表化学组成的词片;根据词片所代表的化学组成之间的化学关联对化学名称进行校验。
2.一种如权利要求1所述的方法,所述方法进一步包括;如果化学名称未通过校验,则替换未通过校验的化学名称的至少部分词片,并再执行 上述校验步骤。
3.—种如权利要求1所述的方法,其中所述化学名称的命名法是IUPAC命名法。
4.一种如权利要求1或2所述的方法,其中所述词片所代表的化学组成之间的化学关 联包括化学组成的化合价的关联。
5.一种如权利要求4所述的方法,其中所述根据词片所代表的化学组成之间的化学关 联对化学名称进行校验包括获得化学名称的每个词片所代表的化学组成的化合价;将化学名称的每个词片所代表的化学组成的化合价累加得到化合价和;判断化合价和是否为零;如果化合价和不为零,则确定化学名称未通过校验。
6.一种如权利要求2所述的方法,其中所述替换未通过校验的化学名称的至少部分词 片包括根据化学名称词片字典获取词片以替换未通过校验的化学名称的至少部分词片。
7.—种如权利要求6所述的方法,其中所述化学名称词片字典是根据化学名称的词片 和与该化学名称的词片共同出现在正确化学名称中的其它词片以及共同出现的次数,使用 倒排表的方法建立索引的。
8.—种如权利要求6或7所述的方法,其中所述根据化学名称词片字典获取词片以替 换未通过校验的化学名称的至少部分词片包括根据化学名称词片词典,基于词片的编辑距离的度量和词片的共同出现的次数的度量 中的至少之一选择用于替换的词片。
9.一种如权利要求8所述的方法,所述方法进一步包括提供多个用于替换的词片以形成多个替换组合以得到多个通过校验的化学名称; 根据得到的多个通过校验的化学名称,将在化学名称词片字典中共同出现的次数高的 词片所组成的通过校验的化学名称优先推荐给用户。
10.一种如权利要求5所述的方法,其中获得化学名称的每个词片所代表的化学组成 的化合价包括根据词片化合价字典获得词片对应的化合价。
11.一种如权利要求1所述的方法,其中在所述根据词片所代表的化学组成之间的化 学关联对化学名称进行校验之前,还根据化学名称词片字典对词片进行拼写检查。
12.一种化学名称校验系统,包括分段器,被配置用于将化学名称进行分段以获得代表化学组成的词片;校验器,被配置用于根据词片所代表的化学组成之间的化学关联对化学名称进行校验。
13.一种如权利要求12所述的化学名称校验系统,进一步包括替换器,被配置用于如果化学名称未通过校验,则替换未通过校验的化学名称的至少 部分词片,并指令上述校验器校验替换后的化学名称。
14.一种如权利要求12所述的系统,其中所述化学名称的命名法是IUPAC命名法。
15.一种如权利要求12或13所述的系统,其中所述词片所代表的化学组成之间的化学 关联包括化学组成的化合价的关联。
16.一种如权利要求15所述的系统,其中所述校验器还包括用于获得化学名称的每个词片所代表的化学组成的化合价的装置;用于将化学名称的每个词片所代表的化学组成的化合价累加得到化合价和的装置;用于判断化合价和是否为零的装置;用于如果化合价和不为零,则判断存在错误的词片而确定词片所属的化学名称未通过 校验的装置。
17.—种如权利要求13所述的系统,其中所述替换未通过校验的化学名称的至少部分 词片包括根据化学名称词片字典获取词片以替换未通过校验的化学名称的词片。
18.—种如权利要求17所述的系统,其中所述化学名称词片字典是根据化学名称的词 片和与该化学名称的词片共同出现在正确化学名称中的其它词片以及共同出现的次数,使 用倒排表的方法建立索引的。
19.一种如权利要求17或18所述的系统,其中所述根据化学名称词片字典获取词片以 替换未通过校验的化学名称的至少部分词片包括根据化学名称词片词典,基于词片的编辑距离的度量和词片的共同出现的次数的度量 中的至少之一选择用于替换的词片。
20.一种如权利要求19所述的系统,所述系统进一步包括呈现器,被配置为根据所述替换器提供多个用于替换的词片以形成多个替换组合从而 得到的多个通过校验的化学名称,将在化学名称词片字典中共同出现的次数高的词片所组 成的通过校验的化学名称优先推荐给用户。
21.一种如权利要求16所述的系统,其中用于获得化学名称的每个词片所代表的化学 组成的化合价的装置包括用于根据词片化合价字典获得词片对应的化合价的部件。
22.—种如权利要求12所述的系统,所述系统还包括抽取器,被配置为用于从化学文档中抽取化学名称。
23.—种如权利要求12所述的系统,其中在所述校验器的前端还配置有根据化学名称 词片字典对词片进行拼写检查的装置。
全文摘要
本发明提供一种用于校验化学名称的方法及其系统,其中所述方法包括将化学名称进行分段以获得相应的词片;根据词片所代表的化学组成之间的化学关联对化学名称进行校验;如果化学名称未通过校验,则替换未通过校验的化学名称的至少部分词片,并再执行上述校验步骤。本发明不仅可以帮助用户发现和纠正化学名称的拼写错误,还可以对整个化学名称在化学关联的层面进行校验,从而既可以发现拼写错误的化学名称,还可以发现不符合化学规律的化学名称以帮助用户对化学名称进行纠错。
文档编号G06F17/27GK102033866SQ20091017570
公开日2011年4月27日 申请日期2009年9月29日 优先权日2009年9月29日
发明者包胜华, 吴贤, 张俐, 张小洵, 苏中, 费奔 申请人:国际商业机器公司