基于上下文的首字母缩略词和缩写词的歧义消除的制作方法

文档序号:6362367阅读:280来源:国知局
专利名称:基于上下文的首字母缩略词和缩写词的歧义消除的制作方法
技术领域
本公开一般涉及计算机、计算机应用、人工智能和自然语言处理,且更具体而言涉及首字母缩略词和/或缩写词的歧义消除。
背景技术
首字母缩略词和缩写词是单词或常见短语的缩写形式。缩写词是用于代表整个单词或短语的缩写或缩略形式(例如,Dr表示“Doctor”或“Drive”,等)。首字母缩略词是由其他单词的起始字母构成的缩写词且有时候发音为单词(例如IBM)。对于首字母缩略词和缩写词两者都存在的理解目标含义的问题,在于它们具有多于一个并且有时候具有很多个可能的扩展。这带来了在实际想要的扩展方面的歧义。上下文是人类读者理解扩展的目标含义的背景。例如,首字母CIA具有很多可能的扩展,其中两个众所周知的扩展是Central Intelligence Agency(中央情报局)和Culinary Instituteof America (美国烹饪学院)。在下面的句子中:“The former CIA officer accused of revving an electric drill nearthe head of imprisoned terror suspect has returned to U.S.1ntelligence as ascontractor"(被指责为靠近关押的恐怖嫌疑人头部加速旋转电钻的前CIA官员已作为承包人返回美国情报部门),人类读者将使用用于消除歧义的周围单词的上下文把词语CIA的目标扩展识别为 “Central Intelligence Agency”。这里,词语“imprisoned”(关押的)、“terror”(恐怖)、“suspect”(嫌疑人)、“intelligence” (情报部门)和“officer” (官员)与该歧义消除相关。在下面的句子中:“Two Certified Master Chefs from CIA have designed and tested morethanlOOkitchen essentials that meet highest processional standards in gourmetcuisine”(来自CIA的两个注册顶级厨师设计和测试了满足美食烹调最高标准的超过100个厨房必备工具),人类读者将使用用于消除歧义的周围单词的上下文把词语CIA的目标扩展识别为“Culinary Institute of America”(美国烹饪学院)。这里,术语“Master Chef”(顶级厨师)、“kitchen”(厨房)、“g0Urmet”(美食)和“cuisine”(烹调)与该歧义消除相关。歧义的另一维度是,文本中的标记(token)是要扩展的缩写词还是合法的单词的问题,该单词正好具有与缩写词一样的字母。例如,“WAS”可以是表示“be”的过去式的单词,或者“Websphere Application Services ”的缩写。显然,将“WAS”当作缩写词并对它进行合适的扩展再次地依赖于上下文。
对人类来说,歧义消除的任务经常是简单、直接和自然的。相反,自动化计算机系统在自然语言处理(NLP)的过程中提取首字母缩略词和缩写词的目标含义有很多的难度。当在开放和广泛的领域中而不是在论文的狭窄领域中执行NLP任务时该问题尤其严重,因为备选解释的数量很大。

发明内容
提供了一种用于基于上下文的首字母缩略词和/或缩写词的歧义消除的方法和系统。在一方面,该方法包括确定目标缩写词以及出现在该目标缩写词的上下文中的一个或多个关键词。目标缩写词表示一个或多个单词的缩写形式。该方法还可以包括生成上下文搜索查询,该查询包含目标缩写词以及在缩写词上下文中出现的一个或多个关键词。该方法还可以包括通过调用上下文搜索查询来搜索用于目标缩写词的一个或多个扩展的伪文档索引。伪文档索引包含一个或多个伪文档的索引、关联的一个或多个缩写词、以及关联的上下文关键词。该方法还可以包括基于对伪文档索引的搜索来返回与目标缩写词关联的一个或多个伪文档。该方法还可以包括基于返回的一个或多个目标伪文档来提供与目标缩写词关联的一个或多个扩展。在另一方面,一种用于基于上下文的首字母缩略词和/或缩写词的歧义消除的方法可以包括通过识别具有关联潜在扩展的一组首字母缩略词和缩写词来生成缩写词扩展词典。该方法还可以包括为缩写词扩展词典中识别的每个扩展生成伪文档。伪文档可以包含缩写、关联的扩展、以及与所述缩写词一起出现的一个或多个单词和/或句子。该方法还可以包括生成对缩写词、关联的扩展、以及在所述缩写词的上下文中出现的一个或多个单词和/或句子进行索引的伪文档索引。在一方面,一种用于基于上下文的首字母缩略词和/或缩写词歧义消除的系统可以包括分析段落模块,其可操作以在处理器上执行,且可操作以确定收到的段落中的目标缩写词以及出现在该目标缩写词的上下文中的一个或多个关键词,该目标缩写词表示一个或多个单词的缩写形式。该系统还可以包括上下文搜索查询生成组件,其可操作以生成包含目标缩写词以及所述一 个或多个关键词的上下文搜索查询。该系统还可以包括搜索伪文档索引模块,其可操作以通过调用上下文搜索查询来搜索用于目标缩写词的一个或多个扩展的伪文档索引。伪文档索引可以包含一个或多个伪文档的索引、关联的一个或多个缩写词、以及关联的上下文关键词。该搜索伪文档索引模块还可操作以基于对伪文档索引的搜索来返回与目标缩写词关联的一个或多个伪文档。可以基于返回的一个或多个目标伪文档来提供与目标缩写词关联的一个或多个扩展。还可以提供一种存储指令程序的计算机可读存储介质,所述指令程序可以被机器执行,以执行这里描述的一种或多种方法。下面参考附图来更详细地描述各个实施例的其他特征以及结构和操作。在图中,相同的标号表示相同或功能类似的元素。


图1示出了本公开的一个实施例中的内容结构化的过程。图2示出了本公开的一个实施例中的机器学习分类模型生成。
图3示出了本公开的一个实施例中的上下文歧义消除过程。图4示出了可以实现本公开的一个实施例中的基于上下文的首字母缩略词和缩写词歧义消除的示例性计算机或处理系统的示意图。
具体实施例方式例如通过在适当的时候对文本中的首字母缩略词和缩写词标记进行合适的识别以及合适的扩展,自然语言处理(NLP)系统应能够处理首字母缩略词和缩写词。在本公开的一个方面,公开了基于出现缩写词的文本的上下文(例如,词法、句法和/或语义的上下文)来对可能的备选首字母缩略词和缩写词扩展进行评级和评分。该评级和评分允许NLP系统基于概率度量来考虑备选的猜想,并在“理解”自然语言文本的目标含义时性能要好得多。本公开的一个实施例中的方法可以“组织”或生成文档,在这里被称为伪文档(PS)或面向标题的文档(T0D),其聚集与扩展的特定上下文使用相关的段落。每个伪文档具有关联标题,该标题是扩展。使用文档包含的上下文相关段落中的词语,伪文档可被索引(例如,搜索索引)。可以生成搜索查询,其包含与要被消除歧义的首字母缩略词或缩写词一起出现的词语,并针对伪文档搜索索引来运行。基于与被组织的伪文档的特定上下文匹配的那些词语,可以返回具有关联评级和评分的可能扩展的命中列表。在本公开的一个实施例中,一种方法可以I)生成具有关联扩展的首字母缩略词和缩写词的词典;2)生成伪文档的语料库,所述文档的标题是特定的扩展且其文本主体(body)包含广泛的段落集合,所述段落集合捕获了通常是该扩展的常见用法的一部分的广泛的词语集合;3)生成可用相关上下文词语来查询的搜索索引,并且它将返回合适的伪文档,该伪文档的标题是可能的扩展;4)生成自动化系统,其可以可靠地识别作为首字母缩略词和缩写词的标记;5) 使用目标首字母缩写词或缩略词所出现的上下文来生成上下文搜索查询;6)生成可能扩展的评级和评分列表,其可被用于后续处理。在另一方面,自然语言理解系统可被构造,其实现了上述方法。在本公开中被称为内容结构化的过程可允许提取并组织文档集合,该文档集合可被用于识别潜在的扩展。图1示出了本公开的一个实施例中的内容结构化的过程。在102,生成缩写词扩展词典。生成缩写词扩展词典可以包括识别首字母缩略词和缩写词以及其关联的潜在扩展的全面的集合。该过程可以利用来自现有资源数据库(例如可从线上或以其他方式获得的具有缩写词资源的数据库)的组织的内容的大的主体。在104,可生成伪文档。例如,可以针对例如在102生成的缩写词扩展词典中的每个扩展来生成伪文档。通过爬行(crawl) web或从包含通常与目标扩展一起出现的语言的源中提取文本(单词),伪文档的生成可以为首字母缩略词或缩写词的每个扩展生成伪文档集合。在一个实施例中,这些伪文档还可以包括结构化字段,该字段包含首字母缩略词或缩写词,其可被用作搜索查询的参数来过滤或仅返回潜在可能的文档(例如,作为目标首字母缩略词或缩写词的扩展的那些文档)。下面是伪文档的例子。〈Pseudo Document〉〈Abbreviation expansion〉:Culinary Institute of America (美国烹任学院)〈/Abbreviation expansion)
:<Abbreviation>CIA</Abbreviation><passage>The Culinary Institute of America in New York and Californiaoffer food industry courses and training in cooking, baking, pastry, wine and foodservice (位于纽约和加利福尼亚的美国烹饪学院提供有关烹饪、烘烤、面饼、葡萄酒和饮食服务的食品行业课程和培训).〈/passage〉<passage>If your goal is to enter the food service industry as a bakeror pastry chef,this program will provide extensive knowledge and experience.The CIA’ s21_month program develops competency in baking bread,preparingdesserts,confections,patisserie and pastry.You^ 11 also learn basic cookingskills and food safety, as well as how to write a menu and cost controls(如果你的目标是作为烘烤师或面饼厨师进入饮食服务行业,该课程将提供广泛的知识和经验。CIA的21个月课程可以发展烘烤面包、准备甜食、糖果、法式蛋糕和面饼的能力。你还可以学到基本地烹饪技能和食品安全,以及如何书写菜单和成本控制).〈/passage〉<passage>Take academic courses such as Food Safety, Nutrition, CulinaryMath, Introduction to Gastronomy (学习学院课程,例如食品安全、营养、烹调数学、美食介绍)〈/passage〉〈/Pseudo Document〉在106,可以生成伪文档搜索索引。伪文档搜索索引的生成可以生成搜索索引,所述搜索索引可以用于通过目标查询来检索相关候选扩展,该目标查询包含从目标首字母缩略词或缩写词的上下文中提取的关键词。例如,目标查询中的关键词可以与伪文档搜索索引中存储的词语进行匹配。例如,搜索索引可以包括倒排索引和/或正排索引。其他类型的索引可以被构造。倒排索引的 一个例子可以存储与每个单词关联的伪文档列表。正排索引的一个例子可以存储与每个文档关联的单词列表。图2示出了本公开的一个实施例中的机器学习分类模型生成。一个实施例中的机器学习分类模型生成阶段产生模型,在下面讨论的上下文歧义消除过程中该模型被用于检测文本中出现的首字母缩略词和缩写词。该组件使用一组特征和机器学习技术来生成用于该目的的模型。该模型可被构造一次,并可被用于识别任意文本主体中的首字母缩略词和缩写词。文本可以是自然语言问题或段落,或文档中的任意文本。在本公开的一个实施例中,特征生成202可由基于规则的模式的混合来驱动,所述模式捕获上下文的词法和句法属性这两者。机器学习然后可以将那些属性与语义上下文的剩余部分进行最优地组合以构造模型204,该模型能够区分何时标记表示要扩展的缩写词(在文本分析时)或要与其完整形式关联(例如,在伪文档生成时)。标记例如指文本中的句子中的“单词”;特征指与该文本关联的属性,例如通过分析“文本”以及与文档相关或与文本相关的其他元数据而提取或确定的数学实体。Tom M.Mitchell的Machine Learning(McGraw-Hill, 1997年)描述了机器学习和特征生成的技术。图3示出了本公开的一个实施例中的上下文歧义消除过程。一个实施例中的上下文歧义消除过程可以用作将上述所有组件连结成为一致的过程/系统的粘合剂,该过程/系统识别首字母缩略词和缩写词并且例如返回可能扩展的评级和评分列表。
在一个实施例中的分析段落组件302可以使用基于规则的模式的混合来生成特征(例如图2的202),所述特征可被机器学习模型(例如图2的204)用于检测首字母缩略词和缩写词并识别与上下文歧义消除相关的标记(例如上述例子中的“imprisoned”、“ terror ”、“ suspect'“intelligence”和 “officer”),所述标记将被用于 304 的查询生成。在本公开的一个实施例中,特征的定义和提取这些特征的分析、以及产生的机器学习模型可被构造,并(在后续的文本分析或问答请求中)被用于识别在文本中出现的缩写词,该文本是由实现机器学习组件部分的代码来分析的。在本公开的一个实施例中,可以针对被分析(例如,以识别缩写词)的每段文本来提取特征,并且它们包含在分类过程中被机器学习模型使用的信息。例如,分析段落组件302可以接收要分析的段落文本308作为输入。段落文本308可以包含主题的文本描述。分析段落组件302解析该段落文本308来确定需要被扩展的首字母缩略词和/或缩写词。分析段落组件302还可以从段落文本308中检索在首字母缩略词和/或缩写词的上下文中使用的一个或多个关键词。分析段落组件302可以使用机器学习模型和图2所示的文本的被注释特征来这么做。例如,缩写词检测组件312可以实现机器学习组件部分,该组件部分从进入的文本中提取特征并检测其中的缩写词和注释。生成上下文搜索查询组件304可以负责生成查询,该查询的形式可被搜索引擎用于检索相关文档。这里,首字母缩略词或缩写词(也被称为目标首字母缩略词或缩写词)可以作为参数送到搜索引擎,以仅保留作为目标的合法扩展的文档,所述文档还包括上下文相关的关键词。下面示出了查询的例子。查询可以包括目标缩写词以及与目标缩写词关联的上下文单词或词语。

查询:[(目标缩写词:CIA)(消除歧义的词语:cooking (烹饪),baking (烘烤),pastry (面饼),wine (葡萄酒),food service (饮食服务))]例如,生成上下文查询搜索组件304可以从分析段落组件302接收一个或多个首字母缩略词和/或缩写词以及在首字母缩略词和/或缩写词的上下文中出现的一个或多个关键词(也被称为标记)。在本公开的一个实施例中,这些关键词是是从段落中得出的,该段落包含作为歧义消除目标的缩写词,即,该缩写词扩展正被确定。使用收到的输入,生成上下文搜索查询组件304生成搜索查询。搜索伪文档索引组件306可以负责向搜索引擎发出查询,该搜索引擎已经预先载入了例如在图1的106生成的伪文档索引314。该查询基于返回的伪文档输出对目标首字母缩略词或缩写词的一个或多个扩展310。每个扩展是寻求扩展的当前(目标)缩写词的可能的候选扩展。例如,如果CIA是目标缩写词,贝U可能的扩展可以是“Culinary Instituteof America”、“Central Intelligence Agency”等。在本公开的一个实施例中,从查询返回的可能候选扩展可以以包含与搜索词语最接近匹配的词语的文档顺序来进行评级。可由执行搜索的搜索引擎来计算评级。评级的命中列表中的每个扩展还可以具有关联的评分,该评分用于度量匹配强度,例如,表示检索到项目与查询相匹配的“强度”或“置信度”。响应于该查询来执行搜索的搜索引擎还可以计算这样的评分并将结果和可能的候选扩展一起返回。每个组件或模块(例如分析段落组件302、生成上下文搜索查询组件304、搜索伪文档索引组件306)可以在一个或多个处理器或核心上运行,不管是在单个处理平台上还是以分布式计算的方式。组件之间的交互和通信可以在本地并/或通过网络远程地进行。类似地,缩写词312以及伪文档和/或伪文档索引314的储存库可以是存储数据的存储设备,且可以位于本地和/或位于针对运行组件的一个或多个处理器的远端。这里描述的方法可被用于例如美国专利申请号12/152,411和美国专利申请号12/126,642中描述的问答(QA)系统,其全部内容通过引用结合于此。问答系统一般利用自然语言处理、机器学习和/或数据挖掘以及其他技术来处理问题并产生答案,例如带有度量产生的答案的准确性或正确性置信度水平或评分。例如,本公开的缩写词扩展技术可被用于扩展问题中出现的一个或多个缩写词,以更准确地解释问题的上下文并由此能提供更准确的答案。但是,这里描述的方法不限于该用途。例如,该技术可被用于扩展任意自然语言文本或文档或类似数据中出现的缩写词。图4示出了可以实现本公开的一个实施例中的例如如上所述的基于上下文的首字母缩略词和缩写词的歧义消除的示例性计算机或处理系统的示意图。该计算机系统仅是合适的处理系统的一个例子,而不是意味着对这里描述的方法的实施例的使用范围或功能的任何限制。示出的处理系统可以与很多其他的通用或专用计算系统环境或配置一起运行。适合于与图4所示的处理系统一起使用的公知的计算系统、环境和/或配置的例子可以包括但不限于个人计算机系统、服务器计算机系统、瘦客户机、胖客户机、手持或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费者电子设备、网络PC、小型计算机系统、大型计算机系统、以及包含上述系统或设备中的任一个的分布式云计算环境,
坐坐寸寸o可以在计算机系统所执行的计算机系统可执行指令(例如程序模块)的一般上下文中描述计算机系统。通常,程序模块可以包括例程、程序、对象、组件、逻辑、数据结构等,其执行特定任务或实现特定的抽象数据类型。计算机系统可以在分布式云计算环境中实现,在所述分布式云计算环境中,任务由通过通信网络连接的远程处理设备来执行。在分布式云计算环境中,程序模块可以位于包含存储设备的本地和远程计算机系统存储介质这两者中。 计算机系统的组件可以包括但不限于一个或多个处理器或处理单元12、系统存储器16以及总线14,该总线将包括系统存储器16的各个系统组件连接到处理器12。处理器12可以包括基于上下文的歧义消除模块10,其执行这里描述的基于上下文的歧义消除。基于上下文的歧义消除模块10可以被编程到处理器12的集成电路中,或从存储器16、存储装置18或网络24或其组合中载入。总线14可以表示若干种总线结构类型中的任一种的一个或多个,包括存储器总线或存储器控制器、外围总线、加速图形端口以及使用多种总线架构中的任一种的处理器或局部总线。作为示例而不是限制,这样的架构包括工业标准架构(ISA)总线、微通道架构(MCA)总线、增强ISA (EISA)总线、视频电子标准协会(VESA)局部总线、以及外围组件互连(PCI)总线。计算机系统可以包括多种计算机系统可读介质。这样的介质可以是可被计算机系统访问的任意可用的介质,且其可以同时包含易失性和非易失性介质、可移动和不可移动介质。系统存储器16可以包括易失性存储器形式的计算机系统可读介质,诸如随机存取存储器(RAM)和/或高速缓存存储器或其他。计算机系统还可包括其他可移动/不可移动、易失性/非易失性计算机系统存储介质。仅作为示例,存储系统18可被提供以从不可移动的非易失性磁介质(例如硬驱动器)读取和向其写入。尽管未示出,可提供用于从可移动的非易失性磁盘(例如“软盘”)读取和向其写入的磁盘驱动,以及用于从可移动的非易失性光盘(诸如⑶-ROM、DVD-ROM或其他的光盘介质)读取和向其写入的光盘驱动器。在这些情况下,每个可通过一个或多个数据介质接口被连接到总线14。计算机系统还可以与一个或多个外部设备26通信,所述外部设备诸如键盘、指针设备、显示器28等;使得用户与计算机系统交互的一个或多个设备;和/或使得计算机系统与一个或多个其他计 算设备通信的设备(例如网卡、调制解调器等)。这样的通信可经由输入/输出(I/O)接口 20发生。而且,计算机系统可经由网络适配器22与一个或多个网络24通信,所述诸如局域网(LAN)、一般广域网(WAN)和/或公共网络(例如因特网)。如图所示,网络适配器22经由总线14与计算机系统的其他组件通信。应当理解,尽管未示出,其他硬件和/或软件组件也可结合计算机系统被使用。例子包括但不限于微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器和数据归档存储系统。所属技术领域的技术人员知道,本发明可以实现为系统、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等),还可以是硬件和软件结合的形式,本文一般称为“电路”、“模块”或“系统”。此外,在一些实施例中,本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是一但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPR0M或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括一但不限于一无线、电线、光缆、RF等等,或者上述的任意合适的组合。可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言一诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言一诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络一包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。参照本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,这些计算机程序指令通过计算机或其它可编程数据处理装置执行,产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中,这样,存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置(instructionmeans)的制造品(article of manufacture) 也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。计算机程序产品可包括使得实施在此描述的方法的所有特征,且当被加载在计算机系统时,其能执行方法。计算机程序、软件程序、程序或软件在本文件中指一组旨在使得具有信息处理能力的系统直接地或在以下各项中的任一个或二者之后执行特定功能的代码或记号的任何语言的任何表示:Ca)转换到另一种语言、代码或符号;和/或(b)以不同的材料形式再现。此处使用的术语仅是为了描述特定实施例,且不旨在限制本发明。如在此使用的,单数形式“一”、“一个”和“该”也旨在包括多数形式,除非上下文另有清楚的规定。还将理解,当在本说明中使用时,术语“包括”和/或“包含”明确说明存在所陈述的特点、整体、步骤、操作、元件和/或组件,但不排除存在或添加一个或多个其他的特点、整体、步骤、操作、元件、组件和/或其组。以下权利要求中的所有装置或或步骤加功能 性元件的相应结构、材料、操作和等价物旨在包括用于结合在权利要求中特意阐明的其他元件而执行该功能任何结构、材料或操作。本发明的说明已出于解释和描述的目的被展示,但旨在将本发明限制在公开的形式。许多修改和变化对于本领域普通技术人员来说是明显的,且不脱离本发明的精神和范围。选择并描述实施例是为了最好地解释本发明的原理和实际应用,且使得本领域普通技术人员能针对具有适用于所打算的特定用户的各种修改的各种实施例理解本发明。本公开的各个方面可被实施为程序、软件或实施在计算机或机器可用或可读介质中的计算机指令,当其在计算机、处理器和/或机器上执行时使得计算机或机器执行方法步骤。也可提供可被机器读取的程序存储设备,其有形地实施可由机器执行的指令程序以执行在本公开中描述的各种功能和方法。本公开的系统和方法可被实施在并运行在通用计算机或专用计算机系统上。在本申请中使用的术语“计算机系统”和“计算机网络”可包括固定和/或可移动计算机硬件、软件、外设和存储设备的各种组合。计算机系统可包括多个单独组件,其被联网或以其他方式被连接以合作地执行,或可包括一个或多个独立组件。本申请的计算机系统的硬件和软件组件可包括固定和可移动设备并可被包括在固定和可移动设备内,所述设备诸如台式机、笔记本计算机和/或服务器。模块可以是实施某种“功能”的设备、软件、程序或系统的组件,其可被实施为软件、硬件、固件、电子电路等。以上描述的实施例是说明性例子,且不应理解本发明限于这些特定实施例。因此,本领域技术人员可 实现各种变化和修改,而不脱离所附权利要求限定的本发明的精神或范围。
权利要求
1.一种用于基于上下文的缩写词歧义消除的方法,包括 确定收到的段落中的目标缩写词以及出现在该目标缩写词的上下文中的一个或多个关键词,该目标缩写词表示一个或多个单词的缩写形式; 生成包含目标缩写词以及所述一个或多个关键词的上下文搜索查询; 通过调用该上下文搜索查询来搜索用于目标缩写词的一个或多个扩展的伪文档索引,该伪文档索引包含一个或多个伪文档的索引、关联的一个或多个缩写词、以及关联的上下文关键词; 基于对伪文档索引的搜索,返回与目标缩写词关联的一个或多个伪文档;以及 基于返回的一个或多个目标伪文档来提供与目标缩写词关联的一个或多个扩展。
2.如权利要求I所述的方法,其中,所述一个或多个伪文档被构造为包括名称和内容,该名称包含缩写词的扩展,且该内容包含缩写词和关联的上下文关键词。
3.如权利要求I所述的方法,还包括生成与目标缩写词关联的一个或多个返回的目标伪文档的评级列表或评分列表或两者的组合。
4.如权利要求I所述的方法,其中,确定收到的段落中的目标缩写词以及出现在该目标缩写词的上下文中的一个或多个关键词包括生成捕获到该段落的词法和句法属性的一个或多个特征,以及基于捕获到的词法和句法属性来识别收到的段落中的所述目标缩写词以及出现在该目标缩写词的上下文中的所述一个或多个关键词。
5.如权利要求I所述的方法,其中,所述目标缩写词包括首字母缩略词。
6.如权利要求I所述的方法,其中,所述一个或多个伪文档是基于缩写词和关联扩展的词典来构造的。
7.一种用于基于上下文的缩写词歧义消除的方法,包括 通过识别具有关联潜在扩展的一组缩写词来生成缩写词扩展词典; 为缩写词扩展词典中识别的每个扩展生成伪文档,该伪文档包含缩写、关联的扩展、以及与所述缩写词一起出现的一个或多个单词;以及 生成对所述缩写词和所述关联扩展进行索引的伪文档索引。
8.如权利要求7所述的方法,还包括通过生成捕获到所收到的段落的词法和句法属性的一个或多个特征来生成机器学习分类模型,以及构造机器学习模型,其用于识别收到的段落中的一个或多个目标缩写词以及出现在该目标缩写词的上下文中的一个或多个目标关键词。
9.一种用于基于上下文的缩写词歧义消除的系统,包括 处理器; 分析段落模块,其可操作以在处理器上执行,且还可操作以确定收到的段落中的目标缩写词以及出现在该目标缩写词的上下文中的一个或多个关键词,该目标缩写词表示一个或多个单词的缩写形式; 上下文搜索查询生成组件,其可操作以生成包含目标缩写词以及所述一个或多个关键词的上下文搜索查询; 搜索伪文档索引模块,其可操作以通过调用该上下文搜索查询来搜索用于目标缩写词的一个或多个扩展的伪文档索引,该伪文档索引包含一个或多个伪文档的索引、关联的一个或多个缩写词、以及关联的上下文关键词,该搜索伪文档索引模块还可操作以基于对伪文档索引的搜索来返回与目标缩写词关联的一个或多个伪文档,其中,基于返回的一个或多个目标伪文档来提供与目标缩写词关联的一个或多个扩展。
10.如权利要求9所述的系统,其中,所述一个或多个伪文档被构造为包括名称和内容,该名称包含缩写词的扩展,且该内容包含缩写词和关联的上下文关键词。
11.如权利要求9所述的系统,其中,从与目标缩写词关联的一个或多个返回的目标伪文档来生成评级列表或评分列表或两者的组合。
12.如权利要求9所述的系统,还包括机器学习分类模型生成模块,其可操作以确定收到的段落中的目标缩写词以及出现在该目标缩写词的上下文中的一个或多个关键词,该机器学习分类模型生成模块生成捕获到该段落的词法和句法属性的一个或多个特征,以及基于捕获到的词法和句法属性来识别收到的段落中的所述目标缩写词以及出现在该目标缩写词的上下文中的所述一个或多个关键词。
13.如权利要求9所述的系统,其中,所述目标缩写词包括首字母缩略词。
14.如权利要求9所述的系统,还包括存储缩写词和关联扩展的词典的储存库,其中,所述一个或多个伪文档是基于缩写词和关联扩展的词典来构造的。
15.如权利要求9所述的系统,还包括存储伪文档索引的伪文档索引储存库。
16.如权利要求9所述的系统,还包括存储一个或多个伪文档的伪文档储存库。
17.一种存储指令程序的计算机可读存储介质,该指令程序可被机器执行,以执行基于上下文的缩写词歧义消除的方法,包括 确定收到的段落中的目标缩写词以及出现在该目标缩写词的上下文中的一个或多个关键词,该目标缩写词表示一个或多个单词的缩写形式; 生成包含目标缩写词以及所述一个或多个关键词的上下文搜索查询; 通过调用该上下文搜索查询来搜索用于目标缩写词的一个或多个扩展的伪文档索引,该伪文档索引包含一个或多个伪文档的索引、关联的一个或多个缩写词、以及关联的上下文关键词; 基于对伪文档索引的搜索,返回与目标缩写词关联的一个或多个伪文档;以及 基于返回的一个或多个目标伪文档来提供与目标缩写词关联的一个或多个扩展。
18.如权利要求17所述的计算机可读存储介质,其中,所述一个或多个伪文档被构造为包括名称和内容,该名称包含缩写词的扩展,且该内容包含缩写词和关联的上下文关键词。
19.如权利要求17所述的计算机可读存储介质,还包括生成与目标缩写词关联的一个或多个返回的目标伪文档的评级列表或评分列表或两者的组合。
20.如权利要求17所述的计算机可读存储介质,其中,确定收到的段落中的目标缩写词以及出现在该目标缩写词的上下文中的一个或多个关键词包括生成捕获到该段落的词法和句法属性的一个或多个特征,以及基于捕获到的词法和句法属性来识别收到的段落中的所述目标缩写词以及出现在该目标缩写词的上下文中的所述一个或多个关键词。
21.如权利要求17所述的计算机可读存储介质,其中,所述目标缩写词包括首字母缩略词。
22.如权利要求17所述的计算机可读存储介质,其中,所述一个或多个伪文档是基于缩写词和关联扩展的词典来构造的。
23.一种存储指令程序的计算机可读存储介质,该指令程序可被机器执行,以执行基于上下文的缩写词歧义消除的方法,包括 通过识别具有关联潜在扩展的一组缩写词来生成缩写词扩展词典; 为缩写词扩展词典中识别的每个扩展生成伪文档,该伪文档包含缩写、关联的扩展、以及与所述缩写词一起出现的一个或多个单词;以及 生成对所述缩写词和所述关联扩展进行索引的伪文档索引。
24.如权利要求23所述的计算机可读存储介质,还包括通过生成捕获到所收到的段落的词法和句法属性的一个或多个特征来生成机器学习分类模型,以及构造机器学习模型,其用于识别收到的段落中的一个或多个目标缩写词以及出现在该目标缩写词的上下文中的一个或多个关键词。
全文摘要
基于上下文的首字母缩略词和/或缩写词的歧义消除可以确定收到的段落中的目标缩写词以及出现在该目标缩写词的上下文中的一个或多个关键词,该目标缩写词表示一个或多个单词的缩写形式。可以生成包含目标缩写词以及一个或多个关键词的上下文搜索查询。通过调用该上下文搜索查询,可以搜索用于目标缩写词的一个或多个扩展的伪文档索引,该伪文档索引包含一个或多个伪文档的索引、关联的一个或多个缩写词以及关联的上下文关键词。基于对伪文档索引的搜索,可以返回与目标缩写词关联的一个或多个伪文档。
文档编号G06F7/00GK103229137SQ201180056876
公开日2013年7月31日 申请日期2011年9月23日 优先权日2010年9月29日
发明者B·K·博古拉夫, J·舒-卡罗尔, D·A·弗鲁茨, A·T·莱瓦斯, J·M·普拉格尔 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1