使用自然语言处理(nlp)从定义创建主题同义词的制作方法
【专利说明】
【背景技术】
[0001]本发明一般地涉及信息技术的领域,并且更具体地,涉及自然语言处理系统。
【发明内容】
[0002]本发明的各种实施例提供用于从由主题词汇表提取的定义创建主题同义词的方法、装置和系统,包括计算机程序产品。通过将自然语言处理(例如,段落术语(passageterm)匹配、词汇匹配和句法匹配)应用于提取定义,确定均表示在主题词汇表中定义的两个术语是同义词的概率的置信得分。基于置信得分建立主题叙词表。在一个实施例中,基于第一术语的提取定义创建包含第一术语的陈述,通过在陈述中用第二术语代替第一术语创建修改陈述,搜索语料库,并且基于修改陈述是准确的语料库中的证据确定置信得分。如果置信得分大于阈值,则将第一和第二术语标记为同义词。
【附图说明】
[0003]将在下文中结合附图描述本发明的实施例,其中相似的标示表示相似的要素。
[0004]图1是示出根据本发明的一些实施例的用于实现用于从在主题词汇表中定义的术语的定义创建主题同义词的机构的计算机系统的方框图;
[0005]图2是示出根据本发明的一些实施例的用于通过使用语料库从在主题词汇表中定义的术语的定义创建主题同义词的系统的方框图;
[0006]图3是示出根据本发明的一些实施例的用于通过使用语料库从在主题词汇表中定义的术语的定义创建主题同义词的方法的流程图;
[0007]图4是示出根据本发明的一些实施例的可以在图3中所示的方法中使用以建立主题叙词表的选择技术的流程图;
[0008]图5是示出根据本发明的一些实施例的可以在图3中所示的方法中使用以滤除坏匹配的预选择技术的流程图;
[0009]图6是示出根据本发明的一些实施例的可以在图3中所示的方法中使用的用于计算阈值的机器学习技术的流程图。
【具体实施方式】
[0010]现在将参照图1在特定多用户计算机系统100(即,IBM PowerSystem计算机系统)的背景下描述本发明的实施例的计算机系统实现方式。然而,本领域的技术人员将领会本发明的方法、装置和计算机程序产品同样适用于任何计算机系统,不管计算机系统是复杂的多用户计算装置(例如,基于IBM P0WER7处理器的服务器系统或位于IBM BladeCenter机箱中的基于IBM P0WER7处理器的刀片系统)、PC还是嵌入式控制系统。如图1中所示,计算机系统100包括一个或多个处理器101A、101B、101C和101D(在本文中也统称为“处理器101”),主存储器102,大容量存储接口 104,显示接口 106,网络接口 108,和I/O设备接口 109。通过系统总线110的使用互连这些系统部件。
[0011]根据本发明的一些实施例,下面进一步描述的DeepQA引擎122驻留在主存储器102中(至少在图1所示的实施例中)以便提供DeepQA功能性,如高级自然语言处理(NLP)。然而本领域的技术人员将领会,DeepQA引擎122不需要驻留在计算机系统100的主存储器102中。例如,DeepQA引擎122可以包括例如作为存储在硬盘上(例如,在DASD设备152上)的计算机程序产品保留的计算机可执行指令或系统固件。固件是存储在保持其内容物而没有电力的存储器芯片中的“软件”,所述存储器芯片例如为只读存储器(ROM),可编程ROM(PROM),可擦除可编程ROM(EPROM),电可擦除可编程ROM(EEPROM),和非易失性随机存取存储器(非易失性RAM)ο
[0012]国际商业机器公司(IBM)已发布能够用语义查询和搜索操作的某些类型(如医疗环境(或任何其他深层主题环境)的自然问答范式的类型)帮助人的计算方法和技术的细节。IBM研究科学家已致力于深度问答(DeepQA)方法,其能够理解以自然语言贴出(和输入)的复杂问题,并且能够以足够的准确性、置信度和速度回答问题以在指定环境(例如,医疗咨询和诊断范式,其中回答的时间是关键的)中增强相同问题的人为处理。
[0013]DeepQA是将高级自然语言处理、信息检索、知识表示和推理以及机器学习技术应用于开域问答的领域,其全部在合适的计算平台上执行。假设生成、证据收集、分析和评分的这样的方法可以由多种多样的计算平台有效地执行。
[0014]类似地,IBM已发布计算方法,其组合语义元素和信息搜索元素以形成现在由Apache组织作为开源项目保留的非结构化信息管理架构(UIMA)。
[0015]然而丰富的信息在关于DeepQA和ΙΠΜΑ的公共域中是可用的,本公开假定本领域的普通技术人员可以访问该信息并且将其应用于本发明的实现实施例。
[0016]如上所述,DeepQA是高级自然语言处理、信息检索、知识表示和推理以及机器学习技术的应用。因此,根据本发明的一些实施例,DeepQA引擎122提供那些常规的DeepQA功能性。而且,De印QA引擎122可以提供常规的UIMA功能性。
[0017]在执行自然语言处理中,具体地在DeepQA的领域中,确定术语何时是彼此的同义词是非常重要的。由于在英语(或任何其他语言)中说相同的事情有许多方式,因此在执行DeepQA的许多阶段知道两个单词是否表示相同的事情变得必要。同义词必须不同于紧密相关、但是不是同义词的术语进行处理。例如,如果在与心脏病发作相关的卫生保健领域中有一个问题,则重要的是知道“心肌梗塞”是与心脏病发作相同的事情。所以与一个术语相关的症状和治疗与另一术语相关。若不知道两个术语是同义词,在DeepQA方法中遇到两个主要缺点。
[0018]首先,DeepQA系统会将“心肌梗塞”作为“心脏病发作”相关的体征或症状错误地返回。由于有大量的文献提到这两个术语,因此DeepQA系统没有意识到这些术语是同义词的事实不能够在“心肌梗塞”和诸如“呼吸短促”或“胸痛”的实际症状之间区分。尽管这是普通例子,但是它在理论上会导致坏结果,如Q:心脏病发作的主要症状是什么?A:心肌梗塞。
[0019]其次,DeepQA系统会通过独立地处理同义词错误地评分问题的可能答案。由于两个术语是同义词,因此支持心脏病发作或心肌梗塞作为可能答案的证据应当分组在一起。这是关键的,原因是它常常表示获得正确或错误答案之间的差异。如果有较低评分答案,则它会错误地选择为最佳答案。如果不知道用于正确答案的两个同义词是同义词则会发生该情况,并且因此本应当组合的它们的得分单独地低于错误答案中的一个。
[0020]由于这些原因和许多其他原因,关键是建立同义词的列表。问题在于除了通用英语叙词表以外,需要深度专业知识的主题领域存在同义词的详细集合的情况很少。由于这样的知识领域恰好是NLP专家系统将有用的知识的类型,因此最重要的是在最不可能具有已经生成的叙词表的领域中找到同义词。不可行的是可能提取数千术语并且使用人主题专家来比较每一个和每个可能配对,并且找到同义词的所有组。典型地,对于指定深层主题(如心脏手术、外币兑换、航空工程等)存在许多词汇表,但是不存在同义词的确定性集合。也就是说,尽管通常具有术语的主题词汇表,但是几乎从来没有术语的主题叙词表。
[0021]根据本发明的一些实施例,下面进一步所述的同义词创建机构124驻留在主存储器102中(至少在图1所示的实施例中)并且与DeepQA引擎122协同或作为其部件操作以便从在主题词汇表(例如,主题词汇表126)中定义的术语的定义创建主题同义词。同义词创建机构122可以使用这些主题同义词来建立主题叙词表(例如,主题叙词表128)。然而本领域的技术人员将领会,同义词创建机构124不需要驻留在计算机系统100的主存储器102中。例如,同义词创建机构124可以包括例如作为存储在硬盘上(例如,在DASD设备152上)的计算机程序产品保留的计算机可执行指令或系统固件。
[0022]根据本发明的一些实施例,同义词创建机构124包括能够在处理器101上执行的指令或能够由在处理器101上执行的指令解释的陈述以执行功能,如下面参照图3-6进一步所述。同样根据本发明的一些实施例,同义词创建机构124可以包括能够在联网设备的(一个或多个)处理器上执行的指令或能够由在联网设备的这样的(一个或多个)处理器上执行的指令解释的陈述以执行功能,如下面参照图3-6进一步所述。例如,同义词创建机构124可以包括在客户端系统159的(一个或多个)处理器162上执行的指令。
[0023]例如,根据本发明的一些实施例,同义词创建机构124(与DeepQA引擎122协同操作)包括能够在处理器101上执行的指令以使用主题词汇表126(和可选地,由DeepQA引擎122可访问的语料库,如图2中所示的数据和信息储存库202)建立主题叙词表128。
[0024]主题词汇表126在一些实施例中可以是词汇的超集,也就是,与特定主题(例如,心脏手术、外币兑换、航空工程或其他深层主题等)关联的术语的字顺列表,其中术语列表中的每个术语伴有一个或多个术语定义。为了包括权利要求的该文件的目的,专有名词“术语”包含单词和短语。短语有时在本领域中称为“搭配”(即,一起形成具体含义的单词的序列,如“心脏病发作”)。
[0025]为了包括权利要求的该文件的目的,专有名词“词汇表(glossary)”包含词汇表和词典。在本发明的一些实施例中主题词汇表126是行业专用词典或词汇表。例如,用于心脏手术的领域的行业专用词典的简单例子可以包括诸如“心脏病发作”、“心肌梗塞”等的术语和它们的定义。
[0026]主题叙词表128在一些实施例中可以由同义词创建机构124以与特定主题关联的同义词的列表的形式建立。例如,主题叙词表128可以是在同义词对的字顺列表中组织的同义词的列表(即,每个同义词对包括作为同义词的两个术语)。在其他实施例中主题叙词表128可以由同义词创建机构124以将术语分组成与特定主题关联的同义词的集合的词汇数据库的形式建立。例如,主题叙词表128可以是在类似于词网(WordNet)的那些的“同义词集”中组织的词汇数据库。词网是常规词汇数据库