用于自然语言处理中的依赖指称表达的解疑的方法和系统的制作方法
【专利摘要】在示例性的实施例中提供用于自然语言处理中的依赖指称表达的解疑的方法、系统和计算机程序产品。选择一组文档中的文档的一部分,该部分包含一组依赖指称表达实例。过滤该部分以通过使用实例的语言特性从一组依赖指称表达实例中识别该实例,该依赖指称表达的实例指称在一组文档中出现的完整表达。通过定位依赖指称表达在哪里被定义为完整表达的替代物而在一组文档中的一个成员文档中定位完整表达。通过使用完整表达解析实例,使得关于完整表达的信息可在所述实例的位置处得到。
【专利说明】用于自然语言处理中的依赖指称表达的解疑的方法和系统
【技术领域】
[0001]本发明一般涉及用于文档的自然语言处理的方法、系统和计算机程序产品。更特别地,本发明涉及用于自然语言处理中的依赖指称表达的解疑的方法、系统和计算机程序
女口
广叩O
【背景技术】
[0002]文档包含许多形式的信息。例如,配置为句子和段落的文本信息以记叙的形式传递信息。
[0003]—些类型的信息以指称的形式给出。例如,文档可包含在文档中重复出现的名称、词语、短语或文本段。许多文档指明替换短语或文本以作为名称、词语、短语或文本段的替代物,并在名称、词语、短语或文本段的第一次出现之后对各随后的出现使用替换文本。
[0004]名称、词语、短语或文本段被称为完整表达或完全表达,并且,替换短语或文本被称为依赖指称表达。依赖指称表达是要传递依赖指称表达所替代的完整表达的意思。
[0005]自然语言处理(NLP)是有利于在人与数据处理系统之间交换信息的技术。例如,NLP的一个分支属于将人可用语言或形式的给定内容转换成计算机可用形式。例如,NLP可接收内容为人可读形式的文档,并且产生相应的内容是计算机特定语言或形式的文档。
【发明内容】
[0006]示例性的实施例提供用于自然语言处理中的依赖指称表达的解疑的方法、系统和计算机程序产品。至少一个实施例选择在一组文档中的文档的一部分,该部分包含一组依赖指称表达实例。该实施例过滤该部分以通过使用实例的语言特性从一组依赖指称表达实例中识别该实例,该依赖指称表达的实例指称在一组文档中出现的完整表达。该实施例通过定位依赖指称表达在哪里被定义为完整表达的替代物而在一组文档中的一个成员文档中定位完整表达。该实施例使用处理器和存储器,通过使用完整表达解析实例,使得关于完整表达的信息可在所述实例的位置处得到。
【专利附图】
【附图说明】
[0007]在所附的权利要求中阐述被认为是本发明的特征的新颖的特征。但是,当结合附图阅读时,参照示例性的实施例的以下的详细的描述,可以最好地理解本发明自身、优选的使用模式及其其它的目的和优点,其中,
[0008]图1示出可实现示例性的实施例的数据处理系统的网络的图示;
[0009]图2示出可实现示例性的实施例的数据处理系统的框图;
[0010]图3示出根据示例性的实施例的可解析的依赖指称表达的几个例子;
[0011]图4示出根据示例性的实施例的用于自然语言处理中的依赖指称表达的解疑的示例性配置的框图;
[0012]图5示出根据示例性的实施例的自然语言处理中的依赖指称表达的解疑的例子;[0013]图6示出根据示例性的实施例的自然语言处理中的依赖指称表达的解疑的示例性处理的流程图;
[0014]图7示出根据示例性的实施例的解析依赖指称表达实例的一个示例性方式的流程图;以及
[0015]图8示出根据示例性的实施例的解析依赖指称表达实例的一个示例性方式的流程图。
【具体实施方式】
[0016]从示例性的实施例认识到,经受NLP的文档一般包含依赖指称表达,即,作为在文档中的某个地方出现的一些完整表达的替代物的文本。例如,从示例性的实施例认识到,在一些情况下,完整表达可在文档的开始出现,相应的依赖指称表达的实例散布于整个文档。照应表达是重新提到先行表达在前面提到的实体的表达。照应表达和先行表达均指的是作为指称物的文档外面的某物。
[0017]从示例性的实施例认识到,在一些其它的情况下,完整表达可出现于文档的结尾,相应的依赖指称表达的实例散布于整个文档。后指表达是重新提到随后表达提到的实体的表达。后指表达和随后表达均指的是作为指称物的文档外面的某物。
[0018]从示例性的实施例还认识到,完整表达和依赖指称表达可能不出现于同一文档中。例如,在诸如与一个或多个附录文档相关的协议文档的一组的一个或多个文档中,协定文档可包含完整表达,并且,协议文档和附录文档可包含相应的依赖指称表达的实例。
[0019]从示例性的实施例认识到,给定文档中的任意量的内容(词语距离)和给定的一组文档中的任意量的文档(文档距离)可使依赖指称表达的实例与相应的完整表达分离。在解析依赖指称表达的实例的意思时,除非相应的完整表达也出现于依赖指称表达的实例的附近,否则当前可用的NLP技术是无效或者易于出错的。作为例子,一些当前可用的NLP技术与要在内部解析依赖指称表达的意思的少数句子或段落结合。如果依赖指称表达和完整表达分开例如多于6行或6段,诸如当它们的出现位置在文档中分开几页时,一些当前可用的NLP技术简单地使用依赖指称表达,而不将依赖指称表达解析为相应的完整表达。
[0020]其它当前可用的NLP技术可尝试通过链接依赖指称表达的实例与该依赖指称表达的前面的实例来解析依赖指称表达,以诸如形成互参链。从示例性的实施例认识到,即使一些现有的NLP技术可解析出现位置明显远离同一指称物的另一次提及的依赖指称表达,这种解析也易于出错或者无效,原因是它们依赖于常规上使用不可靠的暗示的组合的文本搜索以猜测依赖指称表达的正确的在先的实例。
[0021]从示例性的实施例认识到,解析依赖指称表达时的这些和其它的当前的限制导致有问题的自然语言处理。考虑文档中的以下的示例性句子一 “The2009Series C Bondswill be issued under and subject to the terms and conditions contained in aresolution adopted by the County”。依赖指称表达“2009Series C Bonds”指的是特定的债券,并且,依赖指称表达“the County”指的是特定的郡。没有附加的参照,诸如通过确定这些短语与在文档的另一部分或给定的一组文档中的另一文档中提供的其它信息之间的等同关系,该句子的主题债券和主题郡是不可辨的。
[0022]假定在文档中的别处出现下面的句子一 “The$60,000,OOOGeneral ObligationPublic Improvement and School Bonds,2009Series B(the “2009Series B Bonds”)and the$60,000, OOOGeneral Obligation Public Improvement and SchoolBonds,2009Series C (Federally Taxable-Build America Bonds - Direct Payment)(the “2009Series C Bonds”)(collectively, the “Bonds,,)of Shelby County, Tennessee(the“County”)...”。适当地解析处于文档的语境内的前面的句子的依赖指称表达需要计算依赖指称表达与后面的句子中的完整表达的关系。
[0023]从示例性的实施例认识到,出于组合的原因,当前可用的NLP技术无法在文档的适当的语境内分析依赖指称表达。例如,一些NLP技术由于依赖指称表达实例与相应的完整表达之间的词语距离或文档距离而失败。即使配有照应解疑工具的NLP技术也受词语或文档距离限制。
[0024]一些其它的NLP技术甚至无法将某些文本识别为依赖指称表达实例。例如,在一些NLP技术依赖于依赖指称表达的诸如单数形式的一些语言特性的情况下,多数形式的依赖指称表达将不会被识别用于解析。作为另一例子,照应解疑会错失后指依赖指称表达,该后指依赖指称表达比照应参照不常见。其它的NLP技术可遭受这些和其它缺点的组合,从而导致解析依赖指称表达的一些实例但不解析其它的。
[0025]用于描述本发明的描述示例性的实施例一般针对和解决与当前可用的NLP技术的限制有关的上述的问题和其它问题。示例性的实施例提供用于自然语言处理中的依赖指称表达的解疑的方法、系统和计算机程序产品。
[0026]示例性的实施例通过过滤处理发现文档中的依赖指称表达的实例。示例性的实施例在给定的一组文档内跨着不受限的词语距离或文档距离定位相应的完整表达。示例性的实施例通过使用完整表达解疑依赖指称表达的各实例。
[0027]实施例通过在输出自然语言处理文档内用完整表达替换依赖指称表达来解疑依赖指称表达的实例。另一实施例通过以如下方式修改依赖指称表达来解疑依赖指称表达的实例,该方式使得完整表达变得可从输出自然语言处理文档内的依赖指称表达实例的位置得到或者可访问。
[0028]例如,通过使用上述的示例性句子,一个实施例在输出文档中用“ShelbyCounty, Tennessee”替换“the County”的所有实例。另一实施例导致“the County”的某些实例在输出文档中呈现“Shelby County, Tennessee”的替换文本。另一实施例导致“the County”的某些实例包含与在输出文档中出现短语“Shelby County, Tennessee”的超链接。另一实施例导致“the County”的某些实例包含与输出文档中的属于“ShelbyCounty, Tennessee”中的文档的给定输入组中的另一文档的超链接。
[0029]这些将依赖指称表达解析为相应的完整表达的示例性方式不是要限制示例性的实施例。在示例性的实施例的范围内,实施例可实现解析依赖指称表达的这些或这些和其它方式的组合。
[0030]仅作为例子参照某些类型的文档、完整表达和依赖指称表达描述示例性的实施例。这些类型的文档、完整表达和依赖指称表达或它们的示例性属性不是要限制本发明。
[0031]并且,可关于任意类型的数据、数据源或在数据网络上对数据源的访问实现示例性的实施例。在本发明的范围内,在数据处理系统本地或者在数据网络上,任意类型的数据存储装置可向本发明的实施例提供数据。[0032]仅作为例子通过使用特定的代码、设计、构架、协议、布局、方案和工具描述示例性的实施例,并且不限于示例性的实施例。并且,为了阐明说明书,仅作为例子通过使用特定的软件、工具和数据处理环境在一些实例中描述示例性的实施例。示例性的实施例可与其它的可比或意图类似的结构、系统、应用或构架结合使用。可在硬件、软件或它们的组合中使用示例性的实施例。
[0033]本公开中的例子仅用于阐明说明书,并且不限于示例性的实施例。从本公开可设想附加的数据、操作、动作、任务、活动和操作,并且,在示例性的实施例的范围内设想它们。
[0034]这里列出的任意的优点仅是例子,并且不是要限于示例性的实施例。可通过特定的示例性的实施例实现附加或不同的优点。并且,特定的示例性的实施例可具有以上列出的优点中的一些或全部或不具有这些优点中的任一个。
[0035]参照附图、特别是参照图1和图2,这些附图是可实现示例性的实施例的数据处理环境的示例性示图。图1和图2仅是例子,并且不是要关于可实现不同实施例的环境断言或意味着任何限制。特定的实现可基于以下的描述对示出的环境采取任何修改。
[0036]图1示出可实现示例性的实施例的数据处理系统的网络的图示。数据处理环境100是可实现示例性的实施例的计算机的网络。数据处理环境100包含网络102。网络102是用于在数据处理环境100内的连接在一起的各种装置和计算机之间提供通信链接的介质。网络102可包含诸如导线、无线通信链接或光纤电缆的连接。服务器104和服务器106与网络102连同存储设备单元108耦合。软件应用可在数据处理环境100中的任何计算机上执行。
[0037]另外,客户机110、112和114与网络102耦合。诸如服务器104或106或客户机110、112或114的数据处理系统可包含数据,并且可具有在其上面执行的软件应用或软件工具。
[0038]仅作为例子而不意味着这种构架的任何限制,图1示出可在实施例的示例性实现中使用的某些部件。例如,服务器104中的应用105是这里描述的实施例的实现。应用105结合NLP引擎103操作。例如,NLP引擎103可以是能够在文档上执行自然语言处理的现有应用,并且可被修改或配置为结合应用105操作以根据这里描述的实施例执行操作。客户机112包含具有根据实施例处理的依赖指称表达113的一组文档。
[0039]服务器104和106、存储设备单元108和客户机110、112和114可通过使用有线连接、无线通信协议或其它适当的数据连接与网络102耦合。例如,客户机110、112和114可以是个人计算机或网络计算机。
[0040]在示出的例子中,服务器104可向客户机110、112和114提供诸如引导文件、操作系统图像和应用的数据。在本例子中,客户机110、112和114可以是服务器4的客户机。客户机110、112、114或它们的一些组合可包含它们自身的数据、引导文件、操作系统图像和应用。数据处理环境100可包含未示出的附加的服务器、客户机和其它的装置。
[0041]在示出的例子中,数据处理环境100可以是因特网。网络102可代表使用传送控制协议/因特网协议(TCP/IP)和其它协议以相互通信的网络和网关的集合。在因特网的中心,是包含路由数据和消息的数以千计的商业、行政、教育和其它计算机系统的主节点或主机计算机之间的数据通信链接的骨干。当然,数据处理环境100还可实现为大量的不同类型的网络,诸如,例如,内联网、局域网络(LAN)或广域网络(WAN)。图1是例子,而不是不同的示例性的实施例的构架限制。
[0042]在其它用途中,数据处理环境100可被用于实现可实现示例性的实施例的客户机-服务器环境。客户机-服务器环境使得能够跨着网络分布软件应用和数据,使得应用通过使用客户机数据处理系统与服务器数据处理系统之间的相互作用起作用。数据处理环境100也可使用跨着网络分布的可共同操作的软件部件可一起封装为相干商业应用的面向服务的结构。
[0043]参照图2,该示图示出可实现示例性的实施例的数据处理系统的框图。数据处理系统200是诸如图1中的服务器104或客户机112的计算机的例子或者实现处理的计算机可用程序代码或指令可位于其中的另一类型的装置。
[0044]在示出的例子中,数据处理系统200使用包含北桥和存储器控制器集线器(NB/MCH) 202和南桥和输入/输出(I/O)控制器集线器(SB/ICH) 204的集线器构架。处理单元206、主存储器208和图形处理器210与北桥和存储器控制器集线器(NB/MCH)202耦合。处理单元206可包含一个或多个处理器,并且可通过使用一个或多个异型处理器系统被实现。处理单元206可以是多芯处理器。在某些实现中,图形处理器210可通过加速图形端口(AGP)与 NB/MCH202 耦合。
[0045]在示出的例子中,局域网络(LAN)适配器212与南桥和I/O控制器集线器(SB/ICH)204耦合。音频适配器216、键盘和鼠标适配器220、调制解调器222、只读存储器(ROM)224、通用串行总线(USB)和其它端口 232以及PCI/PCIe装置234通过总线238与南桥和I/O控制器集线器204耦合。硬盘驱动(HDD)226和⑶-R0M230通过总线240与南桥和I/O控制器集线器204耦合。例如,PCI/PCIe装置234可包含以太网适配器、插入卡和用于笔记本计算机的PC卡。PCI使用卡总线控制器,而PCIe不使用。R0M224可以是快擦写二进制输入/输出系统(BIOS)。例如,硬盘驱动226和⑶-R0M230可使用集成驱动电子(IDE)或串行先进技术附加(SATA)接口。超I/O (SIO)器件236可通过总线238与南桥和I/O控制器集线器(SB/ICH) 204耦合。
[0046]诸如主存储器208、R0M224或快擦写存储器(未示出)的存储器是计算机可用存储装置的一些例子。硬盘驱动226、CD-R0M230和其它类似可用器件是包含计算机可用存储介质的计算机可用存储器件的一些例子。
[0047]操作系统在处理单元206上操作。操作系统相互协作,并提供对图2中的数据处理系统200内的各种部件的控制。操作系统可以是商业可用操作系统,诸如
(AIX 是 International Business Machines Corporation 在美国和其它国家的商标)、Microsoft? Windows? (Microsoft 和 Windows 是 Microsoft Corporation 在美
国和其它国家的商标)或Linux? (Linux是Linus Torvalds在美国和其它国家的商标)。
面向对象的编程系统,诸如Java?编程系统,可结合操作系统运行,并且从在数据处理系统200上执行的Java?程序或应用向操作系统提供调用(Java和所有的基于Java的商标和标志是Oracle Corporation和/或其附属的商标或注册商标)。
[0048]用于操作系统、面向对象的编程系统和诸如图1中的应用105的应用或程序的指令位于诸如硬盘驱动226的一个或多个存储装置中的至少一个上,并且可被加载到诸如主存储器208的一个或多个存储器中的至少一个上,以供处理单元206执行。可通过使用可位于诸如例如主存储器208、只读存储器224的存储器或一个或多个外设装置中的计算机实现指令由处理单元206执行示例性的实施例的处理。
[0049]图1?2中的硬件可根据实现改变。除了图1?2所示的硬件或者作为其替代,可使用诸如快擦写存储器、等同的非易失性存储器或光盘驱动等的其它内部硬件或外设装置。另外,示例性的实施例的处理可被施加到多处理器数据处理系统。
[0050]在一些示例性的示例中,数据处理系统200可以是个人数字助理(PDA),该个人数字助理一般配有快擦写存储器以提供用于存储操作系统文件和/或用户产生数据的非易失性存储器。总线系统可包含一个或多个总线,诸如系统总线、I/o总线和PCI总线。当然,可通过使用在固定于构造或构架上的不同的部件或装置之间提供数据传送的任何类型的通信构造或构架实现总线系统。
[0051]通信单元可包含诸如调制解调器或网络适配器的用于传送和接收数据的一个或多个装置。例如,存储器可以是主存储器208或高速缓存器,诸如在北桥和存储器控制器集线器202中发现的高速缓存器。处理单元可包含一个或多个处理器或CPU。
[0052]通信单元可包含用于传送和接收数据的一个或多个器件,诸如调制解调器或网络适配器。例如,存储器可以是主存储器208或高速缓存,诸如在北桥和存储器控制器202中发现的高速缓存。处理单元可包含一个或多个处理器或CPU。
[0053]在图1?2中示出的例子和上述的例子不意味着构架限制。例如,除了采取PDA的形式以外,数据处理系统200也可以是平板计算机、膝上型计算机或电话装置。
[0054]参照图3,该示图示出可根据示例性的实施例解析的依赖指称表达的几个例子。文档302是示例性单个文档,其中,完整表达304在出现依赖指称表达实例306和308之前出现。文档302是可以是图1中的一组文档113中的全部或一部分的示例性文档。
[0055]当前可用的NLP技术,诸如图1中的NLP引擎103,能够仅当依赖指称表达实例出现在相应的完整表达附近时解析依赖指称表达实例。例如,当前可用的NLP技术会观察依赖指称表达306的范围310内的内容,以确定是否可解析依赖指称表达306。如果完整表达304出现于范围310内(未示出),那么当前可用的NLP引擎会在其它条件和限制下解析依赖指称表达306。在文档302的示出的例子中,当前可用的NLP引擎不会通过使用完整表达304解析依赖指称表达306。
[0056]文档312是另一示例性单个文档,其中,完整表达314在出现依赖指称表达实例316和318之后出现。由于前面描述的限制的组合,当前可用的NLP技术不会解析依赖指称表达306。
[0057]文档322和323是一组文档中的示例性文档,诸如具有图1中的依赖指称表达的一组文档113。文档322包含完整表达324和依赖指称表达326。文档323包含可通过使用文档322中的完整表达324解析的依赖指称表达328和330。由于前面描述的限制的组合,当前可用的NLP引擎不会解析依赖指称表达306。这里描述的各实施例可用于将依赖指称表达306和308解析为完整表达304、将依赖指称表达316和318解析为完整表达314并将依赖指称表达326、328和330解析为完整表达324。
[0058]参照图4,该示图示出根据示例性的实施例的用于自然语言处理中的依赖指称表达的解疑的示例性配置的框图。应用402是图1中的应用105的示例性实施例。图3中的文档302、文档304或文档322和323中的任一个可被用作一组文档404,该一组文档404包含一组的一个或多个完整表达和与组中的各完整表达对应的一组的一个或多个依赖指称表达。
[0059]应用402接收一组文档404作为自然语言处理的输入。部件406选择文档404的一部分。部件406过滤该部分以识别依赖指称表达的实例。例如,在一个实施例中,部件406通过识别词语、短语或文本段的某些语言特性来识别依赖指称表达的实例。例如,在一个实施例中,部件406针对大写的词语过滤文档的选择的部分,并将大写的词语识别为依赖指称表达的实例。在另一实施例中,部件406过滤某个字符串并将它们识别为依赖指称表达。
[0060]在另一实施例中,部件406进一步对于识别的依赖指称表达的其它形式过滤选择的部分,诸如单数或多数形式、不同的性别形式、不同的时态形式、所有格、形容词、副词或识别的依赖指称表达的其它语法形式。作为例子,如果部件406由于大写将“County”识别为依赖指称表达的实例,那么部件406还将“County’s”识别为同一依赖指称表达的另一实例。
[0061]部件408在一组文档404的整个范围中定位与识别的依赖指称表达对应的完整表达实例。例如,以识别的大写词语“County”为依赖指称表达的实例,部件408定位完整表达,其中大写字词“County”被规定作为完整表达的替代物。
[0062]部件410通过使用通过部件408定位的相应的完整表达解疑或解析依赖指称表达实例。例如,在一个实施例中,部件410用相应的完整表达替换依赖指称表达的实例。
[0063]在另一示例性实施例中,部件410修改依赖指称表达的实例,使得完整表达或等同解疑信息在依赖指称表达的可在所述实例的位置处或从该位置得到。在另一示例性实施例中,部件410通过在文档中添加例如HTML标签的额外标记来修改依赖指称表达的实例,该HTML标签有利于从依赖指称表达的实例的位置向完整表达的视觉提示和/或导航。在本公开中的别处描述解疑依赖指称表达实例的一些更多的示例性方式,但不意味着限于此。
[0064]应用402产生包含解析的依赖指称表达314的一组文档412。解析的依赖指称表达314中的解析实例可采取这里描述的各种示例性形式中的任一个和本领域技术人员从本公开很容易想到并且在示例性的实施例的范围内设想的任何其它类似地提出的形式。
[0065]参照图5,该示图示出根据示例性的实施例的自然语言处理中的依赖指称表达的解疑的例子。文档502是图4中的文档412中的文档的例子。
[0066]完整表达504是文档502中的完整表达的原始出现。依赖指称表达506和508是在文档502 (未示出)的原始版本中、诸如在图4中的文档404中的文档中出现的依赖指称表达的解析实例。
[0067]在一个实施例中,诸如图4中的使用部件410的应用402的应用通过用完整表达504的复制替换实例506和508解析依赖指称表达506和508的实例。通过代表完整表达504和依赖指称表达506和508的块的类似的遮蔽,表示解析依赖指称表达实例的替换方法。
[0068]文档512是图4中的文档412中的文档的另一例子。
[0069]完整表达514是文档512中的完整表达的原始出现。依赖指称表达516和518是在文档512的原始版本中(未示出)、诸如在图4中的文档404中的文档中出现的依赖指称表达的解析实例。[0070]在一个实施例中,诸如图4中的使用部件410的应用402的应用通过修改实例516和518,使得关于完整表达514的信息变得可从实例516和518的位置得到或访问来解析依赖指称表达516和518的实例。通过代表完整表达514和依赖指称表达516和518的块的不同的遮蔽,表示解析依赖指称表达实例的替换方法。
[0071]这种实施例产生或修改文档512的部分520,诸如,例如,元数据部分。该实施例向部分520添加条目522。条目522包含完整表达512的复制524向诸如实例516或518的依赖指称表达的复制526的映射。例如,如果实例516和518相互类似,那么这些实例中的任一个参与条目520。如果实例516和518相异,那么两个实例均参与(未不出)条目520。
[0072]在一个实施例中,文档512中的实例516和518与条目520链接,使得诸如指点装置在实例516或518的位置上的点击或指点的交互作用向用户呈现来自条目520的信息。在另一实施例中,实例516或518与条目520之间的链接使得诸如图1中的NLP引擎103的另一应用在后面处理段中用相应的完整表达替换实例。
[0073]参照图6,该示图示出根据示例性的实施例的自然语言处理中的依赖指称表达的解疑的示例性处理的流程图。可在图4中的应用402中实现处理600。
[0074]处理600从接收包含依赖指称表达的一组文档(步骤602)开始。处理600选择接收的组中的文档的一部分(步骤604 )。
[0075]处理600过滤该部分以识别依赖指称表达实例(步骤606)。处理600在一组文档内定位完整表达,其中,识别的依赖指称表达实例参照该完整表达(步骤608)。处理600通过使用完整表达解析依赖指称表达(步骤610)。
[0076]处理600确定是否在选择的部分中存在依赖指称表达的更多的实例(步骤612)。如果存在同一或不同的依赖指称表达的更多的实例(步骤612的“是”路径),那么处理600返回到步骤606并识别另一实例。如果在该部分中不存在依赖指称表达的更多的实例(步骤612的“否”路径),那么处理600确定更多的部分或文档是否保持要以类似的方式被解疑(步骤614)。
[0077]如果更多的部分或文档保持(步骤614的“是”路径),那么处理600返回到步骤604并在接收的组中的同一或不同文档中选择另一部分。如果没有更多的部分或文档保持要被解疑(步骤614的“否”路径),那么处理600输出包含解析的依赖指称表达实例的一组文档(步骤616)。处理600然后结束。
[0078]参照图7,该示图示出根据示例性的实施例的解析依赖指称表达实例的一个示例性方式的流程图。处理700可实现为图6中的处理600的步骤610。
[0079]处理700从用相应的完整表达替换依赖指称表达实例(步骤702)开始。处理700然后结束。
[0080]参照图8,该示图示出根据示例性的实施例的解析依赖指称表达实例的一个示例性方式的流程图。处理800可实现为图6中的处理600的步骤610。
[0081]处理800从修改依赖指称表达实例使得关于相应的完整表达的信息可从文档中的依赖指称表达实例的位置得到或访问(步骤802)开始。处理800然后结束。
[0082]附图中的流程图和框图示出根据本发明的各种实施例的系统、方法和计算机程序产品的可能的实现的构架、功能和操作。关于这一点,流程图或框图中的各块可代表包含用于实现规定的逻辑功能的一个或多个可执行指令的代码的模块、段或部分。还应注意,在一些替代性的实现中,在块中注明的功能可以按图示的次序以外的次序出现。例如,连续表示的两个块事实上可基本上被同时执行,或者,根据包括的功能,有时可以按相反的次序执行块。还应注意,可通过执行特定功能或动作的基于特殊用途硬件的系统或者特殊用途硬件和计算机指令的组合,实现框图和/或流程图的各块和框图和/或流程图的块的组合。
[0083]因此,在用于自然语言处理中的依赖指称表达的解疑的示例性的实施例中,提供计算机实现的方法、系统和计算机程序产品。实施例将依赖指称表达实例解析为它们的相应的完整表达,使得实施例的输出文档中的依赖指称表达的各实例被修改以指示它在输入文档中参照的完整表达。实施例可跨着一组的任意数量的文档解疑依赖指称表达实例,诸如一组文档的累积内容的自然语言处理要在实施例作用于该组上之后被执行的情况。用作实施例的输入的一组文档排除一般出于翻译文档的目的的词典、本体论、知识库、数据库或储存库。
[0084]使用实施例的依赖指称表达的解疑允许诸如NLP引擎的下游文档处理部件使用完整表达,而不需要获知如何使用或解析依赖指称表达实例。实施例改善了对各种文档处理任务使用解疑的文档。例如,许多信息检索和概要任务基于词语频率计数。实施例产生对例如为Shelby County, Tennessee的完整表达的提及次数增加的文档,由此将文档的定量表征提升为“关于” Shelby County, Tennessee,从而导致提高依赖于词语频率的应用的精度。例如,与将“Shelby County”称为“the County”的实施例的输入文档相比,实施例的输出文档更可能被计算为与包含条目“Shelby County”的询问有关。
[0085]作为另一例子,许多语言处理任务在通常的词语与承载相互区分文档的更多的影响力的更精确的词语之间辨别。用于解疑的实施例可用不太一般化的和更信息化的相应条目替换一般化的条目,例如,“the Bonds”,从而比输入文档好地提高系统表征输出文档的语义内容的能力。
[0086]作为另一例子,诸如段落检索的语言处理任务使文档的文本与用户的询问匹配,并然后向用户显示来自文档的词语的固定尺寸窗口,使得用户可确定文档是否确实包含希望的信息。如实施例的示例性输出文档同样,呈现更特定的文本,例如,“ShelbyCounty, Tennessee”,而不是实施例的输入文档中的含糊的文本“the County”,使得词语窗口更多地揭示文档的内容,并因此对用户更有用。
[0087]本领域技术人员可以理解,本发明的各方面可体现为系统、方法或计算机程序产品。因此,本发明的方面可采取在这里都可一般称为“电路”、“模块”或“系统”的完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)或者组合软件和硬件方面的实施例。并且,本发明的各方面可采取以一个或多个计算机可读存储装置中体现的计算机程序产品或具有在其上面体现的计算机可读程序代码的计算机可读介质形式。
[0088]可以利用一个或多个计算机可读存储装置或计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储装置可例如是但不限于电子、磁、光学、电磁、红外或半导体系统、装置或器件或者以上的任意适当的组合。计算机可读存储装置的更特定的例子(非穷举的列表)包括以下:具有一个或多个导线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPR0M或快擦写存储器)、光纤、便携式紧致盘只读存储器(CD-ROM)、光学存储装置、磁存储装置或以上的任意适当的组合。在本文的背景中,计算机可读存储装置可以是可包含或者存储供指令执行系统、装置或器件使用或者与其关联的程序的任何可触知介质。
[0089]可通过使用包括但不限于无线、有线、光纤电缆、RF等或以上的任意适当的组合的任意适当的介质传送在计算机可读存储装置或计算机可读介质上体现的程序代码。
[0090]可通过包括诸如Java、Smalltalk或C++等的面向对象的编程语目和诸如“C”编程语言或类似的编程语言的常规的过程编程语言的一个或多个编程语言的任意组合,书写用于实施本发明的各方面的操作的计算机程序代码。可完全在用户的计算机上、部分地用户的计算机上、作为独立软件包、部分地用户计算机上并且部分在远程计算机或者完全在远程计算机或服务器上执行程序代码。在后一种方案中,远程计算机可通过包括局域网络(LAN)或广域网络(WAN)的任意类型的网络与用户的计算机连接,或者,可与外部计算机连接(例如,通过使用因特网服务提供商的因特网)。
[0091]这里,参照根据本发明的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明的各方面。应当理解,可通过计算机程序指令实现流程图和/或框图的各块以及流程图和/或框图的块的组合。这些计算机程序指令可被提供给一个或者多个通用计算机、特殊用途计算机或者其它的可编程数据处理装置的一个或者多个处理器,以制造机器,使得通过计算机或其它可编程数据处理装置的一个或者多个处理器执行的指令创建用于实现在流程图和/或框图块中规定的功能/动作的装置。
[0092]这些计算机程序指令也可存储于计算机可读存储装置或计算机可读介质中,这些计算机可读存储装置或计算机可读介质可指导一个或多个计算机、一个或多个其它可编程数据处理装置或一个或多个其它设备以特定的方式起作用,使得存储于一个或多个计算机可读存储装置或计算机可读介质中的指令产生包括实现在流程图和/或框图块中规定的功能/动作的指令的制造物品。
[0093]计算机程序指令也可被加载到一个或多个计算机、一个或多个其它可编程数据处理装置或一个或多个其它设备上,以导致在一个或多个计算机、一个或多个其它可编程数据处理装置或一个或多个其它设备上执行的一系列的操作步骤产生计算机实现的过程,使得在一个或多个计算机、一个或多个其它可编程数据处理装置或一个或多个其它设备上执行的指令提供用于实现在流程图和/或框图块中规定的功能/动作的处理。
[0094]在这里使用的术语仅出于描述特定的实施例目的,并且不意在限制本发明。如这里使用的那样,除非在上下文中另外明显指出,否则单数形式“一种”、“一个”和“该”意在也包括多数形式。还应理解,在本说明书中使用的术语“包括”和/或“包含”规定阐述的特征、整数、步骤、操作、要素和/或部件的存在,但不排除存在或添加一个或多个其它的特征、整数、步骤、操作、要素、部件和/或它们的组。
[0095]以下的权利要求中的所有装置或步骤加功能要素的相应的结构、材料、动作和等同是要包括用于与具体要求的其它要求要素组合执行功能的任何结构、材料或动作。给出本发明的描述是出于解释和描述的目的给出的,但它不是详尽的或者将本发明限于公开的形式。在不背离本发明的范围和精神的情况下,许多修改和变更对本领域技术人员来说是十分明显的。为了最好地解释本发明的原理和实际应用并使得其它的本领域技术人员能够理解本发明的具有适于设想的特定用途的各种修改的各种实施例,而选择和描述了实施例。
【权利要求】
1.一种用于自然语言处理中的依赖指称表达的解疑的方法,该方法包括: 选择一组文档中的文档的一部分,所述部分包含一组依赖指称表达实例; 过滤所述部分以通过使用实例的语言特性从一组依赖指称表达实例中识别所述实例,所述依赖指称表达的所述实例指称在所述一组文档中出现的完整表达; 通过定位所述依赖指称表达在哪里被定义为所述完整表达的替代物而在所述一组文档中的一个成员文档中定位所述完整表达;和 使用处理器和存储器,通过使用完整表达解析所述实例,使得关于所述完整表达的信息可在所述实例的位置处得到。
2.根据权利要求1的方法,还包括: 输出与一组文档对应的第二组文档,其中,所述第二组文档中的文档与所述一组文档中的文档对应,并且,所述第二组文档中的文档包含响应所述解析的所述实例的修改形式。
3.根据权利要求1的方法,其中,所述解析包含: 用所述完整表达的复制替换所述实例。
4.根据权利 要求1的方法,其中,所述解析包含: 通过在所述实例的位置处添加数据而修改实例,使得所述数据使得关于所述完整表达的信息可从所述实例的位置处访问。
5.根据权利要求4的方法,还包括: 修改所述文档以产生第二文档,其中,所述第二文档包含所述实例与所述完整表达之间的映射;和 通过使用链接将所述实例链接到所述映射,其中,所述链接可用于使得关于所述完整表达的信息可从所述实例的位置处访问。
6.根据权利要求1的方法,其中,所述实例和所述完整表达出现于所述一组文档中的同一文档中。
7.根据权利要求1的方法,其中,所述一组文档中的文档均不是可用于翻译不处于所述一组文档中的文档的一般提出的储存库。
8.根据权利要求1的方法,其中,所述一组文档被配置为用于所述一组文档的累积内容的自然语言处理。
9.根据权利要求1的方法,还包括: 接收所述一组文档,其中,所述接收出现在所述一组文档经受自然语言处理之前。
10.一种用于自然语言处理中的依赖指称表达的解疑的数据处理系统,所述数据处理系统包含: 包含存储介质的存储装置,其中,所述存储装置存储计算机可用程序代码;和 处理器,其中,处理器执行所述计算机可用程序代码,并且,所述计算机可用程序代码包含: 用于选择一组文档中的文档的一部分的计算机可用代码,所述部分包含一组依赖指称表达实例; 用于过滤所述部分以通过使用实例的语言特性从所述一组依赖指称表达实例中识别所述实例的计算机可用代码,所述依赖指称表达的实例指称在所述一组文档中出现的完整表达;用于通过定位所述依赖指称表达在哪里被定义为所述完整表达的替代物而在所述一组文档中的一个成员文档中定位所述完整表达的计算机可用代码;和 用于使用处理器和存储器,通过使用所述完整表达解析所述实例使得关于所述完整表达的信息可在所述实例的 位置处得到的计算机可用代码。
【文档编号】G06F17/28GK103995806SQ201410050568
【公开日】2014年8月20日 申请日期:2014年2月14日 优先权日:2013年2月15日
【发明者】J·P·布菲, D·K·拜伦, A·皮科夫斯基, E·E·西伯特 申请人:国际商业机器公司