增强神经句子分类的系统和方法与流程

文档序号:25650034发布日期:2021-06-29 19:57阅读:94来源:国知局
增强神经句子分类的系统和方法与流程

1.本公开涉及用于使用外部知识对自然语言句子进行分类的系统和方法。


背景技术:

2.在自然语言处理(nlp)领域中,信息提取(ie)通常涉及从非结构化文本构造和组织信息资源。一旦完成,ie就使得能够在下游应用程序中高效且有效地利用(例如,搜索)信息。ie通常被用来借助于自然语言处理(nlp)技术来处理人类语言文本。然而,ie也可以被用于多媒体文档处理,以处理图像/音频/视频/文档中的自动注释和内容提取。


技术实现要素:

3.根据一个实施例,公开了一种用于对自然语言句子进行分类的系统和方法。该系统和方法可以包括:接收文本句子;以及对文本句子进行编码以产生低维文本向量表示。知识图可以使用一个或多个关系三元组来构造,该关系三元组包括主语、宾语以及该主语与宾语之间的关系。可以使用一个或多个关系三元组对知识图进行编码,以产生低维知识向量表示。可以标识低维知识向量表示与低维文本向量表示之间的一个或多个链接。可以使用该一个或多个链接对文本句子进行分类。
4.可以使用翻译嵌入transe算法或conve算法对一个或多个关系三元组进行编码。知识图也可以被嵌入以生成用于一个或多个关系三元组的向量表示池。可以从文本低维向量表示中检索前k个相关实体。
附图说明
5.图1描绘了示例性计算系统。
6.图2图示了使用外部知识进行句子分类的流程图。
7.图3图示了示例性卷积神经网络。
8.图4图示了示例性知识图。
具体实施方式
9.在本文中描述了本公开的实施例。然而,要理解的是,所公开的实施例仅是示例,并且其他实施例可以采取各种替换形式。这些图不一定是按比例的;一些特征可能会被放大或最小化以示出特定组件的细节。因此,本文中公开的特定结构和功能细节不应被解释为限制性的,而仅仅是作为教导本领域技术人员以各种方式采用实施例的有代表性的基础。如本领域普通技术人员将理解的,参照任何一个图所图示和描述的各种特征可以与在一个或多个其他图中图示的特征进行组合,以产生未明确图示或描述的实施例。所图示的特征的组合为典型应用提供了有代表性的实施例。然而,对于特定的应用或实现方式来说,可能期望与本公开的教导一致的特征的各种组合和修改。
10.提到将ie用于文本应用程序,通常理解的是,单个句子可以是用于传达特定类型
知识的适当信息单元。例如,句子“我的汽车喇叭不发出声音”可以被理解为描述汽车喇叭声音问题的句子。还可以理解的是,整个句子是汽车问题描述的理想单位,因为子句短语(即,“不发出声音”)仅部分传达了问题。如该示例所示,句子分类可以被看作一个ie任务,其被用来形成具有目标含义(例如,汽车问题)的句子的结构化知识库(kb)。
11.句子分类在nlp领域得到了广泛的研究。然而,大多数现有句子分类系统都集中在以下模型上,这些模型在人工注释的数据集上进行训练,以学习与目标标签相关联的语言规律性,因此缺乏与外部知识充分整合的能力。这样的知识对于面向知识的句子分类任务可能是有用的。
12.例如,陈述“我的汽车的后挡板打开至67英寸”的句子可能描述了汽车问题(即,后挡板未打开至期望高度)或关于后挡板的事实陈述(即,打开的后挡板的预期高度)。确定该句子是事实陈述还是汽车问题可能需要有关车辆的、面向外部知识的且领域特定的信息(例如,后挡板的预期打开宽度)。
13.这样的外部知识可以帮助增强对所提供句子的理解及其含义。还设想到,可以通过使用机器学习算法来提供这样的帮助,该机器学习算法将由神经句子编码器构造的句子嵌入与从知识图检索的相关知识图嵌入进行组合。
14.图1描绘了可以被用于使用外部知识对自然语言句子进行分类的示例性系统100。系统100可以包括至少一个计算设备102。例如,系统100可以是被设计成在手持式平板设备上操作的bosch
®
esi诊断工具,其使得技术人员能够有效地诊断和维修重型卡车和商用车。
15.计算系统102可以包括:至少一个处理器104,其可操作地连接到存储器单元108。处理器104可以是实现中央处理单元(cpu)106的功能的一个或多个集成电路。可以设想到,cpu 106也可以是实现通用处理单元或专用处理单元(例如,图形处理单元、asic、fpga)的功能的一个或多个集成电路。
16.cpu 106可以是实现诸如x86、arm、power或mips指令集系列之一的指令集的商业上可获得的处理单元。在操作期间,cpu 106可以执行从存储器单元108检索的所存储的程序指令。所存储的程序指令可以包括:控制cpu 106的操作以实行本文中描述的操作的软件。在一些示例中,处理器104可以是片上系统(soc),其将cpu 106、存储器单元108、网络接口和输入/输出接口的功能集成到单个集成设备中。计算系统102可以实现用于管理操作的各个方面的操作系统。
17.存储器单元108可以包括用于存储指令和数据的易失性存储器和非易失性存储器。非易失性存储器可以包括:固态存储器(诸如nand闪存)、磁性和光学存储介质,或者当计算系统102被停用或失去电力时保留数据的任何其他合适的数据存储设备。易失性存储器可以包括存储程序指令和数据的静态和动态随机存取存储器(ram)。例如,存储器单元108可以存储机器学习模型110或算法、用于机器学习模型110的训练数据集112和/或原始源数据115。
18.计算系统102可以包括:被配置成提供与外部系统和设备的通信的网络接口设备122。例如,网络接口设备122可以包括:由电气和电子工程师协会(ieee)802.11系列标准定义的有线和/或无线以太网接口。网络接口设备122可以包括:用于与蜂窝网络(例如3g、4g、5g)进行通信的蜂窝通信接口。网络接口设备122可以进一步被配置成向外部网络124或云
提供通信接口。
19.外部网络124可以被称为万维网或互联网。外部网络124可以在计算设备之间建立标准通信协议。外部网络124可以允许信息和数据在计算设备与网络之间容易地交换。一个或多个服务器130可以与外部网络124通信。
20.计算系统102可以包括:输入/输出(i/o)接口120,其可以被配置成提供数字和/或模拟输入和输出。i/o接口120可以包括用于与外部设备通信的附加串行接口(例如,通用串行总线(usb)接口)。
21.计算系统102可以包括:人机界面(hmi)设备118,其可以包括使得系统100能够接收控制输入的任何设备。输入设备的示例可以包括:人机接口输入,诸如键盘、鼠标、触摸屏、语音输入设备和其他类似设备。计算系统102可以包括显示设备132。计算系统102可以包括:用于将图形和文本信息输出到显示设备132的硬件和软件。显示设备132可以包括:电子显示屏、投影仪、打印机或其他用于向用户或操作员显示信息的合适设备。计算系统102可以进一步被配置成允许经由网络接口设备122与远程hmi和远程显示设备进行交互。
22.系统100可以使用一个或多个计算系统来实现。尽管该示例描绘了实现所有所描述特征的单个计算系统102,但是意图是可以通过彼此通信的多个计算单元来分离和实现各种特征和功能。所选择的特定系统架构可能取决于多种因素。
23.系统100还可以可操作用于实现机器学习算法110,该机器学习算法被配置成分析原始源数据115。原始源数据115可以包括自然语言句子或自然语言单词。然而,还设想到,原始源数据115也可以包括视频、视频片段、图像以及原始传感器数据或部分处理的传感器数据。在一些示例中,机器学习算法110可以是被设计成实行预确定功能的神经网络算法。
24.系统100可以存储用于机器学习算法110的训练数据集112。训练数据集112可以表示用于训练机器学习算法110的先前构造的数据集合。机器学习算法110可以使用训练数据集112来学习与神经网络算法相关联的加权因子。训练数据集112可以包括:具有机器学习算法110试图经由学习过程进行复制的对应成果或结果的源数据集合。在该示例中,训练数据集112可以包括:来自各种场景的源图像和深度图,其中可以标识出对象(例如,行人)。
25.机器学习算法110可以使用训练数据集112作为输入以学习模式进行操作。可以使用来自训练数据集112的数据在几次迭代中执行机器学习算法110。利用每次迭代,机器学习算法110可以基于所获得的结果来更新内部加权因子。例如,机器学习算法110可以将输出结果与训练数据集112中包括的内容进行比较。由于训练数据集112包括预期结果,因此机器学习算法110可以确定何时性能是可接受的。在机器学习算法110达到预确定性能水平(例如,与关联于训练数据集112的成果100%一致)之后,可以使用不在训练数据集112中的数据来执行机器学习算法110。经训练的机器学习算法110可以被应用于新的数据集以生成带注释的数据。
26.机器学习算法110还可以被配置成标识原始源数据115中的特征。原始源数据115可以包括需要注解结果的多个实例或输入数据集。例如,机器学习算法110可以被配置成标识图像中行人的存在并注释该发生。机器学习算法110可以被编程为处理原始源数据115,以标识特征的存在。机器学习算法110可以被配置成将原始源数据115中的特征标识为预确定特征。原始源数据115可以得自各种源。例如,原始源数据115可以是由机器学习系统收集的实际输入数据。原始源数据115可以是机器生成以用于测试系统的。作为示例,原始源数
然而,进一步设想到,可以通过使用附加的关系三元组重复相同的过程、使用知识图400来创建附加的句子。例如,附加的主语408可以是“大于67英寸”,并且附加的关系410是“无法打开”。基于此关系三元组,知识图400可以被用来构造句子,该句子的内容为:“车辆后挡板不能延伸超过67英寸”。由知识图400构造的每一个句子可以被用来合成关于车辆的操作特性的文档。合成文档可以被加索引以提供全文搜索。例如,用于知识图400的合成实体文档可以被合成为文档,该文档提供关于给定车辆(例如,中型货车)的全文搜索。
34.在框210处,编码器被用来根据知识图生成上下文相关的知识向量。设想到,编码器可以使用诸如图cnn的机器学习算法进行操作。一旦被编码,框212就嵌入知识图以生成知识图的向量表示池,其中对象实体(即,主语和宾语)以及对象之间的关系被编码成低维向量。设想到,框212可以使用翻译嵌入(transe)或多层卷积网络模型进行操作以用于链路预测(例如,conve),以根据知识图构造用于实体和关系的低维向量表示。设想到,通过使用知识图实体的低维嵌入,通过将每个关系解释为翻译来对关系进行建模,可以将transe算法用于预测知识图的缺失关系。还设想到,可以在嵌入上使用二维卷积来设计conve模型,以预测知识图中的缺失链接。conve可以被设计为单个卷积层、到嵌入尺寸的投影层和内积层。
35.在框214处,检索算法用于使用在框202处提供的文本句子、从知识图中检索实体和关系。设想到,知识检索可能不同于当前由现代搜索引擎(例如,谷歌和必应)实现的已知文档检索系统。知识检索可以代替地用于从知识图检索实体和关系。例如,知识检索可以使用监督的知识图模型来操作,该模型优化了知识图中实体和关系上的注意力权重。然而,由于可能存在许多实体和关系,因此这样的知识图检索模型的计算强度可能很高。设想到,框214可以代替地使用来自知识图中的实体和关系的合成文档来利用类似于已知文档检索系统的有效知识检索机制。例如,框214可以对使用知识图创建的文档实行全文搜索。框214然后可以处理句子表示,以从知识图嵌入中检索前k个相关实体及其对应的实体嵌入。除了实体嵌入之外,框214可以用于通过获取与所检索到的实体相关联的关系来检索关系嵌入。框216然后可以用于生成从框214检索的相关实体和关系的表示。
36.然后,框218可以将框206提供的句子表示与框216提供的相关实体和关系表示进行整合。换句话说,在框218处实现的知识整合器将检索由知识图(例如,知识图300)提供的知识,该知识图可以被认为与在框202处提供的文本句子有关。
37.设想到,框218可以尝试通过采用实体检测和链接的子模块来标识句子中的实体提及与知识图中的实体节点之间的链接。所标识的链接可以被可操作地设计成使得句子中的实体提及可以基于知识库中的实体节点。所标识的链接还可以可操作用于使用接地实体作为触发来检索知识图所提供的相关知识。然而,理解的是,实体检测和链接在计算上是有问题的。例如,知识图内的子模块可能被错误识别的实体错误地构造,由此导致性能受阻。因此,设想到,框218可以通过直接接收从框206提供的文本句子作为对知识检索的查询来尝试克服所生成的错误,从而避免了对实体检测和链接的需要。由框218实行的形式化允许原始句子(即,在框202处提供的文本句子)被用作查询,以在计算上更有效的方式检索由框216提供的相关实体和关系,而无需使用复杂的实体和关系提取模块。
38.例如,框218可以将句子表示(来自框206)和检索到的实体和关系的表示(来自框216)进行组合。对于该组合,框218可以使用两个向量的级联或它们的加权平均值。然后将
所得到的增强的句子表示提供给框220,在框220中,可以将其用于在人工注释的数据集上训练监督分类器(即,框222)。在框224处,将句子级标签应用于所生成的分类。
39.本文中公开的过程、方法或算法可以可传送给处理设备、控制器或计算机/可以由它们实现,它们可以包括任何现有的可编程电子控制单元或专用电子控制单元。类似地,可以以许多形式将过程、方法或算法存储为可由控制器或计算机执行的数据和指令,包括但不限于永久地存储在诸如rom设备的不可写存储介质上的信息、以及可更改地存储在可写存储介质上的信息,该可写存储介质诸如是软盘、磁带、cd、ram设备以及其他磁性和光学介质。该过程、方法或算法也可以在软件可执行对象中实现。替换地,可以使用合适的硬件组件(诸如专用集成电路(asic)、现场可编程门阵列(fpga)、状态机、控制器或其他硬件组件或设备,或者硬件、软件和固件组件的组合)来全部或部分地体现该过程、方法或算法。
40.尽管上面描述了示例性实施例,但是并不意图是这些实施例描述了权利要求所涵盖的所有可能的形式。说明书中使用的词语是描述的而不是限制的词语,并且理解的是,在不脱离本公开的精神和范围的情况下可以进行各种改变。如前所述,各种实施例的特征可以进行组合以形成本发明的另外实施例,这些实施例可能没有明确地描述或说明。尽管各种实施例可能已经被描述为提供优点、或优于其他实施例、或相对于一个或多个期望的特性是现有技术的实现方式,但是本领域普通技术人员意识到可以损害一个或多个特征或特性来实现期望的总体系统属性,这取决于具体应用程序和实现方式。这些属性可以包括但不限于成本、强度、耐用性、生命周期成本、可销售性、外观、包装、大小、可用性、重量、可制造性、易于组装等。照此,就任何实施例被描述为与其他实施例或现有技术实现方式相比、相对于一个或多个特性并不太合期望的程度,这些实施例不超出本公开的范围,并且对于特定应用而言可能是合期望的。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1