本发明涉及自然语言处理技术领域,特别涉及一种隐式篇章关系识别方法、系统及可读存储介质。
背景技术:
随着科技的不断发展以及技术的不断提升,近年来,大部分融入篇章信息的自然语言处理系统的性能也得到了较为显著的提高。具体的包括命名实体识别、抽取式文本摘要以及机器翻译等。目前,越来越多的研究者都在探索如何建模并利用篇章信息。
具体的,篇章是指由一系列结构衔接、语义连贯的句子所组成的语言单位。它们之间遵从一定的语义关系或层次结构,用于阐述某一方面的问题或场景。篇章结构分析在于如何获取某段文本中句子之间的语义关系和层次结构。其中,句间语义关系识别属于篇章结构分析中的核心子任务之一,同时也是性能瓶颈所在。对于句间语义关系,一般包括显式因果关系以及隐式因果关系。以两个具体的语句为例进行说明:【例1】句子1:[西环线通车后货运列车可以不用经过南昌城区,]句子2:[从而][解决南昌站的客货相互制约运能的问题。],此时即为显式因果关系。【例2】句子1:[南昌新建的一座国际集装箱码头日前交付使用,]句子2:[进一步改善了江西现有的对外通道状况。],此时即为隐式因果关系。
句间语义关系识别,通常被称作篇章关系识别(discourserelationrecognition),旨在自动判断两个句子或者子句之间的语义关系。例如,转折关系以及因果关系等。如上所述,根据两个句子之间是否存在连接词,可进一步分为显式篇章关系识别以及隐式篇章关系识别。如例1所示为带有连接词“从而”的显式篇章关系实例,例2为省略了连接词的隐式篇章关系实例。显式篇章关系识别只需针对少数存在歧义的连接词进行消歧,性能已经达到了实用的要求。相对而言,由于缺少连接词,隐式篇章关系识别需要先建模两个句子的语义,然后推理出它们之间的关系。目前,隐式篇章关系识别的准确率还比较低,离实用尚有一定的差距。
针对多级隐式篇章关系识别,由于多个级别的篇章关系所代表的语义关系之间具有层次性,且篇章关系预测结果之间具有一定的依赖关系。然而,现有技术中,不仅没有有效地利用语义的层次性,也没有利用预测结果之间的依赖关系,从而导致多个级别的隐式篇章关系识别任务之间信息共享存在一定障碍的问题。
技术实现要素:
鉴于上述状况,有必要解决现有技术中,由于没有有效地利用语义的层次性,以及预测结果之间的依赖关系,从而导致多个级别的隐式篇章关系识别任务之间信息共享存在一定障碍的问题。
本发明实施例提供了一种隐式篇章关系识别方法,其中,所述方法包括如下步骤:
步骤一:接收编码器发送的全局语义关系向量以及局部语义关系向量,将所述全局语义关系向量作为gru网络的第零个隐状态;
步骤二:将上一级对应的隐状态以及所有的所述局部语义关系向量,根据注意力机制计算得到当前级别篇章关系的局部语义关系信息;
步骤三:将上一级别的篇章关系向量与所述当前级别篇章关系对应的所述局部语义关系信息进行拼接后,输入至当前gru单元,以计算得到当前级别的隐式篇章关系。
本发明提出的隐式篇章关系识别方法,解码器首先接收编码器所发送的全局语义关系向量以及局部语义关系向量,将全局语义关系向量作为gru网络的第零个隐状态,然后将上一级对应的隐状态以及所有的局部语义关系向量,计算得到当前级别篇章关系的局部语义关系信息,最后将上一级别的篇章关系向量与当前级别篇章关系的局部语义关系信息进行拼接,最终计算得到当前级别的隐式篇章关系。在本发明中,基于门机制有选择地共享全局语义关系信息,并基于注意力机制提取特定于当前级别任务的局部语义关系信息,不仅达到了在多个级别的隐式篇章关系识别任务之间实现信息共享的目的,也满足了不同级别的任务需要不同粒度的信息。与此同时,通过序列生成的方式来达到多级隐式篇章关系识别,可有效地建模任意两级篇章关系的预测结果之间可能存在的依赖。
所述隐式篇章关系识别方法,其中,在所述步骤二中,所述计算得到当前级别篇章关系的局部语义关系信息的方法包括如下步骤:
根据上一级对应的隐状态以及每个所述局部语义关系向量计算得到对应的权重分布;
根据所述权重分布以及每个所述局部语义关系向量计算得到所述当前级别篇章关系的局部语义关系信息。
所述隐式篇章关系识别方法,其中,所述根据上一级对应的隐状态以及每个所述局部语义关系向量计算得到对应的权重分布的方法对应的公式表达式为:
其中,
所述根据所述权重分布以及每个所述局部语义关系向量计算得到所述当前级别篇章关系的局部语义关系信息的方法对应的公式表达式为:
其中,
所述隐式篇章关系识别方法,其中,在所述步骤三中,输入至所述当前gru单元的数据表达式为:
其中,
所述隐式篇章关系识别方法,其中,在所述步骤三中,还存在如下关系式:
其中,
所述隐式篇章关系识别方法,其中,所述方法还包括如下步骤:
根据第j级篇章关系的隐状态进行篇章关系分类,以得到第j级篇章关系预测结果;
对应的表达式为:
所述隐式篇章关系识别方法,其中,在所述步骤一之前,所述方法还包括:
计算所输入的第一语句与第二语句之间的词对相关性矩阵,根据所述词对相关性矩阵,从行和列两个方向分别进行归一化处理得到第一权重矩阵以及第二权重矩阵;
根据所述第一权重矩阵以及所述第二权重矩阵计算得到第一局部语义关系特征以及第二局部语义关系特征;
根据所述第一局部语义关系特征以及所述第二局部语义关系特征,提取得到所述全局语义关系向量。
所述隐式篇章关系识别方法,其中,所述词对相关性矩阵、所述第一权重矩阵以及所述第二权重矩阵之间存在如下关系式:
其中,
所述第一局部语义关系特征、所述第二局部语义关系特征与所述第一权重矩阵以及所述第二权重矩阵之间存在如下关系:
其中,
所述全局语义关系向量与所述第一局部语义关系特征以及所述第二局部语义关系特征之间存在如下关系:
其中,
本发明还提出一种隐式篇章关系识别系统,包括相互之间进行数据传输的编码器以及解码器,其中,所述解码器包括:
数据接收模块,用于接收编码器发送的全局语义关系向量以及局部语义关系向量,将所述全局语义关系向量作为gru网络的第零个隐状态;
第一处理模块,用于将上一级对应的隐状态以及所有的所述局部语义关系向量,根据注意力机制计算得到当前级别篇章关系的局部语义关系信息;
第二处理模块,用于将上一级别的篇章关系向量与所述当前级别篇章关系对应的所述局部语义关系信息进行拼接后,输入至当前gru单元,以计算得到当前级别的隐式篇章关系;
所述第一处理模块用于:
根据上一级对应的隐状态以及每个所述局部语义关系向量计算得到对应的权重分布;
根据所述权重分布以及每个所述局部语义关系向量计算得到所述当前级别篇章关系的局部语义关系信息;
其中,所述根据上一级对应的隐状态以及每个所述局部语义关系向量计算得到对应的权重分布的公式表达式为:
其中,
所述根据所述权重分布以及每个所述局部语义关系向量计算得到所述当前级别篇章关系的局部语义关系信息的方法对应的公式表达式为:
其中,
本发明还提出一种可读存储介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如上所述的隐式篇章关系识别方法。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。
附图说明
图1为本发明提出的现有技术中汉语篇章关系层次结构示意图;
图2为本发明第一实施例提出的隐式篇章关系识别方法的流程图;
图3为本发明第一实施例提出的多级隐式篇章关系识别模型的结构示意图;
图4为本发明第二实施例提出的编码器的编码方法的流程图;
图5为本发明第四实施例提出的隐式篇章关系识别系统的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
现有技术中,通常把句子间的篇章关系定义为一种层次结构。如图1所示,在汉语cdtb(汉语篇章结构树库,chinesediscoursetreebank)语料中,把篇章关系分为两个层级。其中,第一级包括4大类(因果类、并列类、转折类和解说类);第二级包括17小类。另外,篇章连接词(因为、如果等)可以看作是第三级篇章关系。
从语义的角度来看,第二级篇章关系可以看作是第一级关系的进一步细化,而连接词则是第二级篇章关系的进一步细化。例如,第一级“因果类”关系可进一步细化为“因果关系、推断关系、假设关系、目的关系、条件关系和背景关系”。因此,隐式篇章关系识别通常包括多级分类任务:第一级篇章关系分类、第二级篇章关系分类和连接词分类,上述可统称为多级隐式篇章关系识别。
由于多个级别的篇章关系所代表的语义关系具有层次性。然而现有技术中,并没有有效地利用这种语义的层次性,从而达到在多个级别的隐式篇章关系识别任务之间实现信息共享、相互促进的目的。另一方面,由于多个级别的篇章关系预测结果之间具有一定的依赖关系,然而现有方法中,基于不同的分类模型单独预测每个级别的隐式篇章关系,没有利用它们之间的依赖关系。例如,如果第一级篇章关系的预测结果是“因果”关系,那么第二级篇章关系预测为“并列”关系的可能性就很小,连接词预测为“并且”的可能性也很小。
实施例一:
为了解决上述技术问题,本发明提出一种隐式篇章关系识别方法,请参阅图2与图3,对于本发明第一实施例提出的隐式篇章关系识别方法,该方法包括如下步骤:
s101,接收编码器发送的全局语义关系向量以及局部语义关系向量,将所述全局语义关系向量作为gru网络的第零个隐状态。
在本发明中,解码器将编码器所输出的全局语义关系向量
在本步骤中,将全局语义关系向量
s102,将上一级对应的隐状态以及所有的所述局部语义关系向量,根据注意力机制计算得到当前级别篇章关系的局部语义关系信息。
在本步骤中,计算得到当前级别篇章关系的局部语义关系信息的方法包括如下步骤:
s1021,根据上一级对应的隐状态以及每个所述局部语义关系向量计算得到对应的权重分布。
其中,
s1022,根据所述权重分布以及每个所述局部语义关系向量计算得到所述当前级别篇章关系的局部语义关系信息。
具体的,步骤s1022所对应的公式表达式为:
其中,
s103,将上一级别的篇章关系向量与所述当前级别篇章关系对应的所述局部语义关系信息进行拼接后,输入至当前gru单元,以计算得到当前级别的隐式篇章关系。
如上所述,在计算得到了当前级别(在本实施例中为第j级别)篇章关系对应的局部语义关系信息之后,结合上一级别的篇章关系向量一并输入到当前gru单元中。在此需要说明的是,若上一级别的篇章关系为第零级别,则对应的篇章关系向量为空。
在本步骤中,输入至所述当前gru单元的数据表达式为:
其中,
进一步的,在本步骤中,还存在如下关系式:
其中,
在此需要说明的是,重置门用于控制忽略前一时刻的隐状态
此外,从本步骤中的相关公式可以看出:(1)解码器所接收到的编码器所输出的全局语义关系向量
进一步的,再利用当前级别(第j级)篇章关系的隐状态进行篇章关系分类,以得到第j级篇章关系预测结果。
具体的,其所对应的表达式为:
在本发明中,第一次执行上述的步骤s102以及步骤s103,可得到第一级隐式篇章关系的预测结果
作为补充的,本发明提出的基于序列生成的多级隐式篇章关系识别模型,可使用随机梯度下降算法端到端进行训练。
例如,给定一个训练实例,使用交叉熵作为每一级隐式篇章分类关系的代价函数,如以下公式所示:
其中,
给定m个训练实例,模型的训练目标是最小化三个分类代价函数的线性和,具体的公式可表示为:
其中,
本发明提出的隐式篇章关系识别方法,解码器首先接收编码器所发送的全局语义关系向量以及局部语义关系向量,将全局语义关系向量作为gru网络的第零个隐状态,然后将上一级对应的隐状态以及所有的局部语义关系向量,计算得到当前级别篇章关系的局部语义关系信息,最后将上一级别的篇章关系向量与当前级别篇章关系的局部语义关系信息进行拼接,最终计算得到当前级别的隐式篇章关系。
在本发明中,基于门机制有选择地共享全局语义关系信息,并基于注意力机制提取特定于当前级别任务的局部语义关系信息,不仅达到了在多个级别的隐式篇章关系识别任务之间实现信息共享的目的,也满足了不同级别的任务需要不同粒度的信息。与此同时,通过序列生成的方式来达到多级隐式篇章关系识别,可有效地建模任意两级篇章关系的预测结果之间可能存在的依赖。
实施例二:
可以理解的,解码器在接收编码器所发送的全局语义关系向量之前,编码器需要先对所输入的语句进行编码处理。在本实施例中,重点介绍一种基于基于bi-lstm(双向长短时记忆网络)和双向注意力机制的编码器。
在本实施例中,请参阅图4,具体的编码规则包括如下步骤:
s201,计算所输入的第一语句与第二语句之间的词对相关性矩阵,根据所述词对相关性矩阵,从行和列两个方向分别进行归一化处理得到第一权重矩阵以及第二权重矩阵。
在此需要指出的是,bi-lstm(双向长短时记忆网络)是一种常用于学习句子语义表示的神经网络结构,其能够把上下文信息编码到词的向量表示中。具体的,如下所示:
其中,
在实际应用中,双向注意力机制(bi-attention)在很多nlp任务上被证明是一种非常有效的方式,常用于捕获句子之间的交互信息。例如自然语言推理、问答系统以及句子匹配等任务。具体的,以
其中,
s202,根据所述第一权重矩阵以及所述第二权重矩阵计算得到第一局部语义关系特征以及第二局部语义关系特征。
在本步骤中,基于上述的第一权重矩阵以及第二权重矩阵计算局部语义关系特征,如以下公式所示:
其中,
在此需要补充说明的是,
s203,根据所述第一局部语义关系特征以及所述第二局部语义关系特征,提取得到所述全局语义关系向量。
最后,全局语义关系提取层可基于等池化操作,融合局部语义关系特征中所包含的信息,如以下公式所示:
其中,
实施例三:
对于所输入的语句的编码,本发明第三实施例还提出一种基于transformer编码器的编码方法,其具体实现方式如下所述:
首先将隐式篇章关系实例中的第一语句与第二语句组织成形如“[cls]+第一语句+[sep]+第二语句+[sep]”的序列。其中,[cls]作为一个特殊的标记,添加在第一语句的开头,期望上述第一语句与第二语句之间的全局语义信息能够汇集在此处。[sep]用于第一语句与第二语句之间的分割标记。
为进一步区分第一语句与第二语句,第一语句使用
transformer编码器的特征提取层主要包含两个子模块:多头自注意力模块(multi-headattention)和前馈神经网络模块(feedforward)。多头自注意力模块用于建模序列中任一词(标记)与其他词(标记)之间多个角度的相关性,并基于这些相关性学习词在上下文中的表示。
具体的,给定输入的向量序列表示为
其中,
前馈神经网络(feedforward)包括一个普通的多层非线性前馈神经网络,可表示如下:
其中,矩阵
为了学习多层次的特征,transformer使用n个堆叠在一起的特征提取层,最终得到的对应于输入序列的矩阵表示为
实施例四:
本发明还提出一种隐式篇章关系识别系统,包括相互之间进行数据传输的编码器11以及解码器12,其中,所述解码器12包括依次连接的数据接收模块121、第一处理模块122以及第二处理模块123;
其中数据接收模块121用于:
接收编码器发送的全局语义关系向量以及局部语义关系向量,将所述全局语义关系向量作为gru网络的第零个隐状态;
第一处理模块122用于:
将上一级对应的隐状态以及所有的所述局部语义关系向量,根据注意力机制计算得到当前级别篇章关系的局部语义关系信息;
第二处理模块123用于:
将上一级别的篇章关系向量与所述当前级别篇章关系对应的所述局部语义关系信息进行拼接后,输入至当前gru单元,以计算得到当前级别的隐式篇章关系。
本发明还提出一种可读存储介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如上所述的隐式篇章关系识别方法。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。