基于图卷积的关系抽取方法

文档序号:26807862发布日期:2021-09-29 02:47阅读:132来源:国知局
基于图卷积的关系抽取方法

1.本发明涉及文本数据关系提取领域,具体涉及基于图卷积的关系抽取方法。


背景技术:

2.身处于信息爆炸的时代,每天互联网上都会涌现出大量的文本数据,比如新闻报道、博客、研究文献以及社交媒体评论等,如何快速有效地从这些海量文本数据中挖掘出有价值的信息已经成为亟需解决的挑战。关系抽取即是针对给定的一段文本句子和其中标记好的命名实体,识别出命名实体之间的语义关系。
3.现有的关系抽取技术一般是将句子和实体附近的词特征化作为模型的输入特征,经一系列处理后得到一个整体的表示,最后经过训练好的分类器后得到关系分类概率。
4.现有技术缺点基于特征的传统方法需要显示地将关系实例转换为分类器可以接收的特征向量,其研究重点在于如何提取具有区分性的特征,一般集成包括词汇、句法和语义等特征,从而产生描述关系实例的各种局部特征和全局特征。基于核函数的方法则直接以结构树为处理对象,使用核函数来计算关系之间的距离。基于深度学习的方法一般将输入句子通过词向量矩阵转化为词向量后作为模型输入,然后进一步提取并融合局部词汇特征和全局句子特征,将拼接得到的最终表示特征用于关系分类。基于特征工程和核函数的统计学习方法在模型可扩展性上存在不小的缺陷,同时这些人工设计的特征的提取依赖于自然语言处理工具,同时特征抽取的过程也是一个串联(pipeline)的过程,前一步自然语言处理的结果作为后一步的输入,因此这些自然语言处理工具容易造成错误累积和传递,使得抽取到的特征不准确。同时面对小语种时,缺乏相关的自然语言处理工具,使得上述的方法受到较大的限制。


技术实现要素:

5.有鉴于此,本发明提供一种基于图卷积的关系抽取方法,包括:语言分析预处理:借助于自然语言分析工具将数据集中的原始句子进行分词和依存句法分析,得到所述原始句子的分词结果,并构建得到一棵表示所述原始句子中词之间语义依存关系的依存句法树,根据所述依存句法树中节点间的拓扑关系生成邻接矩阵;查询词向量:通过查询词向量表可将所述原始句子的每个词转换为其对应的词向量,得到了原句的向量化表示;图卷积神经网络提取特征:将所述邻接矩阵和句子中每个词的向量化表示输入图卷积网络中,学习得到特征表示;关系分类:将所述特征表示进行拼接后送入学习神经网络中得到最终表示,再根据特征表示获得实体对在各关系上的概率分布,预测概率最大的关系即是模型预测句子中主语实体和宾语实体存在的关系类型。
6.在一些实施例中,具体地,所述方法还包括:
利用实体识别工具对原句进行实体识别,将得到的实体按其在原句中出现的先后次序称为主语实体和宾语实体。
7.在一些实施例中,具体地,所述方法还包括:依存句法树剪枝:根据句子中主语实体、宾语实体和它们最近公共祖先构成的子树在依存句法树中进行剪枝,根据所述剪枝后的依存句法树中节点间的拓扑关系生成剪枝后的邻接矩阵。
8.在一些实施例中,具体地,所述特征表示包括:融合了上下文和语义依存关系的句子整体表示、主语实体表示和宾语实体表示。
9.在一些实施例中,具体地,所述学习神经网络为前馈神经网络。
10.在一些实施例中,具体地,所述根据特征表示获得实体对在各关系上的概率分布的具体方法包括:将得到的所述最终表示输入一个线性层,最后通过softmax运算获得实体对在各关系上的概率分布。
11.在一些实施例中,具体地,将所述邻接矩阵和句子中每个词的向量化表示输入图卷积网络中学习得到融合了上下文和语义依存关系的句子整体表示的具体方法为:其中,h
(l)
表示图卷积神经网络第l层输出的整体隐含表示;gcn(

)表示l层图卷积神经网络;h
(0)
表示图卷积神经网络的输入层;f(

)表示最大池化函数。
12.在一些实施例中,具体地,得到主语实体表示的具体方法为:其中,s1:s2表示构成主语实体的词序列在原句分词后的所有词序列的索引区间;h
(l)s1:s2
表示由主语实体的词序列在原句分词后的所有词序列的索引区间作为输入,图卷积神经网络第l层输出的主语实体隐含表示。
13.在一些实施例中,具体地,得到宾语实体表示的具体方法为:其中,o1:o2表示构成宾语实体的词序列在原句分词后的所有词序列的索引区间;h
(l)o1:o2
表示由宾语实体的词序列在原句分词后的所有词序列的索引区间作为输入,图卷积神经网络第l层输出的宾语实体隐含表示。
14.在一些实施例中,具体地,所述依存句法树中每个节点其受邻域影响的范围在依存树中的距离不超过l条边。本技术实施例提供的上述技术方案与现有技术相比具有如下优点:依存句法树可以有助于关系抽取模型捕捉实体间的长距离语义关系,同时相较于传统的统计学习方法以及基于序列深度学习的模型,基于图卷积网络和依存树剪枝技术的关系抽取能在更高语义层次上的上下文学习出更佳的实体表示和句子表示,最后的模型在抽取句子中相距较远的实体间的语义关系时会更具优势。
附图说明
15.图1为本发明实施例提供的基于图卷积的关系抽取方法的流程图。
具体实施方式
16.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
17.如图1所示本技术实施例提供的基于图卷积的关系抽取方法,包括:借助于自然语言分析工具将数据集中的原始句子进行分词,得到所述原始句子的分词结果,这样就得到分词表示后的句子x=[x1,

x
n
],利用实体识别工具对原句进行实体识别,将得到的实体按其在原句中出现的先后次序称为主语实体和宾语实体;借助于自然语言分析工具将数据集中的原始句子进行依存句法分析,将每个词表示为一个节点,将词之间的语义依存关系作为相关词对应节点间的边,构建得到一棵表示所述原始句子中词之间语义依存关系的依存句法树,根据所述依存句法树中节点间的拓扑关系生成邻接矩阵,具体方法为:假设原句在分词时被切分成n个词,对应于依存句法树中的n个节点,构建一个n行n列的邻接矩阵a,其中a
ij
为1时表示依存句法树中节点i到节点j存在边,即对应原句中第i个词与第j个词之间存在语义依存关系;否则a
ij
为0时表示依存句法树中节点i到节点j不存在边,即对应原句中第i个词与第j个词之间没有语义依存关系;查询词向量:通过查询词向量表可将所述原始句子的每个词转换为其对应的词向量,得到了原句的向量化表示;依存句法树剪枝:根据句子中主语实体、宾语实体和它们最近公共祖先构成的子树在依存句法树中进行剪枝,根据所述剪枝后的依存句法树中节点间的拓扑关系生成剪枝后的邻接矩阵;图卷积神经网络提取特征:判别实体对语义间关系的大多数信息通常包含在以主语实体和宾语实体的最近公共祖先为根的子树内,利用图卷积网络可以通过聚合邻域信息来学习到主语实体表示和宾语实体表示;将所述邻接矩阵和句子中每个词的向量化表示输入l层图卷积网络中,学习得到融合了上下文和语义依存关系的句子整体表示、主语实体表示和宾语实体表示;所述依存句法树中每个节点其受邻域影响的范围在依存树中的距离不超过l条边,l取值2或3;l层图卷积网络的表示方法为:其中,分别用h
i(l

1)
和h
i(1)
表示第l层的图卷网络中第i个节点的输入向量和输出向量;矩阵为邻接矩阵a与单位矩阵i相加的结果矩阵;是图中节点i的度;w
(1)
和b
(1)
分别为图卷网络学习出的模型参数——第l层权重矩阵和偏置项;σ为非线性激活函数;
将所述邻接矩阵和句子中每个词的向量化表示输入图卷积网络中学习得到融合了上下文和语义依存关系的句子整体表示的具体方法为:其中,h
(l)
表示图卷积神经网络第l层输出的整体隐含表示;gcn(

)表示l层图卷积神经网络;h
(0)
表示图卷积神经网络的输入层;f(

)表示最大池化函数;得到主语实体表示的具体方法为:其中,s1:s2表示构成主语实体的词序列在原句分词后的所有词序列的索引区间;h
(l)s1:s2
表示由主语实体的词序列在原句分词后的所有词序列的索引区间作为输入,图卷积神经网络第l层输出的主语实体隐含表示;得到宾语实体表示的具体方法为:其中,o1:o2表示构成宾语实体的词序列在原句分词后的所有词序列的索引区间;h
(l)o1:o2
表示由宾语实体的词序列在原句分词后的所有词序列的索引区间作为输入,图卷积神经网络第l层输出的宾语实体隐含表示;关系分类:将所述融合了上下文和语义依存关系的句子整体表示、主语实体表示和宾语实体表示进行拼接后送入前馈神经网络中得到最终表示,具体方法为:再将得到的所述最终表示输入一个线性层,最后通过softmax运算获得实体对在各关系上的概率分布,softmax的具体公式为:预测概率最大的关系即是模型预测句子中主语实体和宾语实体存在的关系类型。
[0018]
实施例输入的数据集:进入linguistic data consortium官网下载ace 2005数据集,ace 2005语料文件夹下的data包括了阿拉伯与、英语和中文三种语言,每种语言下又有多种数据源。
[0019]
借助于自然语言分析工具将数据集中的原始句子进行分词,得到所述原始句子的分词结果,这样就得到分词表示后的句子x=[x1,

x
n
],利用实体识别工具对原句进行实体识别,将得到的实体按其在原句中出现的先后次序称为主语实体和宾语实体;借助于自然语言分析工具将数据集中的原始句子进行依存句法分析,将每个词表示为一个节点,将词之间的语义依存关系作为相关词对应节点间的边,构建得到一棵表示所述原始句子中词之间语义依存关系的依存句法树,根据所述依存句法树中节点间的拓扑关系生成邻接矩阵,
具体方法为:假设原句在分词时被切分成n个词,对应于依存句法树中的n个节点,构建一个n行n列的邻接矩阵a,其中a
ij
为1时表示依存句法树中节点i到节点j存在边,即对应原句中第i个词与第j个词之间存在语义依存关系;否则a
ij
为0时表示依存句法树中节点i到节点j不存在边,即对应原句中第i个词与第j个词之间没有语义依存关系;查询词向量:通过查询词向量表可将所述原始句子的每个词转换为其对应的词向量,得到了原句的向量化表示;依存句法树剪枝:根据句子中主语实体、宾语实体和它们最近公共祖先构成的子树在依存句法树中进行剪枝,根据所述剪枝后的依存句法树中节点间的拓扑关系生成剪枝后的邻接矩阵;图卷积神经网络提取特征:判别实体对语义间关系的大多数信息通常包含在以主语实体和宾语实体的最近公共祖先为根的子树内,利用图卷积网络可以通过聚合邻域信息来学习到主语实体表示和宾语实体表示;将所述邻接矩阵和句子中每个词的向量化表示输入l层图卷积网络中,学习得到融合了上下文和语义依存关系的句子整体表示、主语实体表示和宾语实体表示;所述依存句法树中每个节点其受邻域影响的范围在依存树中的距离不超过l条边,l取值2或3;l层图卷积网络的表示方法为:其中,分别用h
i(l

1)
和h
i(1)
表示第l层的图卷网络中第i个节点的输入向量和输出向量;矩阵为邻接矩阵a与单位矩阵i相加的结果矩阵;是图中节点i的度;w
(1)
和b
(1)
分别为图卷网络学习出的模型参数——第l层权重矩阵和偏置项;σ为非线性激活函数;将所述邻接矩阵和句子中每个词的向量化表示输入图卷积网络中学习得到融合了上下文和语义依存关系的句子整体表示的具体方法为:其中,h
(l)
表示图卷积神经网络第l层输出的整体隐含表示;gcn(

)表示l层图卷积神经网络;h
(0)
表示图卷积神经网络的输入层;f(

)表示最大池化函数;得到主语实体表示的具体方法为:其中,s1:s2表示构成主语实体的词序列在原句分词后的所有词序列的索引区间;h
(l)s1:s2
表示由主语实体的词序列在原句分词后的所有词序列的索引区间作为输入,图卷积神经网络第l层输出的主语实体隐含表示;得到宾语实体表示的具体方法为:
其中,o1:o2表示构成宾语实体的词序列在原句分词后的所有词序列的索引区间;h
(l)o1:o2
表示由宾语实体的词序列在原句分词后的所有词序列的索引区间作为输入,图卷积神经网络第l层输出的宾语实体隐含表示;关系分类:将所述融合了上下文和语义依存关系的句子整体表示、主语实体表示和宾语实体表示进行拼接后送入前馈神经网络中得到最终表示,具体方法为:再将得到的所述最终表示输入一个线性层,最后通过softmax运算获得实体对在各关系上的概率分布,softmax的具体公式为:预测概率最大的关系即是模型预测句子中主语实体和宾语实体存在的关系类型。
[0020]
本技术还公开了一种可读存储介质,所述可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述实施例所述的基于图卷积的关系抽取方法方法。
[0021]
本技术同时还公开了一种计算机设备,包括处理器和存储器,其中,所述存储器,用于存放计算机程序;所述处理器,用于执行存储在所述存储器上的计算机程序时,实现所述的基于图卷积的关系抽取方法方法的步骤。
[0022]
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0023]
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
[0024]
本说明书中描述的主题及功能操作的实施例可以在以下中实现:数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序,即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地,程序指令可以被编码在人工生成的传播信号上,例如机器生成的电、光或电磁信号,该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。
[0025]
本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行,以通过根据输入数据进行操作并生成输出来执行相应的功能。所
述处理及逻辑流程还可以由专用逻辑电路—例如fpga(现场可编程门阵列)或asic(专用集成电路)来执行,并且装置也可以实现为专用逻辑电路。
[0026]
适合用于执行计算机程序的计算机包括,例如通用和/或专用微处理器,或任何其他类型的中央处理单元。通常,中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括用于存储数据的一个或多个大容量存储设备,例如磁盘、磁光盘或光盘等,或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据,抑或两种情况兼而有之。然而,计算机不是必须具有这样的设备。此外,计算机可以嵌入在另一设备中,例如移动电话、个人数字助理(pda)、移动音频或视频播放器、游戏操纵台、全球定位系统(gps)接收机、或例如通用串行总线(usb)闪存驱动器的便携式存储设备,仅举几例。
[0027]
适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备,例如包括半导体存储器设备(例如eprom、eeprom和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及cd rom和dvd

rom盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。
[0028]
虽然本说明书包含许多具体实施细节,但是这些不应被解释为限制任何发明的范围或所要求保护的范围,而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。
[0029]
类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
[0030]
由此,主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下,权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外,附图中描绘的处理并非必需所示的特定顺序或顺次顺序,以实现期望的结果。在某些实现中,多任务和并行处理可能是有利的。
[0031]
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1