本发明涉及自然语言处理,特别是涉及一种面向立法意见的关键信息抽取方法、系统及设备。
背景技术:
1、实体关系抽取任务是信息提取中的重要任务之一,它为下游任务(例如知识图的构建、自动抽象和机器问答)提供结构化信息。实体关系抽取是从文本中抽取出一对实体并给出实体间关系,可以分为管道式抽取和联合式抽取两种方式,管道式抽取即先后进行实体识别和关系抽取两个子任务;联合式抽取则是同时进行实体识别和关系分类,提出一种联合的模型。
2、实体关系抽取是从非结构化文本中抽取实体关系三元组(entity relationtriplets,ert),需要模型具有更强的建模和推理能力来有效捕捉文本中存在的实体内和实体间的复杂交互,如相关实体在不同语义空间下的关联,来确定目标实体对及所属的关系类别。在许多文本中,大量的关系事实是以多个句子表达的,文本中的多个实体之间,往往存在复杂的相互关系,因此模型需要具备丰富的推理能力来综合文本的所有信息。然而,现有技术中的实体关系抽取模型并不具备多句联合推理能力、语言语义增强推理能力以及推理泛化性。因此,亟需提供一种良好的实体交互的模型架构,充分利用外部知识,解决数据标签分布不均衡问题。
技术实现思路
1、本发明的目的是提供一种面向立法意见的关键信息抽取方法、系统及设备,能够充分利用外部知识,解决数据标签分布不均衡问题。
2、为实现上述目的,本发明提供了如下方案:一种面向立法意见的关键信息抽取方法,包括:获取证据信息的输入文本和所有待分类关系类别标签。
3、对证据信息的输入文本和所有待分类关系类别标签进行预处理,得到预处理后的文本;所述预处理后的文本包括:实体提及语义嵌入、实体语义嵌入、证据edu语义嵌入、上下文edu语义嵌入和标签语义嵌入;所述预处理包括:文档分割和预训练语言模型的处理。
4、根据预处理后的文本,采用因果驱动的证据语义模型和因果驱动的标签语义模型,基于连续优化的notears因果发现算法以及l层r-gcn图神经网络,确定去噪后证据信息和语义增强后的标签信息。
5、根据去噪后证据信息和语义增强后的标签信息进行双向语义匹配,并将双向语义匹配的匹配分数进行聚合,得到综合打分;根据综合打分进行实体关系抽取。
6、可选地,所述对证据信息的输入文本和所有待分类关系类别标签进行预处理,得到预处理后的文本,具体包括:对证据信息的输入文本采用分割工具分割为m个edu。
7、在每个edu和待分类关系类别标签的开头和结尾插入[cls]和[sep]标记。
8、将标记后的数据输入到预训练语言模型,得到预处理后的文本。
9、可选地,所述预训练语言模型为bert或roberta。
10、可选地,所述因果驱动的证据语义模型接收证据edu语义嵌入、上下文edu语义嵌入以及标签语义嵌入;在证据edu语义嵌入和对应的上下文edu语义嵌入间建立edu类型连边;在证据edu语义嵌入与标签、上下文edu语义嵌入与标签间建立语义类型连边。
11、可选地,所述因果驱动的标签语义模型接收实体提及语义嵌入、实体语义嵌入、去噪后的证据edu语义嵌入、去噪后的上下文edu语义嵌入以及标签语义嵌入,在实体提及语义嵌入、实体语义嵌入、去噪后的证据edu语义嵌入、去噪后的上下文edu语义嵌入与对应标签间建立语义类型连边。
12、可选地,所述根据去噪后证据信息和语义增强后的标签信息进行双向语义匹配,并将双向语义匹配的匹配分数进行聚合,得到综合打分,具体包括:根据去噪后证据信息和语义增强后的标签信息,协同注意力机制来计算证据和标签之间的两个方向的彷射矩阵。
13、根据两个方向的彷射矩阵,采用sigmoid函数,整合标签和证据之间的注意力上下文以获得整合之后的综合打分。
14、一种面向立法意见的关键信息抽取系统,包括:数据获取模块,用于获取证据信息的输入文本和所有待分类关系类别标签。
15、预处理模块,用于对证据信息的输入文本和所有待分类关系类别标签进行预处理,得到预处理后的文本;所述预处理后的文本包括:实体提及语义嵌入、实体语义嵌入、证据edu语义嵌入、上下文edu语义嵌入和标签语义嵌入;所述预处理包括:文档分割和预训练语言模型的处理。
16、因果挖掘模块,用于根据预处理后的文本,采用因果驱动的证据语义模型和因果驱动的标签语义模型,基于连续优化的notears因果发现算法以及l层r-gcn图神经网络,确定去噪后证据信息和语义增强后的标签信息。
17、双向语义匹配模块,用于根据去噪后证据信息和语义增强后的标签信息进行双向语义匹配,并将双向语义匹配的匹配分数进行聚合,得到综合打分;根据综合打分进行实体关系抽取。
18、一种面向立法意见的关键信息抽取设备,包括:至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令,当所述计算机程序指令被所述处理器执行时实现所述的一种面向立法意见的关键信息抽取方法。
19、可选地,所述存储器为计算机可读存储介质。
20、根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明所提供的一种面向立法意见的关键信息抽取方法、系统及设备,根据预处理后的文本,采用因果驱动的证据语义模型和因果驱动的标签语义模型,基于连续优化的notears因果发现算法以及l层r-gcn图神经网络,确定去噪后证据信息和语义增强后的标签信息,进而进行双向匹配。本发明基于因果发现的双向匹配的实体关系抽取方法以因果驱动的方式,充分利用文档结构和标签语义的特征克服噪声,并考虑了标签的影响,采用因果驱动的标签语义模型,缓解了长尾分布问题。最后,基于证据和标签语义的双向匹配,生成关系分类的匹配分数进行关系决策,充分利用外部知识解决了数据标签分布不均衡问题。
1.一种面向立法意见的关键信息抽取方法,其特征在于,包括:
2.根据权利要求1所述的一种面向立法意见的关键信息抽取方法,其特征在于,所述对证据信息的输入文本和所有待分类关系类别标签进行预处理,得到预处理后的文本,具体包括:
3.根据权利要求1或2所述的一种面向立法意见的关键信息抽取方法,其特征在于,所述预训练语言模型为bert或roberta。
4.根据权利要求1所述的一种面向立法意见的关键信息抽取方法,其特征在于,所述因果驱动的证据语义模型接收证据edu语义嵌入、上下文edu语义嵌入以及标签语义嵌入;在证据edu语义嵌入和对应的上下文edu语义嵌入间建立edu类型连边;在证据edu语义嵌入与标签、上下文edu语义嵌入与标签间建立语义类型连边。
5.根据权利要求1所述的一种面向立法意见的关键信息抽取方法,其特征在于,所述因果驱动的标签语义模型接收实体提及语义嵌入、实体语义嵌入、去噪后的证据edu语义嵌入、去噪后的上下文edu语义嵌入以及标签语义嵌入,在实体提及语义嵌入、实体语义嵌入、去噪后的证据edu语义嵌入、去噪后的上下文edu语义嵌入与对应标签间建立语义类型连边。
6.根据权利要求1所述的一种面向立法意见的关键信息抽取方法,其特征在于,所述根据去噪后证据信息和语义增强后的标签信息进行双向语义匹配,并将双向语义匹配的匹配分数进行聚合,得到综合打分,具体包括:
7.一种面向立法意见的关键信息抽取系统,其特征在于,包括:
8.一种面向立法意见的关键信息抽取设备,其特征在于,包括:至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令,当所述计算机程序指令被所述处理器执行时实现如权利要求1-6中任一项所述的一种面向立法意见的关键信息抽取方法。
9.根据权利要求8所述的一种面向立法意见的关键信息抽取设备,其特征在于,所述存储器为计算机可读存储介质。