一种基于远程监督的关系抽取方法及装置与流程

文档序号:28275794发布日期:2021-12-31 20:44阅读:74来源:国知局
一种基于远程监督的关系抽取方法及装置与流程

1.本技术涉及自然语言处理技术领域,特别的,尤其涉及一种基于远程监督的关系抽取方法及装置。


背景技术:

2.目前,自然语言处理技术的两大关键点就是大规模语料数据的建设,以及语义分析的进一步完善。主流的自然语言处理技术是以统计机器学习为基础的,这就需要大规模的语料库。然而在很多任务中,这些语料库是需要人工构建的,这是非常费力的工作;另外,任何语料库无论大小类型,都难以囊括某个领域的全部案例;而且,语料库的标注体系往往难以把握,类别划分过粗,则无法全面、细致地描述语言,类别划分过细,则标注信息过于庞大、降低标注效率,统计数据的稀疏问题严重,训练出来的模型健壮性差;更进一步的,由于人工标注的语料库毕竟是费时费力的工作,基于统计学的方法则过多地依赖于大规模语料库的支持,性能依赖语料库的优劣,易受数据稀疏和数据噪声的干扰。因此,对于本领域技术人员来说,需要从模型和算法方面去研究如何利用大量的无人工标注或部分标注的数据,来实现关系抽取。


技术实现要素:

3.鉴于上述内容中的问题,本技术提供了一种基于远程监督的关系抽取方法及装置,通过外部知识库代替人对语料进行标注,从而可以低成本地获取大量有标注数据,进而通过分类方法进行关系抽取。
4.为了实现上述目的,本技术提供了以下技术方案:
5.一种基于远程监督的关系抽取方法,包括:
6.获取语料库数据;
7.根据预设海量特征模型对所述语料库数据进行信息抽取,确定所述语料库数据中每个命名实体对共现句子的特征,生成海量特征向量;
8.根据所述海量特征向量检测和识别所述语料库数据中实体之间的语义关系,并将表示同一语义关系的提及链接起来,以实现关系抽取。
9.进一步的,所述预设海量特征模型的构建方法,包括:
10.获取样本数据,所述样本数据为多个语料库的相关数据;
11.从所述样本数据中获取每个命名实体对共现句子的特征,并生成海量特征向量;
12.以所述海量特征向量为输入,使用海量特征训练算法进行模型训练,得到所述预设海量特征模型。
13.更进一步的,所述预设海量特征模型为卷积神经网络模型,则所述预设海量特征模型的构建方法,包括:
14.使用所述卷积神经网络对实体的描述信息进行特征提取,将得到的特征向量作为实体的特征表示;
15.通过多实例学习的方法选取每个包中置信度大于预设值的样例作为正样例进行训练,得到所述预设海量特征模型,所述卷积神经网络模型的训练目标是使得实体的词向量表示和从描述信息得到的实体特征表示保持一致。
16.更进一步的,所述预设海量特征模型为卷积神经网络模型,则所述预设海量特征模型的构建方法,包括:
17.通过word2vec的skip

gram模型将词表示成向量形式,并与位置向量进行拼接,得到拼接向量,所述位置向量为各词与两个实体的相对位置;
18.以所述拼接向量为输入,通过卷积层使用海量特征训练算法进行模型训练,得到所述预设海量特征模型。
19.一种基于远程监督的关系抽取装置,包括:
20.第一处理单元,用于获取语料库数据;
21.第二处理单元,用于根据预设海量特征模型对所述语料库数据进行信息抽取,确定所述语料库数据中每个命名实体对共现句子的特征,生成海量特征向量;
22.第三处理单元,用于根据所述海量特征向量检测和识别所述语料库数据中实体之间的语义关系,并将表示同一语义关系的提及链接起来,以实现关系抽取。
23.进一步的,所述第二处理单元具体用于:
24.获取样本数据,所述样本数据为多个语料库的相关数据;
25.从所述样本数据中获取每个命名实体对共现句子的特征,并生成海量特征向量;
26.以所述海量特征向量为输入,使用海量特征训练算法进行模型训练,得到所述预设海量特征模型。
27.更进一步的,所述第二处理单元具体还用于:
28.使用所述卷积神经网络对实体的描述信息进行特征提取,将得到的特征向量作为实体的特征表示;
29.通过多实例学习的方法选取每个包中置信度大于预设值的样例作为正样例进行训练,得到所述预设海量特征模型,所述卷积神经网络模型的训练目标是使得实体的词向量表示和从描述信息得到的实体特征表示保持一致。
30.更进一步的,所述第二处理单元具体还用于:
31.通过word2vec的skip

gram模型将词表示成向量形式,并与位置向量进行拼接,得到拼接向量,所述位置向量为各词与两个实体的相对位置;
32.以所述拼接向量为输入,通过卷积层使用海量特征训练算法进行模型训练,得到所述预设海量特征模型。
33.一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在的设备执行如上述所述的基于远程监督的关系抽取方法。
34.一种电子设备,所述电子设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行如上述所述的基于远程监督的关系抽取方法。
35.本技术所述的基于远程监督的关系抽取方法及装置,在获取到语料库数据后;根据预设海量特征模型对所述语料库数据进行信息抽取,确定所述语料库数据中每个命名实
体对共现句子的特征,生成海量特征向量;根据所述海量特征向量检测和识别所述语料库数据中实体之间的语义关系,并将表示同一语义关系的提及链接起来,以实现关系抽取。本技术中的海量特征训练模型通过外部知识库代替人对语料进行标注,从而可以低成本地获取大量有标注数据,进而通过分类方法进行关系抽取。
附图说明
36.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
37.图1为本技术实施例公开的一种基于远程监督的关系抽取方法的流程示意图;
38.图2为本技术实施例公开的卷积神经网络模型的结构图;
39.图3为本技术实施例公开的一种基于远程监督的关系抽取装置的结构示意图;
40.图4为本技术实施例公开的一种电子设备的结构示意图。
具体实施方式
41.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
42.请参见附图1,为本技术实施例提供的一种基于远程监督的关系抽取方法流程示意图。如图1所示,本技术实施例提供了一种基于远程监督的关系抽取方法,该方法包括如下步骤:
43.s101:获取语料库数据;
44.本技术实施例中,信息抽取(information extraction,ie)主要是指从文本中抽取出特定的事实信息,例如从经济新闻中抽取新发布产品情况如公司新产品名、发布时间、发布地点、产品情况等,这些被抽取出来的信息通常以结构化的形式直接存入数据库,可以供用户查询及进一步分析使用,为之后构建知识库、智能问答等提供数据支撑。关系抽取(relation extraction)指的是检测和识别文本中实体之间的语义关系,并将表示同一语义关系的提及链接起来的任务。
45.需要说明的是,知识库(knowledge base)是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取;知识库中的知识源于领域专家或者从业者的经验教训,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息,而外部知识库是能够帮助客户自行找到所需的信息的知识库。
46.本技术实施例中,语料通常是一定数量和规模的文本资源集合,语料规模可大可小,大至千万,甚至数亿句或更大,小至几百句,互联网本身就是一个巨大庞杂的语料库;进一步说明,语料根据不同标准可以有很多分类,比如,语料可以是单语语料,也可以是多语种语料。
47.s102:根据预设海量特征模型对所述语料库数据进行信息抽取,确定所述语料库
数据中每个命名实体对共现句子的特征,生成海量特征向量;
48.本技术实施例中,上述实体指独立存在且具有某种区别性的事物,如一个人、一种动物、一个国家、一种植物等。
49.本步骤中,需要对数据进行标注,具体的,数据标注是通过数据加工人员借助类似于basicfinder这样的标记工具,对人工智能学习数据进行加工的一种行为,通常数据标注的类型包括:图像标注、语音标注、文本标注、视频标注等种类,标记的基本形式有标注画框、3d画框、文本转录、图像打点、目标物体轮廓线等。
50.需要说明的是,上述特征向量就是在某个线性变换下方向不变(也可以说具有保角性),其大小不变或乘以某个缩放因子的非零向量。
51.在本步骤中,上述所述预设海量特征模型的构建方法,包括:获取样本数据,所述样本数据为多个语料库的相关数据;从所述样本数据中获取每个命名实体对共现句子的特征,并生成海量特征向量;以所述海量特征向量为输入,使用海量特征训练算法进行模型训练,得到所述预设海量特征模型。
52.进一步的,主要是将结构化数据转化为非结构化数据,而非结构化数据是指其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库,用它不仅可以处理结构化数据(如数字、符号等信息),而且更适合处理非结构化数据(全文文本、图象、声音、影视、超媒体等信息)。
53.海量特征训练算法需要针对每一个命名实体对,找出在海量数据中该命名实体对出现的句子;分析每个句子的特征并组合成一个海量特征向量;在预测时也是基于同样的步骤,首先找出待分类的命名实体对出现的所有句子;分析每个句子的特征并组成海量特征向量;使用这个特征向量来分类。
54.s103:根据所述海量特征向量检测和识别所述语料库数据中实体之间的语义关系,并将表示同一语义关系的提及链接起来,以实现关系抽取。
55.在本技术实施例中,若所述预设海量特征模型为卷积神经网络模型,则所述预设海量特征模型的构建方法,包括:
56.使用所述卷积神经网络对实体的描述信息进行特征提取,将得到的特征向量作为实体的特征表示;
57.通过多实例学习的方法选取每个包中置信度大于预设值的样例作为正样例进行训练,得到所述预设海量特征模型,所述卷积神经网络模型的训练目标是使得实体的词向量表示和从描述信息得到的实体特征表示保持一致。
58.本技术实施例中,可以通过传统卷积神经网络模型来实现预设海量特征模型的构建,主要是针对数据标注错误问题和传统统计模型特征抽取过程中出现的错误提出解决方法,如图2所示,具体的,使用cnn对实体的描述信息进行特征提取,得到的特征向量作为实体的特征表示;通过多示例学习的方法选取每个包中置信度最高的样例作为正样例进行训练,在训练阶段,其目标函数是:需要说明的是,模型的训练目标是使得实体的词向量表示和从描述信息得到的实体特征表示尽可能接近。
59.进一步的,在本技术实施例中,若所述预设海量特征模型为卷积神经网络模型,则所述预设海量特征模型的构建方法,包括:
60.通过word2vec的skip

gram模型将词表示成向量形式,并与位置向量进行拼接,得到拼接向量,所述位置向量为各词与两个实体的相对位置;
61.以所述拼接向量为输入,通过卷积层使用海量特征训练算法进行模型训练,得到所述预设海量特征模型。
62.本技术实施例中,关键在句子权重学习,在得到bag中每个句子的权重后,对bag中所有句子的特征向量进行加权求和,得到bag的特征向量表示;与传统卷积神经网络的区别主要在于池化层的改变。在池化层通过两个实体位置将feature map分为三段进行池化,其目的是为了更好的捕获两个实体间的结构化信息;最后,通过softmax层进行分类。
63.本技术实施例中,在整个开发过程中,包括基于远程监督系统的信息抽取和海量特征训练算法模块两部分。具体的,在开发过程中两个模块之间的交互影响、学习反馈,并最终学习出最优的信息抽取模型是最重要的,也是最核心的部分,当然也是整个规程中最难的部分。正是因为加入了海量特征信息学习体系结构,才使得多源异构数据得以融合,接入文本关键信息的提取平台才能加快协议间的模式匹配,更好的降低标注数据的成本,提高了信息抽取的时效性,更为重要的是实现了海量数据的关键信息抽取以适应不同数据库模式的智能化。
64.本技术实施例提供的基于远程监督的关系抽取方法,在获取到语料库数据后;根据预设海量特征模型对所述语料库数据进行信息抽取,确定所述语料库数据中每个命名实体对共现句子的特征,生成海量特征向量;根据所述海量特征向量检测和识别所述语料库数据中实体之间的语义关系,并将表示同一语义关系的提及链接起来,以实现关系抽取。本技术实施例中的海量特征训练模型通过外部知识库代替人对语料进行标注,从而可以低成本地获取大量有标注数据,进而通过分类方法进行关系抽取。
65.请参阅图3,基于上述实施例公开的一种基于远程监督的关系抽取方法,本实施例对应公开了一种基于远程监督的关系抽取装置,该装置包括:
66.第一处理单元301,用于获取语料库数据;
67.本技术实施例中,信息抽取(information extraction,ie)主要是指从文本中抽取出特定的事实信息,例如从经济新闻中抽取新发布产品情况如公司新产品名、发布时间、发布地点、产品情况等,这些被抽取出来的信息通常以结构化的形式直接存入数据库,可以供用户查询及进一步分析使用,为之后构建知识库、智能问答等提供数据支撑。关系抽取(relation extraction)指的是检测和识别文本中实体之间的语义关系,并将表示同一语义关系的提及链接起来的任务。
68.需要说明的是,知识库(knowledge base)是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取;知识库中的知识源于领域专家或者从业者的经验教训,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息,而外部知识库是能够帮助客户自行找到所需的信息的知识库。
69.本技术实施例中,语料通常是一定数量和规模的文本资源集合,语料规模可大可小,大至千万,甚至数亿句或更大,小至几百句,互联网本身就是一个巨大庞杂的语料库;进一步说明,语料根据不同标准可以有很多分类,比如,语料可以是单语语料,也可以是多语
种语料。
70.第二处理单元302,用于根据预设海量特征模型对所述语料库数据进行信息抽取,确定所述语料库数据中每个命名实体对共现句子的特征,生成海量特征向量;
71.本技术实施例中,上述实体指独立存在且具有某种区别性的事物,如一个人、一种动物、一个国家、一种植物等。
72.本步骤中,需要对数据进行标注,具体的,数据标注是通过数据加工人员借助类似于basicfinder这样的标记工具,对人工智能学习数据进行加工的一种行为,通常数据标注的类型包括:图像标注、语音标注、文本标注、视频标注等种类,标记的基本形式有标注画框、3d画框、文本转录、图像打点、目标物体轮廓线等。
73.需要说明的是,上述特征向量就是在某个线性变换下方向不变(也可以说具有保角性),其大小不变或乘以某个缩放因子的非零向量。
74.第三处理单元303,用于根据所述海量特征向量检测和识别所述语料库数据中实体之间的语义关系,并将表示同一语义关系的提及链接起来,以实现关系抽取。
75.进一步的,所述第二处理单元302具体用于:
76.获取样本数据,所述样本数据为多个语料库的相关数据;
77.从所述样本数据中获取每个命名实体对共现句子的特征,并生成海量特征向量;
78.以所述海量特征向量为输入,使用海量特征训练算法进行模型训练,得到所述预设海量特征模型。
79.主要是将结构化数据转化为非结构化数据,而非结构化数据是指其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库,用它不仅可以处理结构化数据(如数字、符号等信息),而且更适合处理非结构化数据(全文文本、图象、声音、影视、超媒体等信息)。
80.海量特征训练算法需要针对每一个命名实体对,找出在海量数据中该命名实体对出现的句子;分析每个句子的特征并组合成一个海量特征向量;在预测时也是基于同样的步骤,首先找出待分类的命名实体对出现的所有句子;分析每个句子的特征并组成海量特征向量;使用这个特征向量来分类。
81.更进一步的,所述第二处理单元302具体还用于:
82.使用所述卷积神经网络对实体的描述信息进行特征提取,将得到的特征向量作为实体的特征表示;
83.通过多实例学习的方法选取每个包中置信度大于预设值的样例作为正样例进行训练,得到所述预设海量特征模型,所述卷积神经网络模型的训练目标是使得实体的词向量表示和从描述信息得到的实体特征表示保持一致。
84.本技术实施例中,可以通过传统卷积神经网络模型来实现预设海量特征模型的构建,主要是针对数据标注错误问题和传统统计模型特征抽取过程中出现的错误提出解决方法,如图2所示,具体的,使用cnn对实体的描述信息进行特征提取,得到的特征向量作为实体的特征表示;通过多示例学习的方法选取每个包中置信度最高的样例作为正样例进行训
练,在训练阶段,其目标函数是:需要说明的是,模型的训练目标是使得实体的词向量表示和从描述信息得到的实体特征表示尽可能接近。
85.更进一步的,所述第二处理单元302具体还用于:
86.通过word2vec的skip

gram模型将词表示成向量形式,并与位置向量进行拼接,得到拼接向量,所述位置向量为各词与两个实体的相对位置;
87.以所述拼接向量为输入,通过卷积层使用海量特征训练算法进行模型训练,得到所述预设海量特征模型。
88.本技术实施例中,关键在句子权重学习,在得到bag中每个句子的权重后,对bag中所有句子的特征向量进行加权求和,得到bag的特征向量表示;与传统卷积神经网络的区别主要在于池化层的改变。在池化层通过两个实体位置将feature map分为三段进行池化,其目的是为了更好的捕获两个实体间的结构化信息;最后,通过softmax层进行分类。
89.所述基于远程监督的关系抽取装置包括处理器和存储器,上述第一处理单元、第二处理单元和第三处理单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
90.处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来达到通过外部知识库代替人对语料进行标注,从而可以低成本地获取大量有标注数据,进而通过分类方法进行关系抽取的目的。
91.本技术实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述基于远程监督的关系抽取方法。
92.本技术实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述基于远程监督的关系抽取方法。
93.本技术实施例提供了一种电子设备,如图4所示,该电子设备40包括至少一个处理器401、以及与所述处理器连接的至少一个存储器402、总线403;其中,所述处理器401、所述存储器402通过所述总线403完成相互间的通信;处理器401用于调用所述存储器402中的程序指令,以执行上述的所述基于远程监督的关系抽取方法。
94.本文中的电子设备可以是服务器、pc、pad、手机等。
95.本技术还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
96.获取语料库数据;
97.根据预设海量特征模型对所述语料库数据进行信息抽取,确定所述语料库数据中每个命名实体对共现句子的特征,生成海量特征向量;
98.根据所述海量特征向量检测和识别所述语料库数据中实体之间的语义关系,并将表示同一语义关系的提及链接起来,以实现关系抽取。
99.进一步的,所述预设海量特征模型的构建方法,包括:
100.获取样本数据,所述样本数据为多个语料库的相关数据;
101.从所述样本数据中获取每个命名实体对共现句子的特征,并生成海量特征向量;
102.以所述海量特征向量为输入,使用海量特征训练算法进行模型训练,得到所述预设海量特征模型。
103.更进一步的,所述预设海量特征模型为卷积神经网络模型,则所述预设海量特征模型的构建方法,包括:
104.使用所述卷积神经网络对实体的描述信息进行特征提取,将得到的特征向量作为实体的特征表示;
105.通过多实例学习的方法选取每个包中置信度大于预设值的样例作为正样例进行训练,得到所述预设海量特征模型,所述卷积神经网络模型的训练目标是使得实体的词向量表示和从描述信息得到的实体特征表示保持一致。
106.更进一步的,所述预设海量特征模型为卷积神经网络模型,则所述预设海量特征模型的构建方法,包括:
107.通过word2vec的skip

gram模型将词表示成向量形式,并与位置向量进行拼接,得到拼接向量,所述位置向量为各词与两个实体的相对位置;
108.以所述拼接向量为输入,通过卷积层使用海量特征训练算法进行模型训练,得到所述预设海量特征模型。
109.本技术是根据本技术实施例的方法、设备(系统)、计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
110.在一个典型的配置中,设备包括一个或多个处理器(cpu)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。
111.存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram),存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。
112.计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd

rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
113.还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
114.本领域技术人员应明白,本技术的实施例可提供为方法、系统或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd

rom、光学存储器等)上实施的计算机程序产品的形式。
115.以上仅为本技术的实施例而已,并不用于限制本技术。对于本领域技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1