一种基于事件远程监督的多标签人物关系自动标注方法

文档序号:26263624发布日期:2021-08-13 19:15阅读:105来源:国知局
一种基于事件远程监督的多标签人物关系自动标注方法

本发明涉及自然语言关系抽取技术领域,具体涉及一种基于事件远程监督的多标签人物关系自动标注方法。



背景技术:

基于深度学习方法的人物关系抽取广泛应用于自然语言处理任务中。深度学习方法是数据驱动的,需要更多的标记数据。然而,手工标注方法需要大量的人力和时间,并且数据规模不能满足深度学习方法的需要。远程监督是自动标注人物关系数据集的常用方法之一。它依赖于包含大量三元组的知识库,将句子中的人物实体对与知识库中的实体对进行匹配。然而,三元组知识库的建造是耗时费力的,需穷举所有实体的关系,而且构建的三元组知识库的可移植性很低。于是,一种新的基于事件集的自动标注方法即事件远程监督(esds)被提出。该方法用基于少量事件的知识集代替基于三元组的知识库,这大大降低了自动标注的成本,并提供了相当高的可移植性。然而现有的esds方法,只关注单个人物关系标签的标注,忽略了部分人物关系可能具有多标签的特点。



技术实现要素:

因此,本发明要解决的技术问题在于克服现有技术中的上述缺陷,从而提供一种基于事件远程监督的多标签人物关系自动标注方法。

为此,所述基于事件远程监督的多标签人物关系自动标注方法,具体包括如下步骤:

s1:根据需要构建的人物关系数据集的分类类别,收集影响人物关系的事件;

s2:根据确定的事件,制作对应的事件标注模板:[事件触发词,事件,事件对应的人物关系];

s3:重复s2制作所有人物关系对应的事件标注模板,构建事件模板知识库;

s4:收集原始文本,并进行数据预处理,预处理后的每个句子格式如下[实体1,实体2,句子];

s5:对预处理后的句子利用事件标注模板进行事件标注,当句子包含多个事件触发词时给予句子多个事件标签;

s6:对事件标注后的句子进行人物关系标注;

s7:进行人物关系标注得到的结果形式如下:d=[entity1,entity2,sentence,event,beginningevent,score,interpersonalrelationship],其中entity1和entity2代表句子中的人物实体;sentence表示标注的句子;event表示句子中人物之间的事件,如果event为空则表示当前句子没有对应的事件;beginningevent是指句子中的实体在上文中发生的事件,interpersonalrelationship是句子被标注的人物关系标签;score表示事件和句子之间的可信度;

s8:计算“事件”和“句子”之间的可信度,用s1表示;如果“event”为“na”,则s1为0,“beginningevent”和“句子”之间的可信度用s2表示;计算句子得分ss的如下:

ss=(r1s1-r2(di-d0)+r3s2)/(r1+r2+r3)

其中r1表示s1的权重系数,r2表示句子与beginningevent距离的权重系数,r3表示s2的权重系数,di表示当前句子在文中的索引位置,d0表示beginningevent在文中的索引位置,did0之差表示句子与beginningevent距离;

s9:设定了一个阈值k2,将句子得分ss低于阈值k2的句子丢弃;

s10:经s9处理后,得到最终的人物关系标注。

优选地,s1中人物关系数据集的分类类别包括“夫妻关系”,“亲子关系”“上下级关系”,“朋友关系”;

s1中影响人物关系的事件包括:标志着“夫妻关系”开始的“结婚事件”和标志“夫妻关系”结束的“离婚事件”。

优选地,s4中原始文本包括:人物传记风格语料,小说风格语料,人物传记和小说风格混合语料;

使用nltp工具对原始文本进行分句分词和人物实体的提取,保留句子中大于等于两个人物实体的句子。

优选地,s5中包括:

s5.1:将预处理后的句子按照实体对进行聚类,得到相同实体对的句子集合;

s5.2:接着将句子集合中的词与s3中构建的事件模板知识库做匹配;

s5.3:当句子中包含对应事件的触发词时认为当前句子具有对应的事件标签;

s5.4:经过事件标注后的句子格式如下:[实体1,实体2,句子,[事件1,事件2…]]。

优选地,s6中包括:

s6.1:当经过事件标注后的句子a有对应事件时,则根据事件标注模板直接标注出句子对应的人物关系;

s6.2:当标注的句子b没有对应的事件时,则根据上下文中的事件标注出人物关系。

优选地,句子可对应的多个人物关系标签,满足是可共现的关系。

优选地,“事件”和“句子”之间的可信度s1,采用bert模型训练词嵌入向量并通过余弦相似度来计算。

优选地,所述阈值k2为0.5。

优选地,s11:依据s10中最终的人物关系标注所对应的事件,制作相应的事件标注模板,补充进事件模板知识库。

本发明提供的一种基于事件远程监督的多标签人物关系自动标注方法,通过事件模板知识库匹配得到影响人物关系的事件,再根据多个事件自动推理出人物多标签关系,可以解决人物关系多标签问题,能显著提高多标签人物关系标注的精度,并且具有更加出色的迁移性。同时联合语义特征和距离特征改进了esds方法中的得分机制,进一步提高了人物关系自动标注的精度。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明提供的多标签人物关系自动标注方法的流程示意图;

图2为本发明提供的事件模板知识库的示意图;

图3为本发明提供的基于事件模板知识库自动标注人物多标签关系的流程示意图;

图4为本发明提供的基于语义和距离构建句子得分机制的流程示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。

在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。

此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

本实施例提供一种基于事件远程监督的多标签人物关系自动标注方法,如图1至图4所示,所述方法包括如下步骤:

s1:根据需要构建的人物关系数据集的分类类别,收集影响人物关系的事件;人物关系数据集的分类类别如“夫妻关系”,“亲子关系”“上下级关系”,“朋友关系”;影响人物关系的事件如:标志着“夫妻关系”开始的“结婚事件”和标志“夫妻关系”结束的“离婚事件”。

s2:根据确定的事件,制作对应的事件标注模板:[事件触发词,事件,事件对应的人物关系]。

s3:重复s2制作所有人物关系对应的事件标注模板,构建事件模板知识库。

s4:收集原始文本,如人物传记风格语料,小说风格语料,人物传记和小说风格混合语料;并进行数据预处理,预处理后的每个句子格式如下[实体1,实体2,句子];使用nltp工具对原始文本进行分句分词和人物实体的提取,保留句子中大于等于两个人物实体的句子。

s5:对预处理后的句子利用事件标注模板进行事件标注,当句子包含多个事件触发词时给予句子多个事件标签;具体包括:s5.1:将预处理后的句子按照实体对进行聚类,得到相同实体对的句子集合;s5.2:接着将句子集合中的词与s3中构建的事件模板知识库做匹配;s5.3:当句子中包含对应事件的触发词时认为当前句子具有对应的事件标签;s5.4:经过事件标注后的句子格式如下:[实体1,实体2,句子,[事件1,事件2…]]。

s6:对事件标注后的句子进行人物关系标注;具体包括:s6.1:当经过事件标注后的句子a有对应事件时,则根据事件标注模板直接标注出句子对应的人物关系;s6.2:当标注的句子b没有对应的事件时,则根据上下文中的事件标注出人物关系。如句子的上文中该实体对具有“结婚事件”,句子的下文中该实体对具有“离婚事件”,则句子b对应的是“结婚事件”导致的夫妻关系。

句子可对应的多个关系标签需满足是可共现的关系,如:“上下级关系”和“父子关系”是可共现的,“夫妻关系”和“前夫妻关系”是不可共现的。

s7:进行人物关系标注得到的结果形式如下:d=[entity1,entity2,sentence,event,beginningevent,score,interpersonalrelationship],其中entity1和entity2代表句子中的人物实体;sentence表示标注的句子;event表示句子中人物之间的事件,如果event为空则表示当前句子没有对应的事件;beginningevent是指句子中的实体在上文中发生的事件,interpersonalrelationship是句子被标注的人物关系标签;score表示事件和句子之间的可信度。

s8:计算“事件”和“句子”之间的可信度,用s1表示,采用bert模型训练词嵌入向量并通过余弦相似度来计算;如果“event”为“na”,则s1为0,“beginningevent”和“句子”之间的可信度用s2表示,采用bert模型训练词嵌入向量并通过余弦相似度来计算;计算句子得分ss的如下:

ss=(r1s1-r2(di-d0)+r3s2)/(r1+r2+r3)

其中r1表示s1的权重系数,r2表示句子与beginningevent距离的权重系数,r3表示s2的权重系数,di表示当前句子在文中的索引位置,d0表示beginningevent在文中的索引位置,did0之差表示句子与beginningevent距离。

s9:设定了一个阈值k2,将句子得分ss低于阈值k2的句子丢弃;阈值k2为0.5。

s10:经s9处理后,得到最终的人物关系标注。

s11:依据s10中最终的人物关系标注所对应的事件,制作相应的事件标注模板,补充进事件模板知识库。

在本实施例中,使用人物事件模板知识库代替原本的三元组知识库,弱化了人物实体的作用,提高了方法的可移植性。解决了传统的远程方法因三元组不足导致的错误标注问题。此外人物事件模板的数据量只与待构建的数据集分类类别相关,要远远低于传统方法中三元组的数据集,可以节省大量人力物力。

本实施例提供的这种基于事件远程监督的多标签人物关系自动标注方法,通过事件模板知识库匹配得到影响人物关系的事件,再根据多个事件自动推理出人物多标签关系,可以解决人物关系多标签问题,能显著提高多标签人物关系标注的精度,并且具有更加出色的迁移性。同时联合语义特征和距离特征改进了esds方法中的得分机制,进一步提高了人物关系自动标注的精度。

显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1