一种基于论元结构的事件观点挖掘方法

文档序号:30184697发布日期:2022-05-26 17:48阅读:154来源:国知局
一种基于论元结构的事件观点挖掘方法

1.本发明涉及观点挖掘任务,特别是涉及以事件为中心的观点挖掘任务,属于自然语言处理技术领域。


背景技术:

2.观点挖掘是自然语言处理中的一个关键任务,旨在从给定的文本中识别人们对于实体、事件及其子结构的观点和情感。例如,给定句子“xx手机的速度很快”,一个观点挖掘系统应当能够识别出“很快”是作者针对“xx手机”的“速度”的观点。
3.近年来,由于事件的结构难以划分,人们专注于基于实体及其属性的观点挖掘,将其定义为从给定的文本中提取(属性,观点,类型,情感)四元组。例如,在句子“xx手机的速度很快”中,一个以实体为中心的观点挖掘系统将提取出(“速度”,“很快”,性能,正面)的观点四元组。以实体为中心的观点挖掘任务从观点或属性单元素提取发展到四元组提取,已经发展的比较成熟。
4.然而,以实体为中心的观点挖掘任务的任务定义和模型都不能直接应用到以事件为中心的观点挖掘任务当中。首先,以实体为中心的观点主要关注观点持有者的情感极性,而以事件为中心的观点更关注非情感的预测、判断或建议等。第二,以事件为中心的观点有更复杂的结构。给定事件,人们可以表达他们对事件本身、子事件、相关事件和相关实体的看法。第三,以事件为中心的观点具有独特的表达特点。以事件为中心的观点的目标通常不会直接出现在观点文本当中,而以实体为中心的观点的目标通常是显式的。以事件为中心的观点通常出现在长篇新闻和文章当中,其中混杂着大量的事实信息。与之相反,以实体为中心的观点主要出现在简短而集中的评论或者任务当中。因此,需要设计一种以事件为中心的观点挖掘理论框架,使得针对事件的观点能够被细粒度挖掘。


技术实现要素:

5.为克服现有技术中观点挖掘任务无法细粒度挖掘以事件为中心的观点的不足,本发明提出了一种基于论元结构的事件观点挖掘方法,内容包括:1.基于表示分类理论的观点定义; 2.基于论元结构的事件结构划分;3.基于上述观点定义和事件结构的以事件为中心的观点挖掘新任务;4.基于上述任务定义的两阶段任务框架。基于表示分类理论的观点定义能够突破传统观点挖掘任务只研究表达情感的观点的限制,更深入地探究对于事件来说更有价值的观点类别,包括判断、态度、信仰、情感以及建议五个类别。基于论元结构的事件结构划分使得针对事件的观点能够被细粒度挖掘。
6.本发明的技术方案为:
7.一种基于论元结构的事件观点挖掘方法,其步骤包括:
8.1)对于给定的事件e和文档d,从文档d中提取所有与给定事件e有关的观点片段;
9.2)针对每一所述观点片段,从事件e中提取表达观点的事件子结构作为对应所述观点片段的观点对象;
10.3)根据步骤2)的处理结果,得到事件e的事件观点集合t={

,(ok,ak),

|e,d};其中, ok是文档d中的第k个观点片段;ak是观点ok对应的观点对象。
11.进一步的,所述观点片段的观点对象包括事件本身、事件子事件和事件参与者。
12.进一步的,所述事件本身是指观点片段直接针对整个事件发表看法;所述事件子事件是指观点片段针对事件的子事件或相关事件发表看法;所述参与者是指观点片段直接针对事件当中涉及的实体发表看法。
13.进一步的,从文档d中提取所有与给定事件e有关的观点片段的方法为:
14.1)将给定事件e和文档d中的每一句使用bert的通用拼接符号拼接,构造输入:[cls] 事件短语[sep]文档句子[sep];
[0015]
2)将拼接后的文本输入transformer编码器;
[0016]
3)将起始符号[cls]对应的表示输入softmax层进行分类,如果输出结果为1,那么对应句子为与事件e相关的观点句;如果输出结果为0,则不是与事件e相关的观点句;
[0017]
4)将文档d中连续的观点句连接起来得到所述观点片段。
[0018]
进一步的,获取所述观点片段的观点对象的方法为:
[0019]
1)对事件e进行分词,得到分词集合{w1,w2,

,wm};其中,事件e为包含m个词的文本短语,wm为事件e中第m个词;文档d包含n个句子,sn为文档d中第n个句子;
[0020]
2)随意组合事件短语中连续的分词,得到多个子短语;将每一所述子短语作为一待选观点对象;
[0021]
3)将每个待选观点对象与一所述观点片段使用双向编码器表示技术bert的拼接符号拼接,构造输入:[cls]待选观点对象[sep]观点片段[sep];
[0022]
4)将拼接后的文本输入双向编码器表示技术bert获取该待选观点对象与对应所述观点片段的匹配程度,选择匹配程度最高的待选观点对象作为对应所述观点片段的观点对象。
[0023]
进一步的,使用“结巴”中文分词组件对事件e进行分词,得到分词集合{w1,w2,

,wm}。
[0024]
进一步的,所述观点片段的类别包括:判断、态度、信仰、情感和建议。
[0025]
一种服务器,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行上述方法中各步骤的指令。
[0026]
一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述方法的步骤。
[0027]
基于和以实体为中心的观点的不同,本发明为以事件为中心的观点挖掘任务建立了完备的理论框架:
[0028]
1.基于表示分类理论的观点定义
[0029]
对于事件观点挖掘任务来说,用户真正想要了解的不只是简单的正面或负面的情感倾向,还包括对于事件具体的看法和判断。相较于以实体为中心的观点定义,我们需要对以事件为中心的观点进行更广义的诠释。由此,本发明提出了基于表示分类理论的观点定义。
[0030]
本发明首先从观点与事实的区别角度出发,将以事件为中心的观点定义为表达人
或组织对某事件或相关话题的看法的陈述句,并且需要满足具体以下特点:1)基于假设,不能通过包括实践、目击者或文档记录等当下存在的证据被验证是正确还是错误的;2)不是客观存在的,会根据意见持有者的变化而变化。
[0031]
本发明还基于表示分类理论,将以事件为中心的观点定义成以下五种类别:1)判断,比如推断、解释、对事件未来发展的预测;2)态度,比如争议事件的立场和对人、地、事、物的评价;3)信仰,比如上帝是否存在;4)情感,比如开心和恐惧;5)建议,比如作者对读者做法的指导。
[0032]
2.基于论元结构的事件结构划分
[0033]
基于论元结构的事件结构划分使得观点挖掘系统可以针对事件本身、事件子事件、事件相关事件和事件参与者进行观点挖掘,从而使得针对事件的细粒度观点挖掘成为可能。具体地,本发明将事件结构划分成以下三类:1)事件本身,指观点片段直接针对整个事件发表看法;2)子事件,指观点片段针对事件的子事件或相关事件发表看法;3)参与者,指观点片段直接针对事件当中涉及的实体发表看法。
[0034]
3.基于上述观点定义和事件结构的以事件为中心的观点挖掘新任务
[0035]
基于以上的观点定义和事件结构划分,本发明提出并定义以事件为中心的观点挖掘新任务。具体地,给定事件e={w1,w2,

,wm}和文档d={s1,s2,

,sn},任务目标是从文档中提取所有与给定事件有关的观点片段及其类型和对应的具体观点对象,即 (观点,类型,事件子结构)三元组集合t={

,(ok,tk,ak),

|e,d}。其中,事件e为包含m个词的文本短语;文档d是包含n个句子的文章;ok={si,s
i+1
,

,sj|s∈d}是文档中的第k个观点片段;tk是观点ok的观点类型,是判断、态度、信仰、情感和建议中的一种;ak= {w
t
,w
t+1
,

,w
l
|w∈e}是被表达观点对应的事件子结构,即观点ok的观点对象。
[0036]
以事件“交易所暂缓a集团上市”和文档“a集团上市按下暂停键,引发境内外一些人士的猜测和议论。暂缓a集团上市是为了维护资本市场的长期健康发展。a集团当务之急是按监管部门的要求,切实抓紧整改。a集团应该在依法经营、防范风险、社会责任等各方面都作出表率。”为例。事件子结构包括事件本身“交易所暂缓a集团上市”,子事件“a集团上市”和参与者“交易所”、“a集团”。该文档包括两个与事件相关的观点片段,第一个观点片段“暂缓a集团上市是为了维护资本市场的长期健康发展。”是针对事件子结构“交易所暂缓a集团上市”的判断类型的观点,第二个观点片段“a集团当务之急是按监管部门的要求,切实抓紧整改。a集团应该在依法经营、防范风险、社会责任等各方面都作出表率。”是针对事件子结构“a集团”的建议类型的观点。
[0037]
基于上述任务定义,本发明提出了解决以事件为中心的观点挖掘任务的三阶段框架:
[0038]
1.以事件为中心的观点片段提取。给定事件和相关文档,从文档中提取所有与事件相关的观点片段。
[0039]
2.观点类别分类。给定已经提取的观点片段,判断观点片段的类型。
[0040]
3.观点对象提取。基于已经提取的观点片段和给定的事件短语,为每个观点片段从事件短语中提取表达观点的事件子结构作为其观点对象。
[0041]
基于上述两阶段框架,本发明实现基线系统,具体包括:
[0042]
1.以事件为中心的观点片段提取
[0043]
a)将给定事件和文档中的每一句使用基于变换器的双向编码器表示技术bert的通用拼接符号拼接,构造输入:[cls]事件短语[sep]文档句子[sep]。
[0044]
b)将拼接后的文本输入transformer编码器,得到输入中每个单词对应的向量表示。
[0045]
c)取起始符号[cls]对应的表示输入softmax层进行分类,如果输出结果为1,那么该句为与事件相关的观点句;如果输出结果为0,该句则不是与事件相关的观点句。
[0046]
d)将文档中连续的观点句连接起来得到观点片段。
[0047]
2.观点类别分类
[0048]
a)对于观点片段中的每个观点句,取步骤1的步骤c)中[cls]对应的表示输入 softmax层进行分类,输出结果0、1、2、3、4分别代表观点的五种类型,判断、态度、信仰、情感、建议。
[0049]
b)将观点片段中出现最多的句子类型作为对应观点片段的类型。
[0050]
3.观点对象提取
[0051]
a)事件短语分词,使用“结巴”中文分词组件。
[0052]
b)随意组合事件短语中连续的词汇,获取所有事件短语的子短语作为待选观点对象。
[0053]
c)将每个待选观点对象与观点片段使用bert的通用拼接符号拼接,构造输入:[cls]待选观点对象[sep]观点片段[sep]。
[0054]
d)将拼接后的文本输入bert获取待选观点对象与观点片段的匹配程度,选择匹配程度最高的待选观点对象作为最终的观点对象。
[0055]
与现有技术相比,本发明的有益效果是:
[0056]
1.基于表示分类理论的观点定义使得观点挖掘系统能够识别判断、态度、建议和信仰等对事件来说更有价值的观点类别,不局限于带情感的观点。
[0057]
2.基于论元结构的事件结构划分使得观点挖掘系统能够针对给定事件进行细粒度的观点挖掘,不局限于获得针对事件本身的观点,而能够获得更丰富的观点信息,包括针对事件本身、事件参与者、事件子事件以及相关事件的观点。
附图说明
[0058]
图1为针对以事件为中心的观点挖掘任务的三阶段模型架构。
具体实施方式
[0059]
下面结合附图对本发明进行进一步详细描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
[0060]
给定事件“旅游平台公布新疆搜索量一天涨近三倍”和下述文档,以挖掘与该事件相关的观点为例。
[0061]
场景:
[0062]
事件:旅游平台回应新疆搜索量一天涨近三倍
[0063]
文档:(s1)在线旅游平台25日向记者提供的数据显示,“4月新疆去哪”的搜索热度过去24小时在该平台上涨275%。(s2)新疆地大物博,旅游资源丰富,一直是自驾游的热门
选择。(s3)相关负责人表示,随着国内疫情防控形势持续稳定,新疆地广人稀的特点能够满足游客对于卫生品质、私密性的更高要求,因而成为今年游客最为喜爱的目的地之一。 (s4)为了应对大量游客的到来,首先应当改进景区的产品和服务质量。(s5)其次目前从乌鲁木齐到可可托海的航班依旧较少,希望未来能继续加快新疆航空、铁路、公路等领域的基础设施建设,推动新疆旅游的快速发展。
[0064]
实施:
[0065]
(一)基于观点定义,提取文档中所有与事件相关的观点片段。例如给定的文档当中, o1={s2},o2={s3},o3={s4,s5}分别是态度、判断和建议类型的三个观点。
[0066]
(二)基于给定的事件和上述提取的观点片段,为观点片段匹配对应的观点对象。例如针对上述给定的事件和文档,事件“旅游平台回应新疆搜索量一天涨近三倍”包含的事件子结构除提取事件本身外,还包括子事件“新疆搜索量一天涨近三倍”和事件参与者“旅游平台”、“新疆”。最终能够从给定事件和文档中提取出三对(观点,事件子结构)对, {(o1,新疆),(o2,新疆搜索量一天涨近三倍),(o3,新疆搜索量一天涨近三倍)}。其中,o1是作者针对“新疆”的态度,o2是“相关负责人”针对“新疆搜索量一天涨近三倍”的判断,o3是“相关负责人”针对“新疆搜索量一天涨近三倍”的建议。
[0067]
尽管为说明目的公开了本发明的具体实施例,其目的在于帮助理解本发明的内容并据以实施,本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化和修改都是可能的。因此,本发明不应局限于最佳实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1