一种中文事件同指消解方法和系统的制作方法
【专利摘要】本发明提出篇章级别的中文事件同指消解方法和系统,该方法和系统能利用篇章知识来识别文档中的事件同指关系。在实现方法上,本发明采用机器学习、全局优化和联合学习推理相结合的方法,利用中文语言知识进行事件同指消解。本发明的中文事件同指消解方法和系统,与现有方法和系统相比,消解性能得到了明显提升。
【专利说明】
一种中文事件同指消解方法和系统
技术领域
[0001]本发明属于自然语言处理领域,特别是涉及一种事件间的同指关系的方法和系统。【背景技术】
[0002]事件是信息表示的一种主要形式,在语言学、认知心理学等多个学科领域引起了广泛地讨论。自然事件是特定的人、物、事在特定的时间、地点相互作用的客观事实,如地震、雪灾、战争等。一篇文章中经常包含许多事件,事件之间存在各种关系,如“同指”关系。 事件的同指关系是一种重要的事件关系,能够有效地结合上下文来理解该事件的详细经过。同指的事件可以相互补充与扩展语义信息,从而获得更多更有用的信息,提高语言理解效果。
[0003]研究事件同指消解,不仅可以更加准确详细的了解语义信息,而且对其他自然语言处理领域具有很大的促进作用。作为事件抽取的后续工作,事件同指消解可以帮助验证事件抽取的效果,进而可以反作用于抽取过程,提高事件抽取性能。同指事件在时序关系上是一致,因此对事件时序关系识别有很大帮助。同指事件具有极高的相似性,在信息抽取、 文本摘要、问答系统等领域有广泛应用。
[0004]早期的共指消解相关研究着重于指代消解与实体同指等领域,主要使用语言学方法进行共指消解。J.Hobbs于1978年提出了 Hobbs代词消解算法,通过分析句法知识和语义信息,使用广度优先搜索从左至右搜索句法树,其执行效果取决于句法分析结果的准确性。 后来,Sidner于1983年提出了中心理论,认为由于篇章连贯性特点,一篇文章的多个表述通常满足一定的变化规律,通过关注句子中心的转换来刻画表述之间的连贯性,进而确定表述之间的共指关系。近年来,基于统计机器学习(Machine Learning)的方法趋于主流,事件同指消解逐渐成为了新的研究热点。下面分别从英文和中文两个方面介绍研究现状。
[0005]英文事件同指消解方法主要使用事件对模型进行研究。其思想是将任意两个事件组成事件对,针对词语、句子、距离等方面提出合理有效的特征,然后使用机器学习方法进行训练与预测,最终完成事件同指消解。Ahn把事件同指消解转化成事件对相似度计算,构建了一个简单的事件对同指消解系统。Be jan等进一步具体化事件对的特征属性,认为事件的结构包含该事件与其他事件之间的关系状态,使用结构化特征进行事件同指消解研究, 并提供了标注规则以及语料库。随着自动内容抽取(Automatic Content Extract1n,ACE) 的发展,ACE语料库逐渐成为研究事件抽取等领域的权威性语料库。Chen等针对ACE语料库, 基于最大熵模型建立了特征压缩的事件对同指消解系统。此外,Chen利用一种谱图聚类算法,将同指事件聚集生成事件关系图,然后对该图进行优化,得到了较高的消解性能。Be jan 等基于非参贝叶斯模型,提出一种新的无监督方法,并在ACE语料库与ECB (EventCorefBank)上分别进行验证。黎耀炳等提出了一种利用中心语信息的共指消解方法,引入先行语与照应语的中心语字符串特征,并提出一种竞争模式的匹配算法。
[0006]然而,基于事件对模型的同指消解,一般假设数据样本是独立的,忽略了事件之间的内在联系,容易造成同指事件链不一致问题。通过优化同指链,可以很好地弥补事件对模型的缺陷,提高同指消解性能。针对实体同指消解问题,Nicolae等根据聚类算法生成实体关系图,然后提出BestCut算法,对该图进行优化,从而完成实体同指消解。Chen等整合7种同指消解器,并提出一种图分割算法优化同指事件链。Sangeetha等使用聚类算法生成事件关系图,然后用Mincut算法对其进行优化。基于图模型对同指链优化,一般是将事件作为顶点,同指关系作为边,经过计算并衡量每一条边做出取舍,然后对分割后的子图再进行评估衡量,最终完成同指消解。图模型优化方法对稀疏图的处理较好,对于稠密图而言,容易造成准确率较高而召回率较低现象。
[0007]目前,采用联合学习模型的方法逐渐增多。Song等提出一种联合学习方法,将事件对分类与事件聚类方法整合,并使用马尔科夫逻辑网络进行全局推理。Lee将事件同指与实体同指消解联合,并在跨文本语料库中得到较高的性能提升。Araki基于结构化感知器将事件触发词识别与事件同指消解联合,并在ProcessBank语料库上进行了验证。针对事件时序关系识别,Chambers在有监督的机器学习基础上,构造了事件时序关系优化推理模型,Xuan 等提出一种联合推理的事件时间链结构,即把一篇文章中的事件按照其发生的时间先后顺序构造成一条完整的事件链,然后加入事件同指关系,使实验结果有了显著地提高。
[0008]相对于英文事件同指问题,中文事件同指消解研究较少,语料库匮乏,并且主要采用事件对模型。由于中英文语言学上的差异,中文词汇较多,一词多义现象十分普遍。而且, 中文语法较为随意,不像英文那么严谨,没有明显的时态、单复数等,即使使用语法分析树也很难掌握语句的重点事件,导致中文事件同指消解的效果偏低。
[0009]在指代消解领域上,胡乃全等针对中文语料库进行了指代消解研究,其采用最大熵模型的机器学习方法建立中文指代消解系统。许荣华在事件抽取的基础上引入了指代消解和信息融合理论,通过指代消解实现数据融合,使单个事件信息更加明确。高俊伟等针对 OntoNotes 3.0中文新闻语料库实现了一个基于SVM的中文名词短语指代消解平台,其思想是将指代消解问题看作为一个二元分类问题,通过分类器判断照应语和每个候选的先行语是否具有指代关系。周炫余针对实体指代研究进行总结,并实现了 5类基本的中文指代消解模型。
[0010]在共指消解领域上,谢永康等针对中文共指消解任务,提出了一种谱聚类方法,该方法使用最大熵模型计算实体对的共指概率,然后以此概率作为相似度进行谱聚类,最终得到实体共指消解结果。李渝勤等针对中文共指消解中不同类别名词短语特征向量的使用差异,提出一种基于特征分选策略的方法。庞宁等针对突发事件新闻,使用了多种语义特征进行共指消解,增加了维基百科的语义相关特征,使得共指消解模型有所提高。
[0011]当前,绝大多数的事件同指消解方法存在两个问题:1)普遍使用事件对模型进行同指消解,将事件对孤立起来。这些方法忽略一篇文章中的多个事件间存在关系,而且事件之间相互影响;2)现有方法研究任务单一,其消解结果在其他应用领域中存在矛盾,难以复用。
[0012]为更好地理解本发明,下面首先对相关名词作相应介绍:[0〇13]实体(Entity): —个语义类别中的对象或对象的集合,如人名、机构名和地名等; [〇〇14]事件(Event):在真实世界中已经/可能/将要发生的事情,一般包括时间、地点和人物等角色,如出生、死亡、地震和车祸等事件;[0〇15] 论元(Argument):参与事件的实体,每个论元在事件中都有对应的角色;
[0016]角色(Role):事件的参与者和属性,一般用论元来填充。如死亡者、死亡时间和事件地点就是死亡事件的角色;[〇〇17]触发词(Trigger):用于识别事件的核心词(一般为动词和名词居多)。如“生于”、 “出生”等就是出生事件触发词;[0〇18]句法分析树(Parsing Tree):对句子中的词语语法功能进行分析,并将其构建成树形结构;[〇〇19] 事件同指消解(Event Coreference Resolut1n):事件同指(或共指)是事件的重要关系,表示两个事件指向同一个事件本体。事件同指消解则是寻找具有同指关系的事件链,同指链中的任意两个事件均具有同指关系;[〇〇2〇] MUC-6评价标准:消息理解会议(Message Understanding Conference,MUC)于 1995年召开的第六次会议中增加了命名实体识别(Named Entities Recognit1n)和指代 (Coreference)任务。该评价标准是一种基于链的算法,通过计算实验结果中共指链的丢失链接来计算召回率(Recall、R)和准确率(Precis1n、P),然后计算综合指标(F-Measure, F)〇
【发明内容】
[0021]为解决上述技术问题,本发明的目的是提供一种篇章级的中文事件同指消解方法和系统,利用全局优化方法融合孤立的事件对,使其消解结果全局最优。
[0022]本发明的中文事件同指消解方法,包括步骤:[〇〇23]S10、对需要进行事件同指消解的原始文本中的每个文档分别调用分词工具、实体识别工具、句法分析工具和事件抽取工具进行词语切分,句法分析和事件抽取,得到测试语料事件集合;
[0024]S20、以文档为单位,分别从预先标注了各类信息的标注语料集合和测试语料集合中抽取所有事件对及其特征信息,得到标注语料特征集合1、2和测试语料特征集合1、2;
[0025]S30、根据标注语料特征集合1中各个事件对的特征,训练一个最大熵事件同指消解模型,再利用所述最大熵事件同指消解模型识别测试语料特征集合1中每个事件对的同指关系,得到事件同指关系第一集合;
[0026]S40、根据标注语料特征集合2中各个事件的特征,训练一个最大熵事件论元识别模型与条件随机场事件论元识别模型,利用所述最大熵事件论元识别模型识别测试语料特征集合2中的每个事件的论元,得到事件论元第一集合1,利用所述条件随机场事件论元识别模型识别测试语料特征集合2中的每个事件的论元,得到事件论元第一集合2;
[0027]S50、以文档为单位,对事件同指关系第一集合中的所有事件对以及事件论元第一集合1中所有事件,利用传递性推理方法、事件触发词推理方法、事件距离推理方法、论元中心词推理方法和论元角色推理方法进行事件同指消解和事件论元识别的联合推理,得到事件同指关系集合和事件论元识别集合。[〇〇28] 进一步的,所述步骤S10还包括:[〇〇29]S101、对需要进行事件同指消解的原始文本中的每个文档调用分词工具切分词语,得到用空格分隔词语的第一文档集合;
[0030]S102、调用实体识别工具对第一文档集合中的每个文档识别文档中的实体并标注实体类型,得到第二文档集合;
[0031]S103、对第二文档集合中的每个文档调用句法分析工具进行句法分析,得到第三文档集合;[〇〇32]S104、对第三文档集合中的每个文档调用事件抽取工具抽取事件及其属性,得到测试语料事件集合。
[0033]进一步的,所述步骤S20中标注语料特征集合1与测试语料特征集合1用于事件同指消解,且不包含事件论元信息;标注语料特征集合2与测试语料特征集合2用于事件论元识别,且不包含事件同指关系信息。[〇〇34] 进一步的,所述步骤S20还包括:
[0035]S201、分别从标注语料集合和测试语料集合中,以文档为单位抽取每个文档中的任意两个事件E1和E2,两两事件构成一个事件对(E1,E2),所有从标注语料集合中抽取的所述事件对构成标注语料事件对集合,所有从测试语料集合中抽取的所述事件对构成测试语料事件对集合;
[0036]S202、分别从标注语料集合和测试语料集合中,以文档为单位抽取每个文档中的候选事件论元,所有从标注语料集合中抽取的候选事件论元构成标注语料论元集合,所有从测试语料集合中抽取的候选事件论元构成测试语料论元集合;
[0037]S203、为标注语料事件对集合中的每个事件对从标注语料集合中抽取所述事件对的基本特征,并加入已标注的事件同指关系,构成标注语料第一特征集合1,为测试语料事件对集合中的每个事件对从测试语料集合中抽取所述事件对的基本特征,构成测试语料第一特征集合1;其中,每个事件对(El,E2)的基本特征集合如下:[〇〇38]<1 = E1的类型-E2的类型>〈2 = E1的子类型-E2的子类型>〈3 = E1的形态-E2的形态X4 = E1的极性-E2的极性>〈5 = E1的泛型-E2的泛型>〈6 = E1的时态-E2的时态>〈7 = E1的触发词>〈8 = E2的触发词>〈9 = E1的触发词词性>〈10 = E2的触发词词性>〈11=E1触发词的句法树深度>〈12 = E2触发词的句法树深度>〈13 = E1触发词的词语位置>〈14 = E2触发词的词语位置>〈15 = E1所在语句>〈16 = E2所在语句>〈17 = E1的实体个数>〈18 = E2的实体个数〉;
[0039]其中,事件同指关系用数字表示,1表示具有同指关系,0表示不具有同指关系;
[0040]S204、为标注语料事件对集合中的每个事件对从标注语料集合中抽取的所述事件对的关系特征,和标注语料第一特征集合1中的所述事件对的基本特征合并,添加到标注语料特征集合1;为测试语料事件对集合中的每个事件对从测试语料集合中抽取所述事件对的关系特征,和测试语料第一特征集合1中的所述事件对的基本特征合并,添加到测试语料特征集合1;其中,每个事件对(El,E2)的关系特征集合如下:[〇〇411<19 = E1类型和E2类型是否相同(0不相同,1相同)X20 = E1触发词与E2触发词语义是否相似(〇不相似,1相似)>〈21=E1触发词词性与E2触发词词性是否一致(0不一致,1 一致)X22 = E1实体与E2实体相同个数X23 = E1实体与E2实体不相同个数X24 = E1实体类型与E2实体类型相同个数X25 = E1实体类型与E2实体类型不相同个数X26 = E1触发词到E2 触发词距离>〈27 = E1触发词的句法分析树深度与E2触发词句法分析树深度差>〈28 = E1与 E2所在语句差>〈29 = E1与E2间隔的事件个数>〈30 = E1与E2间隔的语句差〉;
[0042]其中,两个触发词词语相似度使用语义相似度计算和词语匹配规则;[0〇43]S205、为标注语料论元集合中的每个论元从标注语料集合中抽取所述候选事件论元的基本特征,并加入已标注的事件论元,构成标注语料特征集合2;为测试语料论元集合中的每个论元从测试语料集合中抽取所述候选事件论元的基本特征,构成测试语料特征集合2;其中,每个候选论元的基本特征集合如下:
[0044]〈1 =候选论元>〈2 =实体类型>〈3 =事件触发词>〈4 =触发词词性>〈5 =实体和触发词在语法树中的深度差>〈6 =触发词的前一词+词性>〈7 =触发词的后一词+词性>〈8 =实体前一词+词性>〈9 =实体后一词+词性>〈10 =实体与触发词的相对位置(前或后)>〈11 =实体到触发词的距离>〈12 =实体到触发词的句法分析树>〈13 =触发词和当前实体的依存路径〉;
[0045]其中,事件论元用数字表示,0表示该候选论元不是事件的论元,正数表示该论元的角色类型。[〇〇46] 进一步的,所述步骤S30还包括:[〇〇47]S301、把标注语料特征集合1中的特征作为输入,调用最大熵分类工具训练得到一个最大熵事件同指消解模型,所述最大熵事件同指消解模型包括标注语料特征集合、训练得到的参数和最大熵分类工具;[〇〇48]S302、把测试语料特征集合1中的每个事件对的特征作为输入,调用最大熵事件同指消解模型识别每个所述事件对的同指关系,得到事件同指关系第一集合,所述事件同指关系第一集合中的每个事件对的格式如下:[〇〇49]〈是否同指(0表示不同指,1表示同指),事件E1,事件E2,置信度P>;[〇〇5〇]其中,是否同指与置信度P是最大熵事件同指消解模型的输出结果,置信度P为一个0-1之间分类结果,表示具有同指关系的概率。[0051 ] 进一步的,所述步骤S40还包括:[〇〇52]S401、把标注语料特征集合2中的特征作为输入,调用最大熵分类工具训练得到一个最大熵事件论元识别模型,所述最大熵事件论元识别模型包括标注语料特征集合、训练得到的参数和最大熵分类工具;[〇〇53]S402、把测试语料特征集合2中的每个候选事件论元作为输入,调用最大熵事件论元识别模型识别每个所述候选事件论元,得到事件论元第一集合1;所述事件论元第一集合 1中的每个事件论元的格式如下:[〇〇54]〈论元角色类型A(0表示不是论元),候选事件论元,置信度P>;[〇〇55]其中,论元角色类型A与置信度P是最大熵事件论元识别模型的输出结果,置信度P 为一个0-1的分类结果,表示具有A类型的概率;[〇〇56]S403、把标注语料特征集合2中的特征作为输入,调用条件随机场分类工具训练得到一个条件随机场事件论元识别模型,所述条件随机场事件论元识别模型包括标注语料特征集合、训练得到的参数和条件随机场分类工具;[〇〇57]S404、把测试语料特征集合2中的每个候选事件论元作为输入,调用条件随机场事件论元识别模型识别每个所述候选事件论元,得到事件论元第一集合2,所述事件论元第一集合2中的每个事件论元的格式如下:[〇〇58]〈论元角色类型A(0表示不是论元),候选事件论元,置信度P>;
[0059]其中,论元角色类型A与置信度P是条件随机场事件论元识别模型的输出结果,置信度P为一个o-l的分类结果,表示具有A类型的概率。
[0060] 进一步的,所述步骤S50中涉及事件论元和论元角色的信息由事件论元第一集合1 和事件论元第一集合2共同提供。[0〇61] 进一步的,所述步骤S50还包括:[〇〇62]S501、对于事件同指关系第一集合中的任意三个事件£1,£2 43,如果事件对(£1,E2)和(E2,E3)均为同指事件,则根据事件同指关系具有传递性修改事件同指关系第一集合中的事件对(E1,E3)的同指关系为1,得到新的事件同指关系第一集合;[〇〇63]S502、对于事件同指关系第一集合中的任意一个事件对(E1,E2),如果E1触发词与E2触发词语义相似度一致,并且E1与E2距离非常近,则修改事件同指关系第一集合中的事件对(E1,E1)的同指关系为1,得到新的事件同指关系第一集合;[〇〇64]S503、对于事件同指关系第一集合中的任意一个事件对(E1,E2),如果E1与E2所在语句差表示E1与E2在同一句、相邻句、间隔一句,并且这两个事件的类型在文档中出现次数最多,则修改事件同指关系第一集合中事件对(E1,E2)的同指关系为1,得到新的事件同指关系第一集合,或者,E1与E2之间存在1?2个事件,并且这两个事件的类型在文档中出现次数最多,则修改事件同指关系第一集合中事件对(E1,E2)的同指关系为1,得到新的事件同指关系弟一集合;[〇〇65]S504、对于事件同指关系第一集合中的任意一个事件对(E1,E2),在事件论元第一集合1中找出属于E1的候选论元集合Al 1和在事件论元第一集合2中找出属于E1的候选论元集合A12,取候选论元集合All和候选论元集合A12的交集作为E1的论元集合A1;在事件论元第一集合1中找出属于E2的候选论元集合A21和在事件论元第一集合2中找出属于E2的候选论元集合A22,取候选论元集合A21和候选论元集合A22的交集作为E2的论元集合A2;[〇〇66]如果A1与A2中存在语义相似的论元,并且E1触发词与E2触发词语义相似,则修改事件同指关系第一集合中事件对(E1,E2)的同指关系为1,得到新的事件同指关系第一集合;如果A1与A2中存在相同的论元角色,并且该论元角色在高概率论元角色集合ARG中,且 E1的触发词与E2的触发词语义相似,则修改事件同指关系第一集合中事件对(E1,E2)的同指关系为1,得到新的事件同指关系第一集合;[〇〇67]S505、对于事件同指关系第一集合中的任意一个事件对(E1,E2),如果两个事件具有相同的实体类型,并且这两个实体分别在各事件中充当论元,且论元角色在高概率论元角色集合ARG中,则修改事件同指关系第一集合中事件对(E1,E2)的同指关系为1,得到新的事件同指关系第一集合;[〇〇68]以上S501?S505不区分执行先后顺序,实时动态的更新。[0〇69]进一步的,所述步骤S504中高概率论元角色集合ARG由标注语料特征集合1中取少量数据作为开发集统计得出,具体如下:
[0070]司法类事件:审判者、罪行、被告、人物;[0071 ]受伤或死亡事件:施事者、工具、地点、受害者;[〇〇72]移动类事件:移动者、目的地;[〇〇73]攻击事件:攻击者、目标;[〇〇74] 任意类型事件:职位、时间内。
[0075]本发明的中文事件同指消解系统,包括事件预处理模块10、事件及论元特征抽取模块20、事件同指关系识别模块30、事件论元识别模块40和事件同指消解联合推理模块50, 所述事件预处理模块10包括分词单元101、实体识别单元102、句法分析单元103和事件抽取单元104;所述事件及论元特征抽取模块20包括事件对抽取单元201、事件论元抽取单元 202、事件基本特征抽取单元203、事件对关系特征抽取单元204和事件论元基本特征抽取单元205;所述事件同指关系识别模块30包括事件同指关系模型训练单元301和事件对同指关系识别单元302;所述事件论元识别模块40包括最大熵模型训练单元401、事件论元识别单元402、条件随机场模块训练单元403和事件论元识别单元404;所述事件同指消解联合推理模块50包括传递性推理单元501、触发词推理单元502、事件距离推理单元503、论元中心词推理单元504和论元角色推理单元505。[〇〇76]借由上述方案,本发明采用联合学习与推理方法,利用各种语言知识来消解中文事件同指关系;本发明与现有方法和系统相比,消解性能得到了明显提升;另外,本发明可以充分利用事件之间的各种关系及其多种篇章知识对中文事件同指消解进行识别和推理, 从而提高了事件同指消解的性能。[〇〇77]本发明在基于中文ACE2005语料库中的测试结果表明,本发明的系统比现有方法相比在综合指标F1上提尚了3.55%。
[0078]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段, 并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。【附图说明】
[0079]图1是本发明中文事件同指消解方法的流程图;
[0080]图2是本发明预处理的流程图;[0081 ]图3是本发明抽取事件及论元特征的流程图;[〇〇82]图4是本发明事件对同指关系识别的流程图;[〇〇83]图5是本发明事件论元识别的流程图;
[0084]图6是本发明事件同指消解推理的流程图;
[0085]图7是本发明中文事件同指消解系统的结构图;
[0086]图8是本发明事件预处理模块的结构图;
[0087]图9是本发明事件及论元特征抽取模块的结构图;
[0088]图10是本发明事件同指关系识别模块的结构图;
[0089]图11是本发明事件论元识别模块的结构图;
[0090]图12是本发明事件同指消解推理模块的结构图。【具体实施方式】
[0091]下面结合附图和实施例,对本发明的【具体实施方式】作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
[0092]—种中文事件同指消解方法,如图1所示,包括步骤:[〇〇93]S10、对需要进行事件同指消解的原始文本中每个文档分别调用分词工具、实体识别工具、句法分析工具和事件抽取工具进行词语切分,句法分析和事件抽取,得到测试语料事件集合。
[0094]其中,如图2所示,S10的具体过程如下:
[0095]S101、对需要进行事件同指消解的原始文本中的每个文档调用分词工具切分词语,得到用空格分隔词语的第一文档集合。
[0096]例如:文档“江现冰认为网站公司为延续商业机制,因此相继会有许多公司会有并购的情形。那是大中国公司这边比较特殊,大部分还是packcompany,它不是一个公开上市的公司,所以它会借由并购的方式来延续它的商业机制。我想未来还会看到许多会有这样并购或是收编,或者是靠航,最后可能会形成几个集团的情形。”经过词语切分后为:
[0097]例1:江现冰认为网站公司为延续商业机制,因此相继会有许多公司会有并购的情形。那是大中国公司这边比较特殊,大部分还是packcompany,它不是一个公开上市的公司, 所以它会借由并购的方式来延续它的商业机制。我想未来还会看到许多会有这样并购或是收编,或者是靠航,最后可能会形成几个集团的情形。
[0098]S102、调用实体识别工具对第一文档集合中的每个文档识别文档中的实体并标注实体类型,得到第二文档集合。所述第二文档集合中每个实体标注格式为“实体/实体类型”。[〇〇99]例1经过实体识别后为:
[0100]例2:江现冰/PER认为网站公司/0RG为延续商业机制,因此相继会有许多公司/0RG会有并购的情形。那是大中国/L0C公司/0RG这边比较特殊,大部分/0RG还是packcompany/ 0RG,它/0RG不是一个公开上市的公司/0RG,所以它/0RG会借由并购的方式来延续它/0RG的商业机制。我/PER想未来还会看到许多/0RG会有这样并购或是收编,或者是靠航,最后可能会形成几个集团/0RG的情形。[〇1〇1]其中,实体标签PER、0RG分别表示实体类型人物、组织。
[0102]S103、对第二文档集合中的每个文档调用句法分析工具进行句法分析,得到第三文档集合;
[0103]例2经过句法分析后为:
[0104]例3:((IP(NP(NR 江现冰))(VP(VV 认为)(IP(NP(NN 网站)(NN 公司))(VP(PP(P 为) (IP(VP(VV延续)(NP(NN商业)(NN机制)))))(PU,)(ADVP(AD因此))(ADVP(AD相继))(VP(VV 会)(VP(VE有)(NP(CP(IP(NP(QP(CD许多))(NP(NN公司)))(VP(VV会)(VP(VE有)(NP(NN并购)))))(DEC的))(NP(NN情形))))))))(PU。)))(IP(NP(PN那))(VP(VC是)(IP(NP(NP(NR大中国)(NN公司))(NP(NN这边)))(VP(ADVP(AD比较))(VP(VA特殊))))))(PU,)(IP(NP(NN大部))(VP(ADVP(AD分))(ADVP(AD还))(VP(VC是)(NP(NN packcompany)))))(PU,)(IP(NP(PN 它))(VP(ADVP(AD 不))(VP(VC 是)(NP(CP(IP(NP(NN—个))(VP(ADVP(AD 公开))(VP(VV 上市))))(DEC的))(NP(NN公司))))))(PU,)(IP(ADVP(AD所以))(NP(PN它))(VP(VV会)(VP(VP (W借)(NP(DNP(PP(P由)(NP(NN并购)))(DEG的))(NP(NN方式))))(VP(MSP来)(VP(W延续) (NP(DNP(NP(PN它))(DEG的))(NP(NN商业)(NN机制))))))))((IP(NP(PN我))(VP(W想)(VP (VP(NP(NT未来))(ADVP(AD还))(VP(VV会)(VP( W看到)(IP(VP(VV许)(IP(VP(VP(ADVP(AD 多))(VP(VV 会)(VP(VE 有)(NP(ADJP(JJ 这样))(NP(NN 并购))))))((:(:或是)(¥?(”收编)))))))))(HJ,)(CC或者)(VP(VC是)(NP(CP(IP(PP(P靠)(NP(NN航)))(PU,)(ADVP(AD最后))(VP(VV可能)(VP(VV会)(VP(VV形成)(NP(QP(CD几)(CLP(M个)))(NP(NN集团))))))) (DEC的))(NP(NN 情形))))))(PU。)
[0105]其中,句法分析是指对句子中的词语语法功能进行分析。“NR”、“VV”、“NN”、“P”、 “PU”、“AD”、“VE”、“CD”、“DEC"、“DEG”、“CC"、“M”、“NT”、“MSP”、“VC"、“PN” 和 “JJ” 是句法分析的标签,分别表示专用名词、普通动词、普通名词、介词、标点符号、副词、词“有”、数量词、词 “的”、词“的”、不确定词、单位词、时间词、连接词、确定词、代词和冠词;“IP”、“NP”、“VP”、 “PP”、“ADVP”、“CP”、“QP”、“DNP”、“CLP”,分别表示子句、名词性短语、动词性短语、介词性短语、gU词性短语、词“的”构成的修饰性关系短语、量词性短语、代词短语、单位词短语。
[0106]S104、对第三文档集合中的每个文档调用事件抽取工具抽取事件及其属性,得到测试语料事件集合。
[0107]例3经过事件抽取后,抽取了 3个事件:
[0108]例4:E1:Trigger =并购Etype = Business Args = {许多公司/0RG/0rg}
[0109]E2:Trigger =并购Etype = Business Args = {它/ORG/Org}[〇110] E3: Trigger =形成Etypes = Business Args = {几个集团/0RG/0rg未来/TIME/ Time}[〇111]其中,El是事件的编号,Trigger、Etype和Args分别是该事件的触发词、事件类型和论元集合;每个论元的格式为:论元/实体类型/论元角色。Or g、T ime分别表示论元角色组织、时间。
[0112]S20、以文档为单位,分别从预先标注了各类信息的标注语料集合和测试语料集合中抽取所有事件对及其特征信息,得到标注语料特征集合1、2和测试语料特征集合1、2。标注语料特征集合1与测试语料特征集合1用于事件同指消解,该集合中不包含事件论元信息;标注语料特征集合2与测试语料特征集合2用于事件论元识别,该集合中不包含事件同指关系信息。[〇113]其中,所述标注语料集合是已经标注了实体、句法结构和事件信息的文档集合,每个文档的结构和例1 _例4 一致。
[0114]其中,如图3所示,S20的具体过程如下:
[0115]S201、分别从标注语料集合和测试语料集合中,以文档单位抽取每个文档中的任意两个事件,两两构成一个事件对(如事件E1和E2,可构成(E1,E2)和(E2,E1)两个事件对, 本发明只取其中一个)。所有从标注语料集合中抽取的事件对构成标注语料事件对集合,所有从测试语料集合中抽取的事件对构成测试语料事件对集合。
[0116]需要说明的是,一个文档中任意两个事件可以构成一个事件对,例4中有3个事件, 可以组成3个事件对:(El,E2)、(E2,E3)和(El,E3)。
[0117]S202、分别从标注语料集合和测试语料集合中,以文档单位抽取每个文档中的候选事件论元。所有从标注语料集合中抽取的候选事件论元构成标注语料论元集合,所有从测试语料集合中抽取的论元构成测试语料论元集合。
[0118]如例4中的3个事件:E1、E2和E3。
[0119]S203、为标注语料事件对集合中的每个事件对从标注语料集合中抽取所述事件对的基本特征,并加入已标注的事件同指关系,构成标注语料第一特征集合1;为测试语料事件对集合中的每个事件对从测试语料集合中抽取所述事件对的基本特征,构成测试语料第一特征集合1。其中,每个事件对(El,E2)的基本特征集合如下:[〇12〇]<1 = E1的类型-E2的类型>〈2 = E1的子类型-E2的子类型>〈3 = E1的形态-E2的形态X4 = E1的极性-E2的极性>〈5 = E1的泛型-E2的泛型>〈6 = E1的时态-E2的时态>〈7 = E1的触发词>〈8 = E2的触发词>〈9 = E1触发词词性>〈10 = E2的触发词词性>〈11=E1触发词的句法树深度>〈12 = E2触发词的句法树深度>〈13 = E1触发词的词语位置>〈14 = E2触发词的词语位置>〈15 = E1所在语句X16 = E2所在语句X17 = E1的实体个数X18 = E2的实体个数〉。
[0121]其中,事件同指关系用数字表示,1表示具有同指关系,0表示不具有同指关系。
[0122]例如例4中的事件E1和E2构成事件对(E1,E2)的基本特征如下:
[0123]例5:
[0124]<1 =Business-Business><2 = ElMerge-〇rg-Merge-〇rgX3=Asserted-Asserted >〈4 = Positive-Positive>〈5 = Generic-Generic>〈6 = Unspecifed-Unspecified>〈7 =并购〉
[0125]〈8 =并购 >〈9 =名词〉
[0126]〈1〇 =名词>〈11 = 3>〈12 = 3>〈13 = 304>〈14 = 369>〈15 = 6>〈16 = 7>〈17 = 1>〈18=1>〇
[0127]以上特征部分可由例2-例4中得到,其中特征1-6可由标记语料集合中读取到,特征11、12可由句法分析树中计算得出,特征13-16可由原始文本读取得到。
[0128]S204、为标注语料事件对集合中的每个事件对从标注语料集合中抽取的所述事件对的关系特征,和标注语料第一特征集合1中的所述事件对的基本特征合并,添加到标注语料特征集合1;为测试语料事件对集合中的每个事件对从测试语料集合中抽取所述事件对的关系特征,和测试语料第一特征集合1中的所述事件对的基本特征合并,添加到测试语料特征集合1。其中,每个事件对(E1,E2)的关系特征集合如下:
[0129]<19 = E1类型和E2类型是否相同(0不相同;1相同)X20 = E1触发词与E2触发词语义是否相似(〇不相似;1相似)>〈21=E1触发词词性与E2触发词词性是否一致(0不一致;1一致)X22 = E1实体与E2实体相同个数X23 = E1实体与E2实体不相同个数X24 = E1实体类型与E2实体类型相同个数X25 = E1实体类型与E2实体类型不相同个数X26 = E1触发词到E2 触发词距离>〈27 = E1触发词的句法分析树深度与E2触发词句法分析树深度差>〈28 = E1与 E2所在语句差>〈29 = E1与E2间隔的事件个数>〈30 = E1与E2间隔的语句差〉。
[0130]其中,两个触发词词语相似度使用语义相似度计算和词语匹配规则。
[0131]例如,例4中事件E1和E2构成事件对(E1,E2)的关系特征如下:
[0132]例6:
[0133]<19 = 1X20 = 1X21 = 1X22 = 1X23 = 0X24= 1><25 = 0><26 = 65><27 = 0><28 = 1>〈29 = 0>〈30 = 0>。
[0134]其中触发词语义相似计算方法使用语义相似度计算和词语匹配规则,前者可直接调用计算工具;后者匹配规则如下:
[0135]①如果两个词语从字符串角度上一样,则认为一致;
[0136]②否则,计算语义相似度,其结果大于等于0.5则认为一致;
[0137]③否则,如果具有相同前缀、后缀,则认为一致(如举行、举办;大选、民选);
[0138]④否则,如果词语为三字以内,含有相同字则认为一致(如募捐、捐款);
[0139]否则,则认为词语不一致。[〇14〇]事件E1与E2的触发词都为“并购”,经语义相似度计算为1.0,本发明归一为0-1整数,所以特征19为1。若有两个触发词经计算,相似度较小,则进行以上词语匹配规则。
[0141]把基本特征和关系合并,得到事件对E1和E2的特征集合{1?30}。
[0142]S205、为标注语料论元集合中的每个论元从标注语料集合中抽取所述候选事件论元的基本特征,并加入已标注的事件论元,构成标注语料特征集合2;为测试语料论元集合中的每个论元从测试语料集合中抽取所述候选事件论元的基本特征,构成测试语料特征集合2。其中,每个候选论元的基本特征集合如下:
[0143]〈1 =候选论元>〈2 =实体类型>〈3 =事件触发词>〈4 =触发词词性>〈5 =实体和触发词在语法树中的深度差>〈6 =触发词的前一词+词性>〈7 =触发词的后一词+词性>〈8 =实体前一词+词性>〈9 =实体后一词+词性>〈10 =实体与触发词的相对位置(前或后)>〈11 =实体到触发词的距离>〈12 =实体到触发词的句法分析树>〈13 =触发词和当前实体的依存路径〉
[0144]其中,事件论元用数字表示,0表示该候选论元不是事件的论元,正数表示该论元的角色类型。
[0145]例如,例4中的事件及论元信息,具体可以表示如下:
[0146]例7:〈1 =公司>〈2 = 0RG>〈3 =并购>〈4 = NN>〈5 = 1>〈6 =有+VE>〈7 =的+DEC>
[0147]〈8 =有+¥£>〈9 =会+”>
[0148]〈10 =前>〈ll = l>〈12 = NP~BP~VP~VP~NPX13 = dobrnsubj>〇
[0149]其中特征1 -12可由例1 -5中获取,特征13可由依存句法分析工具得出。
[0150]S30、根据标注语料特征集合1中各个事件对的特征,训练一个最大熵事件同指消解模型;再利用所述最大熵事件同指消解模型识别测试语料特征集合1中每个事件对的同指关系,得到事件同指关系第一集合。
[0151]其中,如图4所示,S30的具体过程如下:
[0152]S301、把标注语料特征集合1中的特征作为输入,调用最大熵分类工具训练得到一个最大熵事件同指消解模型;所述最大熵事件同指消解模型包括标注语料(训练集)特征集合、训练得到的参数和最大熵分类工具。
[0153]标注语料特征集合1中的特征的例子如例5、6所示,另外,每对事件对带有是否同指的标签。利用最大熵分类工具,如Mallet或Maxent等,可以训练得到一个最大熵事件同指消解模型。
[0154]S302、把测试语料特征集合1中的每个事件对的特征作为输入,调用最大熵事件同指消解模型识别每个所述事件对的同指关系,得到事件同指关系第一集合。所述事件同指关系第一集合中的每个事件对的格式如下:
[0155]〈是否同指(0表示不同指;1表示同指),事件E1,事件E2,置信度P>
[0156]其中,是否同指与置信度P是最大熵事件同指消解模型的输出结果,置信度P为一个0-1之间分类结果,表示具有同指关系的概率。
[0157]例如:以下是对例4中的事件进行同指消解识别的输出结果:
[0158]例8:1E1,E2,0.973
[0159]0E2,E3,0.274
[0160]0E1,E3,0.167[〇161]注意,无论分类结果为同指(标签为1)还是不同指(标签为0),其置信度都表示具有同指关系的概率。
[0162]S40、根据标注语料特征集合2中各个事件的特征,训练一个最大熵事件论元识别模型与条件随机场事件论元识别模型;利用所述最大熵事件论元识别模型识别测试语料特征集合2中的每个事件的论元,得到事件论元第一集合1;利用所述条件随机场事件论元识别模型识别测试语料特征集合2中的每个事件的论元,得到事件论元第一集合2。
[0163]其中,如图5所示,S40的具体过程如下:
[0164]S401、把标注语料特征集合2中的特征作为输入,调用最大熵分类工具训练得到一个最大熵事件论元识别模型;所述最大熵事件论元识别模型包括标注语料(训练集)特征集合、训练得到的参数和最大熵分类工具。
[0165]标注语料特征集合2中的特征的例子如例7所示,另外每个候选论元带有论元角色的类别,其中〇表示不是论元。利用最大熵分类工具,可以训练得到最大熵事件论元识别模型。
[0166]S402、把测试语料特征集合2中的每个候选事件论元作为输入,调用最大熵事件论元识别模型识别每个所述候选事件论元,得到事件论元第一集合1。所述事件论元第一集合 1中的每个事件论元的格式如下:
[0167]〈论元角色类型A(0表示不是论元),候选事件论元,置信度P>
[0168]其中,论元角色类型A与置信度P是最大熵事件论元识别模型的输出结果,置信度P 为一个0-1的分类结果,表示具有A类型的概率。
[0169]例如:例4中的论元及候选论元识别后的输出结果:
[0170]例9:1A1,0.864
[0171]0A2,0.326
[0172]0A3,0.293
[0173]???
[0174]S403、把标注语料特征集合2中的特征作为输入,调用条件随机场分类工具训练得到一个条件随机场事件论元识别模型;所述条件随机场事件论元识别模型包括标注语料 (训练集)特征集合、训练得到的参数和条件随机场分类工具。
[0175]标注语料特征集合2中的特征的例子如例7所示,另外每个候选论元带有论元角色的类别,其中〇表示不是论元。利用条件随机场工具,可以训练得到条件随机场事件论元识别模型。
[0176]S404、把测试语料特征集合2中的每个候选事件论元作为输入,调用条件随机场事件论元识别模型识别每个所述候选事件论元,得到事件论元第一集合2。所述事件论元第一集合2中的每个事件论元的格式如下:
[0177]〈论元角色类型A(0表示不是论元),候选事件论元,置信度P>
[0178]其中,论元角色类型A与置信度P是条件随机场事件论元识别模型的输出结果,置信度P为一个0-1的分类结果,表示具有A类型的概率。
[0179]例如:例4中的论元及候选论元识别后的输出结果:
[0180]例10:1A1,0.927
[0181]0A2,0.226
[0182]0A3,0.249
[0183]???
[0184]S50、以文档为单位,对事件同指关系第一集合中的所有事件对以及事件论元第一集合1中所有事件,利用传递性推理方法、事件触发词推理方法、事件距离推理方法、论元中心词推理方法和论元角色推理方法进行事件同指消解和事件论元识别的联合推理,得到事件同指关系集合和事件论元识别集合;其中,涉及事件论元和论元角色的信息由事件论元第一集合1和事件论元第一集合2共同提供。
[0185]其中,如图6所示,S50的具体过程如下:
[0186]S501、对于事件同指关系第一集合中的任意三个事件£1,£2 43,如果事件对(£1, E2)和(E2,E3)均为同指事件,则根据事件同指关系具有传递性修改事件同指关系第一集合中的事件对(E1,E3)的同指关系为1,得到新的事件同指关系第一集合。
[0187]例如,假设有以下分类结果:
[0188]例11:1E1,E2,0.9
[0189]1E2,E3,0.8
[0190]0E1,E3,0.4
[0191]由于同指关系具有传递性,事件El与E2同指,E2与E3同指,则根据传递性推理将事件E1与E3修改为同指,SME1,E3,1。
[0192]S502、对于事件同指关系第一集合中的任意一个事件对(El,E2),如果El触发词与 E2触发词语义相似度一致,并且E1与E2距离非常近,则修改事件同指关系第一集合中的事件对(E1,E1)的同指关系为1,得到新的事件同指关系第一集合。
[0193]假设存在以下事件E1和E2,
[0194]例12:两国首脑在巴黎举行会议(E1)。会议(E2)中讨论了双边贸易问题。
[0195]在以上例12中,事件“会议”的触发词语义相似度一致,并且距离非常近,则修改事件同指关系第一集合中的事件对(E1,E2)的同指关系为1,其置信度也为1。
[0196]S503、对于事件同指关系第一集合中的任意一个事件对(E1,E2),如果E1与E2所在语句差为〇、1、2(即表示E1与E2在同一句、相邻句、间隔一句),并且这两个事件的类型在该文档中出现次数最多,则修改事件同指关系第一集合中事件对(E1,E2)的同指关系为1,得到新的事件同指关系第一集合。或者,E1与E2之间存在1?2个事件,并且这两个事件的类型在该文档中出现次数最多,则修改事件同指关系第一集合中事件对(E1,E2)的同指关系为 1,得到新的事件同指关系第一集合。
[0197]如例12所示,假设该文档中会议事件(事件类型为会见Meeting)出现最多,则可以对例12中的事件对(E1,E2)进行推理。事件E1、E2在相邻句,则修改事件同指关系第一集合中事件对(El,E2)的同指关系为1,得到新的事件同指关系第一集合。
[0198]再如,假设例12中的事件E1、E2所在语句差大于2,但两个事件之间并无其他事件间隔,则修改事件同指关系第一集合中事件对(E1,E2)的同指关系为1,得到新的事件同指关系第一集合。
[0199]S504、对于事件同指关系第一集合中的任意一个事件对(E1,E2),在事件论元第一集合1中找出属于E1的候选论元集合Al 1和在事件论元第一集合2中找出属于E1的候选论元集合A12,取两个的交集作为E1的论元集合A1;在事件论元第一集合1中找出属于E2的候选论元集合A21和在事件论元第一集合2中找出属于E2的候选论元集合A22,取两个的交集作为E2的论元集合A2。
[0200]如果A1与A2中存在语义相似的论元,并且E1触发词与E2触发词语义相似,则修改事件同指关系第一集合中事件对(E1,E2)的同指关系为1,得到新的事件同指关系第一集合;如果A1与A2中存在相同的论元角色,并且该论元角色在高概率论元角色集合ARG中,且 E1的触发词与E2的触发词语义相似,则修改事件同指关系第一集合中事件对(E1,E2)的同指关系为1,得到新的事件同指关系第一集合。
[0201]其中,高概率论元角色集合ARG由标注语料特征集合1中取少量数据作为开发集统计得出。具体如下:
[0202]司法类事件:审判者、罪行、被告、人物;[0203 ]受伤或死亡事件:施事者、工具、地点、受害者;
[0204]移动类事件:移动者、目的地;
[0205]攻击事件:攻击者、目标;
[0206]任意类型事件:职位、时间内。[〇2〇7]例如:
[0208]例13:杨富家(A1)教授起程赴世界著名大学英国诺丁汉大学(A2)就任(E1)校长 (A3)。他(A4)说,诺丁汉大学(A5)聘请我担任(E2)校长(A6),表明中国教育水平和管理水平取得显著成就并得到国际上的广泛认可。
[0209]事件Er‘就任”与事件E2“担任”互为同指事件,尽管“杨富家教授”、“他”作为事件论元,并且从语义上讲,两个论元相同,但对于一般的论元识别模型,很难把两个论元识别为相同。然而,“诺丁汉大学”以及“校长”分别作为事件地点(Place)论元和职位(Posit1n) 论元,而这两个论元在两个事件中均存在,并且论元角色相同。因此通过该推理规则可将事件同指关系第一集合中事件对(E1,E2)的同指关系为1,得到新的事件同指关系第一集合。 [〇21〇]S505、对于事件同指关系第一集合中的任意一个事件对(E1,E2),如果两个事件具有相同的实体类型,并且这两个实体分别在各事件中充当论元,且论元角色在高概率论元角色集合ARG中,则修改事件同指关系第一集合中事件对(E1,E2)的同指关系为1,得到新的事件同指关系第一集合。
[0211]例如:[〇212]例14:以色列(ET1) —辆轿车20号在加沙走廊(ET2)遭到卡车撞击(E1),造成两名以色列成年人受伤。这起车祸(E2)发生在加沙走廊南部附近(ET3),由以色列全面掌控的区域(ET4)。[〇213] 其中实体ET1-ET4的类型为地点〇^&^〇11,11)〇,并在两个事件£142中,充当事件论元(其他实体不充当事件论元,故没有标出)。因此修改事件同指关系第一集合中事件对(El,E2)的同指关系为1,得到新的事件同指关系第一集合。[〇214]以上S501?S505并不区分执行先后顺序,为实时动态的更新,牵一发而动全身。即当S505执行后,如果发现此时有事件对符合S501,则再一次进行S501的推理。
[0215]—种中文事件同指消解系统如图7所示,包括事件预处理模块10、事件及论元特征抽取模块20、事件同指关系识别模块30、事件论元识别模块40、事件同指消解联合推理模块 50,各模块的工作原理分别对应上述的中文事件同指消解方法的步骤S10?S50。
[0216]其中,如图8所示,事件预处理模块10包括分词单元101、实体识别单元102、句法分析单元103、事件抽取单元104,各单元的工作的原理分别对应上述步骤S10中的S101? S104〇
[0217]其中,如图9所示,事件及论元特征抽取模块20包括事件对抽取单元201、事件论元抽取单元202、事件基本特征抽取单元203、事件对关系特征抽取单元204、论元基本特征抽取单元205,各单元的工作的原理分别对应上述步骤S20中的S201?S205。
[0218]其中,如图10所示,事件同指关系识别模块30包括事件同指关系模型训练单元 301、事件对同指关系识别单元302,各单元的工作原理分别对应上述步骤S30中的S301? S302〇[〇219]其中,如图11所示,事件论元识别模块40包括最大熵模型训练单元401、事件论元识别单元402、条件随机场模型训练单元403、事件论元识别单元404,各单元的工作原理分别对应上述步骤S40中的S401?S404。[〇22〇]其中,如图12所示,事件同指消解联合推理模块50包括传递性推理单元501、触发词推理单元502、事件距离推理单元503、论元中心词推理单元504、论元角色推理单元505, 各单元的工作原理分别对应上述步骤S50中的S501?S505。以上单元501?505并不区分执行先后顺序,为实时动态的更新,牵一发而动全身。即当单元505执行后,如果发现此时有事件对符合单元501,则再一次进行单元501的推理。
[0221]以上所述仅是本发明的优选实施方式,并不用于限制本发明,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。
【主权项】
1.一种中文事件同指消解方法,其特征在于,包括步骤:S10、对需要进行事件同指消解的原始文本中的每个文档分别调用分词工具、实体识别 工具、句法分析工具和事件抽取工具进行词语切分,句法分析和事件抽取,得到测试语料事 件集合;S20、以文档为单位,分别从预先标注了各类信息的标注语料集合和测试语料集合中抽 取所有事件对及其特征信息,得到标注语料特征集合1、2和测试语料特征集合1、2;S30、根据标注语料特征集合1中各个事件对的特征,训练一个最大熵事件同指消解模 型,再利用所述最大熵事件同指消解模型识别测试语料特征集合1中每个事件对的同指关 系,得到事件同指关系第一集合;S40、根据标注语料特征集合2中各个事件的特征,训练一个最大熵事件论元识别模型 与条件随机场事件论元识别模型,利用所述最大熵事件论元识别模型识别测试语料特征集 合2中的每个事件的论元,得到事件论元第一集合1,利用所述条件随机场事件论元识别模 型识别测试语料特征集合2中的每个事件的论元,得到事件论元第一集合2;S50、以文档为单位,对事件同指关系第一集合中的所有事件对以及事件论元第一集合 1中所有事件,利用传递性推理方法、事件触发词推理方法、事件距离推理方法、论元中心词 推理方法和论元角色推理方法进行事件同指消解和事件论元识别的联合推理,得到事件同 指关系集合和事件论元识别集合。2.根据权利要求1所述的中文事件同指消解方法,其特征在于,所述步骤S10还包括:5101、对需要进行事件同指消解的原始文本中的每个文档调用分词工具切分词语,得 到用空格分隔词语的第一文档集合;5102、调用实体识别工具对第一文档集合中的每个文档识别文档中的实体并标注实体 类型,得到第二文档集合;5103、对第二文档集合中的每个文档调用句法分析工具进行句法分析,得到第三文档集合;5104、对第三文档集合中的每个文档调用事件抽取工具抽取事件及其属性,得到测试 语料事件集合。3.根据权利要求1所述的中文事件同指消解方法,其特征在于:所述步骤S20中标注语 料特征集合1与测试语料特征集合1用于事件同指消解,且不包含事件论元信息;标注语料 特征集合2与测试语料特征集合2用于事件论元识别,且不包含事件同指关系信息。4.根据权利要求2所述的中文事件同指消解方法,其特征在于,所述步骤S20还包括:5201、分别从标注语料集合和测试语料集合中,以文档为单位抽取每个文档中的任意 两个事件E1和E2,两两事件构成一个事件对(E1,E2),所有从标注语料集合中抽取的所述事 件对构成标注语料事件对集合,所有从测试语料集合中抽取的所述事件对构成测试语料事 件对集合;5202、分别从标注语料集合和测试语料集合中,以文档为单位抽取每个文档中的候选 事件论元,所有从标注语料集合中抽取的候选事件论元构成标注语料论元集合,所有从测 试语料集合中抽取的候选事件论元构成测试语料论元集合;5203、为标注语料事件对集合中的每个事件对从标注语料集合中抽取所述事件对的基 本特征,并加入已标注的事件同指关系,构成标注语料第一特征集合1,为测试语料事件对集合中的每个事件对从测试语料集合中抽取所述事件对的基本特征,构成测试语料第一特 征集合1;其中,每个事件对(El,E2)的基本特征集合如下:<1=E1的类型-E2的类型X2 = E1的子类型-E2的子类型X3 = E1的形态-E2的形态>〈4 =E1的极性-E2的极性>〈5 = E1的泛型-E2的泛型X6 = E1的时态-E2的时态>〈7 = E1的触发 词>〈8 = E2的触发词>〈9 = E1的触发词词性>〈10 = E2的触发词词性>〈11 = E1触发词的句法 树深度>〈12 = E2触发词的句法树深度>〈13 = E1触发词的词语位置>〈14 = E2触发词的词语 位置X15 = E1所在语句X16 = E2所在语句X17 = E1的实体个数X18 = E2的实体个数〉;其中,事件同指关系用数字表不,1表不具有同指关系,〇表不不具有同指关系;5204、为标注语料事件对集合中的每个事件对从标注语料集合中抽取的所述事件对的 关系特征,和标注语料第一特征集合1中的所述事件对的基本特征合并,添加到标注语料特 征集合1;为测试语料事件对集合中的每个事件对从测试语料集合中抽取所述事件对的关 系特征,和测试语料第一特征集合1中的所述事件对的基本特征合并,添加到测试语料特征 集合1;其中,每个事件对(El,E2)的关系特征集合如下:<19 = E1类型和E2类型是否相同(〇不相同,1相同)>〈20 = E1触发词与E2触发词语义是 否相似(〇不相似,1相似)>〈21=E1触发词词性与E2触发词词性是否一致(0不一致,1 一致)> <22 = E1实体与E2实体相同个数X23 = E1实体与E2实体不相同个数X24 = E1实体类型与E2 实体类型相同个数>〈25 = E1实体类型与E2实体类型不相同个数>〈26 = E1触发词到E2触发 词距离>〈27 = E1触发词的句法分析树深度与E2触发词句法分析树深度差>〈28 = E1与E2所 在语句差>〈29 = E1与E2间隔的事件个数>〈30 = E1与E2间隔的语句差〉;其中,两个触发词词语相似度使用语义相似度计算和词语匹配规则;5205、为标注语料论元集合中的每个论元从标注语料集合中抽取所述候选事件论元的 基本特征,并加入已标注的事件论元,构成标注语料特征集合2;为测试语料论元集合中的 每个论元从测试语料集合中抽取所述候选事件论元的基本特征,构成测试语料特征集合2; 其中,每个候选论元的基本特征集合如下:〈1 =候选论元>〈2 =实体类型>〈3 =事件触发词>〈4 =触发词词性>〈5 =实体和触发词 在语法树中的深度差>〈6 =触发词的前一词+词性>〈7 =触发词的后一词+词性>〈8 =实体前 一词+词性>〈9 =实体后一词+词性>〈10 =实体与触发词的相对位置(前或后)>〈11 =实体到 触发词的距离>〈12 =实体到触发词的句法分析树>〈13 =触发词和当前实体的依存路径〉;其中,事件论元用数字表示,〇表示该候选论元不是事件的论元,正数表示该论元的角 色类型。5.根据权利要求1所述的中文事件同指消解方法,其特征在于,所述步骤S30还包括:5301、把标注语料特征集合1中的特征作为输入,调用最大熵分类工具训练得到一个最 大熵事件同指消解模型,所述最大熵事件同指消解模型包括标注语料特征集合、训练得到 的参数和最大熵分类工具;5302、把测试语料特征集合1中的每个事件对的特征作为输入,调用最大熵事件同指消 解模型识别每个所述事件对的同指关系,得到事件同指关系第一集合,所述事件同指关系 第一集合中的每个事件对的格式如下:〈是否同指(〇表示不同指,1表示同指),事件E1,事件E2,置信度P>;其中,是否同指与置信度P是最大熵事件同指消解模型的输出结果,置信度P为一个0-1之间分类结果,表示具有同指关系的概率。6.根据权利要求1所述的中文事件同指消解方法,其特征在于,所述步骤S40还包括:5401、把标注语料特征集合2中的特征作为输入,调用最大熵分类工具训练得到一个最 大熵事件论元识别模型,所述最大熵事件论元识别模型包括标注语料特征集合、训练得到 的参数和最大熵分类工具;5402、把测试语料特征集合2中的每个候选事件论元作为输入,调用最大熵事件论元识 别模型识别每个所述候选事件论元,得到事件论元第一集合1;所述事件论元第一集合1中 的每个事件论元的格式如下:〈论元角色类型A(0表示不是论元),候选事件论元,置信度P>;其中,论元角色类型A与置信度P是最大熵事件论元识别模型的输出结果,置信度P为一 个0-1的分类结果,表示具有A类型的概率;5403、把标注语料特征集合2中的特征作为输入,调用条件随机场分类工具训练得到一 个条件随机场事件论元识别模型,所述条件随机场事件论元识别模型包括标注语料特征集 合、训练得到的参数和条件随机场分类工具;5404、把测试语料特征集合2中的每个候选事件论元作为输入,调用条件随机场事件论 元识别模型识别每个所述候选事件论元,得到事件论元第一集合2,所述事件论元第一集合 2中的每个事件论元的格式如下:〈论元角色类型A(0表示不是论元),候选事件论元,置信度P>;其中,论元角色类型A与置信度P是条件随机场事件论元识别模型的输出结果,置信度P 为一个0-1的分类结果,表示具有A类型的概率。7.根据权利要求1所述的中文事件同指消解方法,其特征在于,所述步骤S50中涉及事 件论元和论元角色的信息由事件论元第一集合1和事件论元第一集合2共同提供。8.根据权利要求7所述的中文事件同指消解方法,其特征在于,所述步骤S50还包括:3501、对于事件同指关系第一集合中的任意三个事件£142 43,如果事件对江142)和(E2,E3)均为同指事件,则根据事件同指关系具有传递性修改事件同指关系第一集合中的 事件对(El,E3)的同指关系为1,得到新的事件同指关系第一集合;5502、对于事件同指关系第一集合中的任意一个事件对(E1,E2),如果E1触发词与E2触 发词语义相似度一致,并且E1与E2距离非常近,则修改事件同指关系第一集合中的事件对 (E1,E1)的同指关系为1,得到新的事件同指关系第一集合;5503、对于事件同指关系第一集合中的任意一个事件对(E1,E2),如果E1与E2所在语句 差表示E1与E2在同一句、相邻句、间隔一句,并且这两个事件的类型在文档中出现次数最 多,则修改事件同指关系第一集合中事件对(E1,E2)的同指关系为1,得到新的事件同指关 系第一集合,或者,E1与E2之间存在1?2个事件,并且这两个事件的类型在文档中出现次数 最多,则修改事件同指关系第一集合中事件对(E1,E2)的同指关系为1,得到新的事件同指 关系第一集合;5504、对于事件同指关系第一集合中的任意一个事件对(El,E2),在事件论元第一集合 1中找出属于E1的候选论元集合Al 1和在事件论元第一集合2中找出属于E1的候选论元集合 A12,取候选论元集合All和候选论元集合A12的交集作为E1的论元集合A1;在事件论元第一 集合1中找出属于E2的候选论元集合A21和在事件论元第一集合2中找出属于E2的候选论元集合A22,取候选论元集合A21和候选论元集合A22的交集作为E2的论元集合A2;如果A1与A2中存在语义相似的论元,并且E1触发词与E2触发词语义相似,则修改事件 同指关系第一集合中事件对(E1,E2)的同指关系为1,得到新的事件同指关系第一集合;如 果A1与A2中存在相同的论元角色,并且该论元角色在高概率论元角色集合ARG中,且E1的触 发词与E2的触发词语义相似,则修改事件同指关系第一集合中事件对(E1,E2)的同指关系 为1,得到新的事件同指关系第一集合;S505、对于事件同指关系第一集合中的任意一个事件对(E1,E2),如果两个事件具有相 同的实体类型,并且这两个实体分别在各事件中充当论元,且论元角色在高概率论元角色 集合ARG中,则修改事件同指关系第一集合中事件对(El,E2)的同指关系为1,得到新的事件 同指关系第一集合;以上S501?S505不区分执行先后顺序,实时动态的更新。9.根据权利要求8所述的中文事件同指消解方法,其特征在于,所述步骤S504中高概率 论元角色集合ARG由标注语料特征集合1中取少量数据作为开发集统计得出,具体如下:司法类事件:审判者、罪行、被告、人物;受伤或死亡事件:施事者、工具、地点、受害者;移动类事件:移动者、目的地;攻击事件:攻击者、目标;任意类型事件:职位、时间内。10.—种中文事件同指消解系统,其特征在于:包括事件预处理模块(10)、事件及论元 特征抽取模块(20)、事件同指关系识别模块(30)、事件论元识别模块(40)和事件同指消解 联合推理模块(50),所述事件预处理模块(10)包括分词单元(101)、实体识别单元(102)、句 法分析单元(103)和事件抽取单元(104);所述事件及论元特征抽取模块(20)包括事件对抽 取单元(201)、事件论元抽取单元(202)、事件基本特征抽取单元(203)、事件对关系特征抽 取单元(204)和事件论元基本特征抽取单元(205);所述事件同指关系识别模块(30)包括事 件同指关系模型训练单元(301)和事件对同指关系识别单元(302);所述事件论元识别模块 (40)包括最大熵模型训练单元(401)、事件论元识别单元(402)、条件随机场模块训练单元 (403)和事件论元识别单元(404);所述事件同指消解联合推理模块(50)包括传递性推理单 元(501)、触发词推理单元(502)、事件距离推理单元(503)、论元中心词推理单元(504)和论 元角色推理单元(505)。
【文档编号】G06F17/27GK106021229SQ201610333173
【公开日】2016年10月12日
【申请日】2016年5月19日
【发明人】滕佳月, 李培峰, 朱巧明, 周国栋, 朱晓旭
【申请人】苏州大学