一种跨媒体的事件抽取方法与流程

文档序号:12177142阅读:589来源:国知局

本发明涉及一种基于新闻媒体和社交网络的跨媒体数据环境中的事件抽取方法,属于信息提取领域。



背景技术:

针对新闻事件数据进行科学定量分析已经在态势感知、应急响应、风险预警等社会研究中展开应用。事件数据(Event Data)记录了特定场景中的一次人类活动,包含涉事主体和客体、施事行为、时间、地点、类型、社会学属性等多类要素,通常以多元组形式进行表示,是对现实世界的原子化描述。事件要素的表示类别可分为数字型、描述型、断言型等,数字型数据通常表示事件中的数量信息,描述型数据通常为与事件要素分类的关键词,断言型数据用来表示特定的属性特征。特定主题事件发生前后,新闻媒体和社交网络展开关注,围绕事件的信息通过文本、图像等载体在互联网进行传播,这也使得通过信息提取获得事件数据成为主流方式,形成事件抽取技术。

事件抽取的主要任务是从海量网络数据中发现事件并围绕事件要素进行结构化处理,最终生成可用于机器自动化分析的事件数据,常规的主要处理步骤如下:(1)数据提取,针对不同类别的数据源,建立匹配的数据侦测规则和数据提取接口,并设置规则更新策略应对数据源的接口变化;(2)对原始数据进行预处理,清理数据噪声,对文本、图像、元数据等不同类别数据进行适当的数据封装;(3)结合知识信息和机器学习方法,实现数据的进一步理解,发现与事件要素相关的位置锚点或数据特征,识别并提取事件相关的要素信息;(4)对已经识别的事件要素通过去重、聚类、规范化等一系列处理,生成候选事件数据;(5)事件数据融合,生成精细的结构化事件数据,并集中存储形成事件库。用户可通过统一的事件库访问接口提取事件数据,从而极大简化了数据处理工作,并为研究政治及社会演化提供更大的挖掘空间。

由于新闻文本文章架构统一,语言风格严谨,目前常用的事件抽取方法主要针对新闻媒体中的文本数据,最终生成符合预定格式的事件数据。随着社交网络的普及,用户发布的微博消息成为事件的第一手资料,传播过程中用户自发地补充事件信息,在社交网络中形成了对关键事件的群体效应;同时,社交网络在推动事件演化中逐渐起到重要作用(例如“阿拉伯之春”事件),使得传统的基于新闻文本的事件萃取方法显现出局限性。此外,复杂场景下的事件分析要求抽取事件要素的多样化,重大事件通常引起一系列关联事件,事件发展的联动 关系在传统的新闻数据难以体现,因此需要精细化的事件抽取方法和动态可变的事件数据存储结构。目前尚未发现在综合新闻媒体和社交网络数据进行事件抽取的方法。随着知识关联和机器学习方法的不断成熟,在海量异构跨媒体数据中实现重大事件数据的精确事件抽取具备充分的实现条件。



技术实现要素:

针对上述问题,本发明提供一种跨媒体的事件抽取方法,主要分为知识准备(步骤1)、基础事件要素抽取(步骤2-4)、事件要素扩展(步骤5-9)三个阶段,涵盖了事件初始概要框架、由社交网络信息抽取的候选事件要素和事件融合等方法。主要步骤如下:

(1)设置种子事件特征库及所需的知识数据,包括特定组织、机构、场所、人物等实体要素资料库,关联本体及分类的开放知识图谱资料集,事件行为类别模式库或语料资源等内容。

(2)从设定的可信新闻源中实时采集新闻网页并进行预处理,提取新闻文本及元数据信息。

(3)从每则新闻文本中抽取基础的事件要素信息,生成初始事件数据;并对相似事件数据进行去重或合并,构成初始事件集合。

(4)计算初始事件各要素在事件刻画中的重要程度,生成由基础要素构成的事件初始概要框架。

(5)基于事件的初始概要框架生成社交网络数据的检索框架,采用动态迭代的检索方案实时更新检索框架,提取满足搜索条件的社交网络消息文本,生成候选消息集合。

(6)结合文本语义分析方法,分析候选消息集合中的要素信息及所属分类,分析每个键值对的重要程度,并根据键值对的分析结果生成候选消息的概要框架。

(7)比较候选消息概要框架与事件概要框架的相似度,当满足要求时将候选消息加入到初始事件对应的消息队列。

(8)根据预设的消息排序条件(如社交网络消息的重要程度、发布时间等条件),依次选择消息队列中的键值对作为事件数据的候选事件要素;针对地理坐标等确定性信息,根据已加入消息队列中键值对进行聚类,分析结果加入候选事件要素中。

(9)对上述新闻文本和社交网络数据抽取的候选事件要素,按照时间、地点、实体、类别、结果、规模、社会学属性等方面进一步分类,采用事件融合规则,对事件要素进行规格化整合,生成完备的事件数据。

本发明的积极效果在于:

1、提供了跨媒体数据环境中的多类别事件要素抽取方法,实现了精细化可扩展的事件要素抽取,不仅融入了新闻文本描述规范的优势,抽取事件基础要素;还利用了社交网络文本数据规模大、用户更新、内容覆盖范围广等特性,能够增加事件结果、规模及影响、社会学属性等类别的要素信息。

2、基于事件概要的检索框架和候选消息概要框架的在检索阶段和过滤阶段的双向查询,能够更精准的筛选出与事件相关的社交网络消息。

3、综合了事件要素重要程度对刻画事件的影响,从而保留了更关键可信的事件要素信息。

4、不仅从跨媒体环境的文本数据中抽取事件要素,还结合了社交网络元数据中在描述事件相关的时间、位置、热度等方面的优势。

附图说明

图1是根据本发明一个实施例的跨媒体事件抽取方法流程图。

具体实施方式

本方法提供了一种跨媒体的事件抽取方法,用于在特定类别的重大事件发生后基于新闻媒体和社交网络的相关信息快速生成细粒度结构化的事件数据,包括数据提取、事件概要框架、事件要素抽取和事件融合。下面,结合具体的实施例对本发明进行详细说明,其中社交网络事件抽取以研究微博数据为例,应理解本实施例仅用于解释本发明,并不限于本发明的范围。

参照图1所示为本发明跨媒体事件抽取方法的流程示意图,包括如下步骤:

(1)设置种子事件特征库及所需的知识数据,包括特定组织、机构、场所、人物等实体要素资料库,关联本体及分类的开放知识图谱资料集,事件行为类别模式库或语料资源等内容。

在实施过程中,针对目标事件的主题类型和公共数据资源的主要特点,搜集并选用合适的事件特征库和知识集合,包含了目标事件的特征词集和新闻事件典型语料,用于后续的事件识别及过滤,并建立同步更新规则。实体要素及本体在标注名称的同时,建立同义词、类别等关联,例如人物资料中,“某某某”一词的同义关联词有某国总统、某国最高领导人等,同时又属于政府机构人员,并具有一定的关联时效性,可以使用WordNet语料库和官方组织提供的数据资源;又如“两国签署协定”事件属于合作事件,同时属于具有正面情感倾向的事件,可用编码树形式进行标注。采用DBpedia或Freebase等开源知识库提供本体信息及对应类别的知识图谱,例如“联合国”对应类别“非营利国际组织”。事件行为模式可从句法结构和 语法树中的语言模板等方面定义,句法结构与常规的实体识别方法规则关联,得到事件行为和实体在文本表示中的关系特征,用于后续的事件要素抽取。

(2)从可信的新闻源中实时采集新闻网页并进行预处理,提取新闻文本及元数据信息。

从新闻文本抽取事件数据时应选用可信的新闻媒体,可信新闻源通常会在重大事件发生后第一时间报道,覆盖事件类别全面,从而减少站点RSS种子的集成数量,同时新闻稿件文字编排和参考依据真实性方面也较同行拥有更高质量,为后续处理模块降低难度。可信新闻数据源列表选择时需从权威性、地域性、新鲜度等角度考虑,采集新闻网页应满足大规模实时需求,可采用Redis分布式爬取机制,从新闻网页中提取文本和元数据信息可采用Goose报文提取机制,同时过滤无关数据,更具体的处理过程如下:

a)定义可信新闻源种子列表:按关注地域标注新闻源的覆盖类别,包括国内、国际、局部地区等,并分别设定更新时间,默认为15分钟更新一次。

b)将新闻源列表存储在主服务器中,并划分子任务到下属服务器中,每个新闻源种子分配单独的后台工作线程,并启动文本及元数据信息提取模块。

c)提取模块内从原始网页的html中使用dom、css等结构提取出所有文本标记部分,对于包含多个文本的node结点,根据每个结点下的停用词数量及该结点在网页中的位置布局进行打分,用来判断node的重要程度:一般来说停用词数量越多代表该部分内容越详实,在网页布局中越靠近中心的内容越较为重要,通过这种方式找出核心结点,并提取核心结点中的文本内容作为核心新闻文本。

d)对描述无关事件的新闻文本进行过滤。由于易产生混淆的无关事件通常有明显的文本特征,例如研究政治社会事件时,体育赛事等新闻报道经常采用意为国家较量类型的用词特点,但同时又包含众多“国际联赛”等体育词汇,因此可采用包括无关词特征的剔除词词典,过滤无关事件。

e)根据一些事先定义好的规则或者模板,清除css和脚本中与内容无关的结构标签,保留发布日期、标题信息,完成文本提取及清理。

f)将提取的新闻文本和元数据整合成规定格式的文件,并上传至NoSQL存储架构的数据库中。

(3)根据步骤(1)所需的知识数据从每则新闻文本中抽取基础的事件要素信息,生成初始事件数据;并对相似事件数据进行去重或合并,构成初始事件集合。

新闻文本遵循特定的写作规范,通常靠前的段落介绍新闻事件梗概,靠后的段落主要对事件做进一步补充。因此可综合模板分析和统计学习方法对新闻文本进行分析,更具体的过程如下:

a)使用语句提取器将新闻文本分割成句,应用自然语言处理工具(如斯坦福大学的CoreNLP、北京理工大学的NLPIR等)对新闻摘要(可以选择前六句)进行词法和句法分析,解析成语法树的形式,并识别依存关系。

b)根据词语在语法树中的结构特征以及实体要素资料库,对新闻摘要进行命名实体识别,挖掘出事件中涉及到的人名、地名、机构名等实体对象。

c)根据新闻摘要中的动作核心词,判定行为的涉事主体和客体,根据预定义的事件行为类别模式(例如表1中的内容示意),识别事件的行为关系和所属类别,并计算事件的情感倾向强度。例如研究国际事件时,从政治合作到大规模暴力事件划分为20个大类,并分别定义了相应子类和词语使用特征,情感倾向强度被分配-10到10的评分,军事袭击/大规模暴力事件为-10分,终止军事行动为+10分,发布公开声明为0分。

表1

d)定位新闻文本中的时间描述词,应用TimeML文本时间关系标准和发布时间,对模糊的时间表述(如“本周六”“昨日”等)通过推理规则转换为规范的时间记法。综合文本的时间关系推理出事件的时序关系,将事件与时间标记相匹配。

e)定位文本中的位置描述词,可以使用开源的地理信息标注服务,选取识别为位置状语的第一个标注词作为事件发生地,并根据文本中的地名自动进行查找补全,达到从国家、行政区域到城市的最低识别粒度。如果文本中注明了街道、建筑等精细位置信息,则识别到城市,同时保留该描述字段。

f)将上述要素整合成初始事件数据,事件要素类型值可以使用但不限于如下形式:event=(time,location,actor1,actor2,action,type,scale,url)

其中time为发生时间,描述或数值型要素;location为发生位置,包括描述名称、国别、行政区域、城市等分量,缺省时为空;actor1和actor2分别表示施事主体和受事客体,可用多类字段进行表示,既包括描述型名称,也包括标注实体性质(如人名、官方机构、非官方机构、国际组织等)的断言信息;action记录行为描述词;type表示事件类别,属于断言型要素;scale表示事件的情感倾向,属于数值型要素;url为补充信息,表示原始数据的出处。

例如,8月13日发布的新闻

表2

对应的初始事件数据可表示为

表3

g)当同时段初始事件数据的相似度超过特定阈值时,保留该时段内生成的最新事件数据以进行去重;同时以信息较完整的数据为准,对事件要素进行信息合并,并记录所有相应的来源信息。

(4)计算初始事件各要素在事件刻画中的重要程度,生成由基础要素构成的的事件初始概要框架。

a)事件要素对刻画事件越关键,其重要程度取值越大,取值范围在0到1之间,其中:发生时间要素的重要程度为1;描述型要素的重要程度由其在事件对应的新闻文本中共现频率确定,并进行归一化处理;对于采用多级描述形式的事件要素,例如事件发生位置信息采用地名、城市名、行政区域名、国名多级结构描述,描述型名称的计算方法同上,随着要素描述粒度的扩大,重要程度在该要素性质的基础上适当缩小。。

b)将初始事件数据的各要素取值按照键值对的形式进行展开,并根据要素重要程度对各键值对的重要程度进行赋值,生成事件初始概要框架,如下:P(e)={((ki,vi),ωi(e,(ki,vi)))|(ki,vi)∈E,ωi(e,(ki,vi))∈[0,1]},其中E表示事件e所有要素分量的键值对集合,i的最大取值为所有键值对的个数,(ki,vi)为第i个键值对,ki是要素分量的名称,vi为分量对应取值,ωi为键值对的重要程度。

(5)基于事件的初始概要框架生成社交网络数据的检索框架,采用动态迭代的检索方案实时更新检索框架,提取满足搜索条件的社交网络消息文本,生成候选消息集合。

更具体的过程如下:

a)将事件初始概要框架中的键值对信息作为检索关键词种子,根据同义词集对关键词进行扩展,生成微博检索框架;通过微博开放的数据检索接口,检索事件发生最近一段时间内(比如7天之内)的微博数据。

b)在检索到的微博消息中根据词语或短语的TFIDF值对微博消息中词语或短语进行排名,选取排名较高的词作为关键词,并更新检索框架,进一步按照上述要求检索微博消息。

c)当关键词的发现过程收敛时终止迭代搜索,提取检索到的微博消息文本,记入候选消息集合。

(6)根据步骤(1)中的知识数据,结合文本语义分析方法,分析候选消息集合中的要素信息及所属分类,分析每个键值对的重要程度,并根据键值对的分析结果生成候选消息的概要框架。

更具体的过程如下:

a)从微博消息中提取候选消息元数据中的图片元数据或用户地理位置信息,得到候选消息对应的地理坐标信息。

b)对候选消息进行命名实体识别和浅层语义分析,定位每条微博涉及的实体信息和语义角色。

c)使用知识图谱资料集及关联工具,将博文中的实体信息映射到相关概念,得到微博中 包含的键值对信息。例如一则微博“距离爆炸地点约2公里的万通新城国际小区,财产损失严重”中识别出实体“万通新城国际小区”属于“居民区”类别。

d)对微博文本进行分类识别或聚类,并建立所属类别和关键词的关联,形成一组键值对,与该条微博文本一并存储。重大事件发生后,微博内容通常分为以下类别:事件影响、原因剖析、潜在风险、当事人经历、用户评论等,根据文本特征及相应的类别识别规则,对文本进行分类;然后将已经识别出的键值对信息映射到相应的类别,例如“事件影响”类别的微博下可能包括如下键值对,(死亡人数,165)、(受伤人数,798)、(居民区,万通新城国际小区)等。

e)从微博元数据、用户关注度和微博发布地理位置信息等方面评估微博消息内容的重要程度。微博元数据中包括该则微博的转发、评论等关注热度,通常热度越高,该则消息内容越重要;用户关注度指发布者的粉丝数量,表示发布者的影响力;微博发布的地理位置与初始事件框架中的地理位置进行比较,地理距离在一定范围内则标识为当事人消息,重要度提高。重要程度的评估模型可以采用score=MS+US+LS,其中MS是根据元数据计算的微博热度得分,US是根据用户信息计算的得分,LS是根据地理相对位置计算的得分,最终得到的score进行归一化处理,取值在0到1之间。

f)整合每条微博的键值对信息,并根据键值对的查询得分和微博重要程度信息,形成关于候选微博消息m的概要框架,即

P(m)={((ki,vi),si(m,(ki,vi)))|(ki,vi)∈M,si(m,(ki,vi))∈[0,1]};其中si(m,(ki,vi))为消息文本中抽取的键值对(ki,vi)的重要程度,根据微博m的重要程度score和键值对在候选消息键值对的TFIDF值共同计算得出;i的最大取值为该微博消息(包括文本和元数据)中所包含键值对的个数;一条微博消息的概要框架包含的键值对可能为空,也可能包含多组信息,M表示候选消息m所有要素分量的键值对集合,ki是第i个要素分量的名称,vi为分量对应取值。

(7)比较候选消息概要框架与事件概要框架的相似度,当满足要求时,将候选消息加入到该事件的消息队列。

由事件概要框架P(e)触发的微博检索方法是根据文本进行的查询过滤。通过调整余弦相似度或明氏距离方法计算每条候选消息的概要框架P(m)与P(e)的相似度,并根据相似度的阈值建立候选消息的过滤规则,实现语义过滤,从而得到更精确的事件消息队列。(8)根据预设的消息排序条件(如社交网络消息的重要程度、发布时间等条件),依次选 择消息队列中的键值对作为事件数据的候选事件要素;针对地理坐标等确定性信息,根据已加入消息队列中键值对进行聚类,分析结果加入候选事件要素中。

事件的微博消息队列包含了事件更精细化的要素信息,需要按照特定规则条件加入到事件数据中,更进一步的说明如下:

a)对微博消息列表中的消息进行排序:可以按照微博重要程度score或微博概要框架与初始事件概要框架的相似度进行排序,也可按照微博消息的发布时间与事件概要框架中的时间的接近程度由小到大排序,用户还可以综合构建定制化的排序策略。

b)按照队列顺序依次提取微博,如果该条微博对应的键值对信息未出现在当前的事件概要框架,则加入到事件数据的候选事件要素中,直到没有新的信息加入为止。

c)对消息队列中大量的地理坐标数据,通过异常点剔除和聚类分析,可以获得事件发生的准确经纬度,特别是对多个发生地点的事件,该步骤起到更加精确的效果。

(9)对上述新闻文本和社交网络数据抽取的候选事件要素,按照时间、地点、实体、类别、结果、规模、社会学属性等方面进一步分类,采用事件融合规则,对事件要素进行规格化整合,生成完备的事件数据。

由于事件概要框架和通过微博数据得到的候选事件要素中可能存在内容重叠的情况,例如“812天津港特大爆炸”事件中的涉事实体要素,对应的取值可能是“瑞海物流”、“瑞海公司”、“天津港港务集团”等,因此需要对事件的同类信息进行整合,相似信息进行合并等操作,更进一步的说明如下:

a)根据知识和训练数据,对要素类别名称进行分类,类别包括发生时间、发生地点、施事主体、受事客体、事件类别、事件结果、规模及影响、社会学属性等,所涉及的类别作为事件数据的最外层的描述标签。

b)根据知识图谱提供的概念网络,将要素类别名称加入到事件数据的子标签中,必要时可加入中间概念节点。

c)对候选事件要素的取值类型进行规格化处理,并将类型标签(描述型、断言型、数值型等)和取值内容加入到事件数据,形成完备的事件数据。

表4完备事件部分节取

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1