一种面向微博的全新突发事件发现方法
【专利摘要】本发明涉及一种面向微博的全新突发事件发现方法,属于智能信息处理技术。现有技术中,对于微博及时发布的全新突发事件不能做到及时的抓取汇总并通过一定形式展示出来。没有实现对微博中及时发布的具有重要性的全新突发事件信息进行采集和汇总并加以利用。本发明所述的方法对发现全新突发事件具有实践意义,通过抓取时事微博内容,循环式的对每条语片级微博进行分词,提取关键词,与《突发事件字典》对比,形成了“全新突发事件”关键词,并通过关键词共现分析,最终得到全新突发事件的相关信息。采用本发明方法,能够快速高效地获取全新突发事件相关内容及关键词汇,大大增强其实用性。本方法可以广泛应用于突发事件的舆情信息获取及其监控。
【专利说明】一种面向微博的全新突发事件发现方法
【技术领域】
[0001]本发明属于智能信息抓取及提取关键字进而发现全新突发事件的技术。具体涉及 一种语片级微博突发事件关键字的提取及关键字共现分析方法。
【背景技术】
[0002]在继手机短信、博客等诸多联系、交流工具之后,微博这一时代的新兴产物,正在 迅速进入全世界网民的视野。目前,微博处于井喷式发展状态,随着2006年第一家微博客 网站twitter的建立,微博的用户在近几年呈急剧上升的状态。2009年,新浪微博建立起微 博服务网站,打开了门户网站微博的大门。2010年,搜狐微博、网易微博、腾讯微博等相继推 出,微博用户规模呈几何级数迅速增长。
[0003]微博自2006年诞生以来,使用者越来越多,其所发布的内容也越来越受到广泛关 注,成为传播领域的新生力量。微博之所以以极其强势的发展趋势兴起,不仅取决于由当前 社会的大环境所影响,同时,微博自身的传播特点也是其强势兴起的重要原因。其主要表现 在,与传统的大众传播媒介传播特点不同,微博的传播主题集中在了平民百姓,具有传播主 体草根化。同时,传播内容纷繁复杂,具有传播内容碎片化。微博的发布可以随时随地,通 过各种途径,因而造就了传播速度即时化、传播渠道多元化、传授双方互动性强的特点。目 前,微博以其强势的发展趋势,日益受到了新闻业界,媒体业界的广泛关注和重视。
[0004]与传统的传播方式和媒介相比,微博展现出了其重要的优势和特点,在传播机制 的快捷方面,传播速度的迅速传播范围的广泛方面,微博的信息传播都占据了巨大的优势。 总结出有以下几点:
[0005]1、微博的出现,使得每个网民都能够成为了信息的传播者和发布者。微博以其草 根化、平民化的特点,在网民中广泛传播,任何用户都可以利用微博展现他身边发生的新闻 和事件,小到个人生活琐事,日记心情,达到体育运动盛世,全球性灾难,微博已经日益成为 了人们表达内心情感,个人意愿的重要途径和渠道。因而,微博使得每个人都有机会成为新 闻的第一发布人。
[0006]2、就传播途径来看,微博建立有多重客户端,从web网页,PC机客户端,手机客户 端,甚至手机短信等,微博利用了多重方式多重渠道实现了微博的发布和传播。这使得人们 表达内心想法的方式进一步多重化、简单化。多元化的传播途径在微博出现后也实现了高 度的融合,尤其是利用手机和网络的交互传播,只要有手机,就可以随时更新微博内容。这 也使得了许多第一现场,第一时间的新闻内容都要先于传统媒体首发。
[0007]3、微博的信息一般是20s更新一次,其更新的速度是非常快的。这样,用户读取完 上一条微博内容后,更新的微博消息也随机发布出来。这样的更新速度是以往传统媒体如 电视、报纸、新闻网站等所不能比拟的。利用微博,可以实现非常及时迅速的传播速度。许 多重大突发事件,如汶川地震,7.23甬温线动车事故等的第一条消息,也都是通过微博来发 布的。
[0008]因而,目前,许多传统媒体的记者和新闻人纷纷进驻微博,开始利用微博来搜索和查证出第一手新闻消息。利用微博及时的更新速度挖掘第一手新闻资料。谁能掌握了先机, 谁就取得了优先胜利权。微博的影响力和重要性也日益凸显出了其不可替代的作用。
[0009]同时,面对突如其来的全新突发事件,在第一时间得知消息并及时采取必要的措 施也是非常重要的。突发事件,广义上讲,就是指突然发生的事情,其具有两层含义:第一层 含义是事情发生、发展的速度非常快,出乎了人们的意料;第二层含义是突发的事件非常难 以应付,必须采用一些非常规的手段才能解决。突发事件从狭义上讲,就是指意外的突然发 生的重大或敏感事件。主要分为了四大类:自然灾害,包括水旱灾害、地质灾害、森林火灾 等;事故灾难,包括各类安全事故、交通运输事故、核辐射、环境污染等;公共卫生事件,包 括传染病疫情、食品安全问题等;社会安全事件,包括恐怖袭击事件、民族宗教事件等。
[0010]可以看出,突发事件难以预料,破坏性强,政府及社会各界及时的获取突发事件的 消息并及时采取有效的措施显得尤为重要。
[0011]因而,我们想到了利用微博的平台,发明一种及时的获取全新突发事件的有效方 法。微博具有传播迅速,消息发布及时,草根化等多重优点,以此实现并一定程度上保证了 突发事件能够在第一时间通过各种途径公布于众。但是,目前,还没有一项合理的技术能够 实现迅速并且集中的将突发事件的有效消息较为全面的获取并展示,人们只能够通过各种 纷繁复杂的微博内容,带有一定机遇性和偶然性的去搜索与判断突发事件的相关内容。这 样不利于我们迅速并完整的获取突发事件的内容,也不利于我们集中的分析突发事件的相 关情况。
[0012]本发明正是基于这样的急迫需求,提出了一种面向微博有针对性的提取关键字进 而发现全新突发事件的方法。在本发明中,我们实现了抓取微博用户最新更新的内容,循环 累积式的对每一条语片级微博内容进行分词,并根据本发明中制定的相关算法规则进行关 键字的提取,以此得到全新突发事件候选关键词。通过将候选关键词与《突发事件字典》进 行对比,筛选微博中有用的信息。将筛选提取后的关键词进行共现分析,最终得到一个可视 化的全新突发事件关键词共现网络图。本发明为所需人群提供了可靠的面向微博的最新消 息提取方法,是非常有价值的微博信息提取工具。
【发明内容】
[0013]本发明是利用腾讯微博开放平台,通过0PENAPI接入技术,在抓取微博信息的基 础上,实现对用户所关注对象微博发布信息的提取,并将提取的语片级微博进行分词,同时 根据微博长度按照分类规则循环累计式的找出每一语片级微博中的关键词,将其放入“候 选关键词”队列,将得到的候选关键词分别与《突发事件字典》比较,若无任何一个关键词在 《突发事件字典》中,则放弃本微博;若其中存在关键词在《突发事件字典》中,则将本微博中 不包含在《突发事件字典》中的候选关键词列入“全新突发事件候选关键词”队列中。依次 循环的将设定时间内的所有微博进行分析提取。最终按照关键词出现的频率排序,并对前 十个“全新突发事件关键词”进行关键词共现分析,最终可视化展示出所得结果。
[0014]1、利用微博开放平台抓取微博
[0015]腾讯微博的平台都是开放的,利用API接入技术实现微博抓取的具体原理如下:
[0016]我们可以登陆腾讯微博开放平台,并授权指定的某个微博账号进行访问。通过 其提供的应用程序编程接口(API接口),编写了 java微博抓取程序weibograb。实现了可以动态的抓取该账号所关注的所有用户的每一条微博。其中,微博的内容经程序处理, 分别提取出了用户ID、用户名(user)、发布时间(time)、是否转发(zhuanfa)、微博内容 (origtext)等信息。并通过指定的存储控制方式,将抓取到的结果储存进入Mysql数据库。
[0017]在微博抓取过程中,我们可以实现多重筛选:
[0018]I)可以对该账号所关注的用户的类型进行筛选。如提取IT界、科技界、体育界、财 经界人士的微博内容。
[0019]2)可以对微博的发布时间进行筛选,如提取微博发布日期为2012年7月11日 10:00至11:00期间的所有微博。
[0020]整个微博数据抓取程序设计框图如图1。主要涉及到了微博开放平台、OAuth认证 授权、API访问,API源程序等。
[0021]2、分词
[0022]在抓取了指定用户在指定时间内的所有微博后,开始按条对所有微博逐一进行语 片级分析。涉及到的就是语句的分词技术。具体解释如下:
[0023]分词即是将一条完整的句子,分成独立的词语,并标识出该词词性。现行已经有多 种的分词工具发布,我们选择使用较为成熟的中科院分词工具ICTCLAS,并将分词结果导入 到数据库中。另外,本发明中分析的目标是关键词语,并不涉及标点符号和语气词等。但微 博的内容偏口语化,许多对后续处理并无帮助的内容会频繁出现,如:
[0024]I)微博中的标点符号:表情符号、点名符号、转发“//”
[0025]符号、话题标识“ ## ”。
[0026]2)微博中的空格符、回车符、制表符等。
[0027]这些内容,在分词过程中,都应被去除。
[0028]同时,分词工具还具有自主添加词语的功能。网络微博常常会出现一些新生词语, 我们可以动态的对分词工具进行增补。
[0029]3、TF-1DF 算法
[0030]在提取关键词时,我们可以运用TF-1DF算法。具体算法解释如下:
[0031]TF-1DF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中 一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随 着它在语料库中出现的频率成反比下降。
[0032]TF(term frequency):某一文档中某一词条P出现的频率越高,说明它区分文档 内容属性的能力越强,其权值越大。
[0033]IDF(inverse document frequency):文档集中包含某一词条的文档越多,说明它 区分文档类别属性的能力越低,其权值越小。
[0034]TF*IDF 方法:
[0035]
词语P在文档D中出现的次数
TF 二_-_
文裆D包括所有词语的数目
[0036]
【权利要求】
1.本发明利用微博开放平台和OPENAPI接口技术,抓取了指定时间段内的大量微博, 并存入Mysql数据库中,循环处理抓取到的每一条微博,分别进行分词一提取关键词一 与《突发事件字典》比较几项步骤。
2.分词过程中,利用已经较为成熟的分词工具,实现了去除本条微博中的标点符号,并 将完整句子分隔为独立词语。根据分词后本条微博总字数,以60为阈值,分类进行关键词 提取:小于60字的微博直接提取所有名词、动词、数词、量词进入“候选关键词”队列;大于 60字的微博,则利用我们专门针对语片级微博设计的TF-1DF改进算法进行关键词提取,并 将结果列入“候选关键词”队列中。
3.将本条“候选关键词”队列与《突发事件字典》进行比较。《突发事件字典》是我们根 据突发事件的定义设计的一项可以根据用户需求进行增补和改进的字典。若队列中所有关 键词均不在字典中,放弃该队列;否则,将“候选关键词”队列按照本发明中设计的Vector 向量存放规则存入数据库中。
4.循环处理完指定时间段内的所有微博后,提取出数据库中的Vector向量组,并根据 向量对象中第一个元素,及“全新突发事件关键词”的频率由高到低进行排序。并提取出频 率最闻的10类关键词及其所有向量对象。
5.将得到的所有向量对象中10个“全新突发事件关键词”与其所关联的《突发事件字 典》中的关键词进行共现分析。计算“关键词共现矩阵”,并根据矩阵数据导入相应软件,最 终实现可视化共现图谱。
【文档编号】G06F17/30GK103577404SQ201210250175
【公开日】2014年2月12日 申请日期:2012年7月19日 优先权日:2012年7月19日
【发明者】梁循, 申华, 曹润 申请人:中国人民大学