微博热点追踪系统及追踪方法
【专利摘要】本发明公开了一种微博热点追踪系统及追踪方法,微博热点追踪系统,包括采集模块、数据去重模块、格式转换模块、分词提取模块、分词入库模块、热点事件敏感度匹配模块、关联模型分析模块和热点事件识别及追踪模块。针对微博数据进行采集和分析,而且通过分词的提取和入库,只对已经入库的敏感词汇进行追踪,针对性强,且通过对页面的关联性分析,得到热点事件的传播过程和传播范围,能够有效的追踪事件的发展状况。达到全面、准确的对微博中的热点事件进行追踪的目的。
【专利说明】微博热点追踪系统及追踪方法
【技术领域】
[0001]本发明涉及信息处理领域,具体地,涉及一种微博热点追踪系统及追踪方法。
【背景技术】
[0002]目前,微博已经成为人们进行信息发布、传播和交流的一个重要的信息平台,而且微博相对于其它信息媒介更容易进行转发和传播,因此在微博上面也更容易引发各种舆情事件。传统的针对互联网静态页面的舆情监测技术对微博热点事件的跟踪和监测并不太实用,一方面是微博数据格式不太适用于传统的静态页面舆情监测应用系统,另一方面微博舆情的形成很大程度与微博页面的传播和扩散有关,因此对微博页面的转发次数是评价热点事件的一个重要指标,而对于互联网静态页面的分析并不考虑页面与页面之间的关联特性。因此现有技术不能全面、准确的对微博中的热点事件进行追踪。
【发明内容】
[0003]本发明的目的在于,针对上述问题,提出一种微博热点追踪系统及追踪方法,以实现全面、准确的对微博中的热点事件进行追踪的优点。
[0004]为实现上述目的,本发明采用的技术方案是:
一种微博热点追踪系统,包括采集模块、数据去重模块、格式转换模块、分词提取模块、分词入库模块、热点事件敏感度匹配模块、关联模型分析模块和热点事件识别及追踪模块;
所述采集模块,通过部署于网络上的分布式微博数据采集终端,对互联网上的微博页面和数据进行采集;
所述数据去重模块,对上述采集模块采集到的微博数据内容和地址进行分析,去重掉重复采集的数据;
所述格式转换模块,将上述数据去重模块去重的微博数据转换为统一的数据表示格
式;
所述分词提取模块,对上述格式转换模块转换后的数据进行分词提取,提取出页面中的关键敏感词汇,并将所提取到的页面关键词汇存储到数据库;
所述热点事件敏感度匹配模块,对上述存储到数据库中的词汇进行敏感度分析,如果入库的微博主题词汇不符合敏感度匹配的结果,则将该微博数据进行丢弃,否则将访数据暂时保存在临时数据库中;
所述关联模型分析模块,对上述保存在临时数据库中的微博页面数据以及采集模块采集到的微博页面数据进行关联性分析,计算得到针对预先设定的热点词汇与当前的热点关联分析结果,如果热点事件的关联分析结果达到预先设定的预值,则进行热点事件报警;
所述热点事件识别及追踪模块,根据上述关联模型分析模块分析得到的页面关联特性,输出对当前热点事件的所有关联页面,确定页面的分布范围和热点事件的传播过程,实现对微博热点事件的追踪。[0005]根据本发明的优选实施例,所述数据去重模块对微博数据URL地址进行分析。
[0006]根据本发明的优选实施例,上述关联模型分析模块中的关联性分析模型如下:
对于关键词K1,K2,l7……,Kn ,对应的权重分别为pl,p2……pn ,
对于单个站点中页面价值:
【权利要求】
1.一种微博热点追踪系统,其特征在于,包括采集模块、数据去重模块、格式转换模块、分词提取模块、分词入库模块、热点事件敏感度匹配模块、关联模型分析模块和热点事件识别及追旲块; 所述采集模块,通过部署于网络上的分布式微博数据采集终端,对互联网上的微博页面和数据进行采集; 所述数据去重模块,对上述采集模块采集到的微博数据内容和地址进行分析,去重掉重复采集的数据; 所述格式转换模块,将上述数据去重模块去重的微博数据转换为统一的数据表示格式;
所述分词提取模块,对上述格式转换模块转换后的数据进行分词提取,提取出页面中的关键敏感词汇,并将所提取到的页面关键词汇存储到数据库; 所述热点事件敏感度匹配模块,对上述存储到数据库中的词汇进行敏感度分析,如果入库的微博主题词汇不符合敏感度匹配的结果,则将该微博数据进行丢弃,否则将访数据暂时保存在临时数据库中; 所述关联模型分析模块,对上述保存在临时数据库中的微博页面数据以及采集模块采集到的微博页面数据进行关联性分析,计算得到针对预先设定的热点词汇与当前的热点关联分析结果,如果热点事件的关联分析结果达到预先设定的预值,则进行热点事件报警; 所述热点事件识别及追踪模块,根据上述关联模型分析模块分析得到的页面关联特性,输出对当前热点事件的所有关联页面,确定页面的分布范围和热点事件的传播过程,实现对微博热点事件的追踪。
2.根据权利要求1所述的微博热点追踪系统,其特征在于,所述数据去重模块对微博数据URL地址进行分析。
3.根据权利要求2所述的微博热点追踪系统,其特征在于,上述关联模型分析模块中的关联性分析模型如下: 对于关键词幻>12,..….,Kn ,对应的权重分别为......,pn, 对于单个站点中页面价值: 页面价值也即页面权重,通过如下公式计算得到,
4.根据权利要求3所述的微博热点追踪系统,其特征在于,所述热点事件敏感度匹配模块匹配标准如下: 若β<3,则认为匹配,Q为页面价值; 若,则认为不匹配,d为事先设定的阈值。
5.根据权利要求4所述的微博热点追踪系统,其特征在于,所述c/的值取0.4。
6.一种权利要求1至5所述微博热点追踪系统的追踪方法,其特征在于,包括以下步骤: 步骤1、在网络上部署微博数据采集终端,且该微博数据采集终端能够自动的传播和扩散,在网络上收集微博原始信息; 步骤2、通过对采集到的微博数据URL地址进行分析,实现微博数据的去重; 步骤3、将采集到的微博数据转换成统一的数据表示格式; 步骤4、启动分词提取模块对统一的数据格式的数据进行分词提取,获得微博页面上的主题内容词汇; 步骤5、将所提取到的主题词汇存入数据库; 步骤6、启动热点事件敏感度匹配模块,对入库的词汇进行敏感度分析,如果入库的微博主题词汇不符合敏感度匹配的结果,则将该微博数据进行丢弃,否则将访数据暂时保存在临时数据库; 步骤7、启动微博页面关联性模型,对当前的微博页面数据以及之前所采集到的微博页面数据进行关联性分析,计算到针对预先设定的热点词汇与当前的热点关联分析结果;步骤8、如果热点事件的关联分析结果达到预先设定的预值,则进行热点事件报警;步骤9、根据之前关联模型所分析到页面关联特性,输出对当前热点事件的所有关联页面,确定页面的分布范围和热点事件的传播过程,实现对微博热点事件的追踪。
【文档编号】G06F17/30GK103729420SQ201310708188
【公开日】2014年4月16日 申请日期:2013年12月20日 优先权日:2013年12月20日
【发明者】潘大庆, 刘静姿, 王静, 黄力 申请人:潘大庆