基于微博的事件相似性度量方法及系统的制作方法

文档序号:6517352阅读:212来源:国知局
基于微博的事件相似性度量方法及系统的制作方法
【专利摘要】本发明提供了一种基于微博的事件相似性度量方法。该方法构造指定微博的传播树,对传播树局部进行剪枝以克服博在转发过程中出现“话题漂移”。然后基于指定微博的传播树的词汇向量的相似度、传播树的关注用户集的相似度和/或传播树的时间相似度来获取所述两条原创微博所指示的事件相似度。该方法将微博的结构特征,事件的演化特征与传统的词汇概率特征相结合,建立了一种更适于度量微博事件的相似度计算模型将微博的结构特征,可以提高微博中事件相似性计算的准确度。对传播树局部进行剪枝是可选的,其主要是为了克服由于微博在转发过程中会逐渐出现“话题漂移”的对度量微博事件相似性的准确性及计算效率的影响。
【专利说明】基于微博的事件相似性度量方法及系统
【技术领域】
[0001]本发明涉及文本挖掘和话题发现与跟踪领域,尤其涉及一种基于微博文本数据的事件相似性度量方法。
【背景技术】
[0002]近年来,以微博为代表的Web2.0新媒体已经深入到人们生活的各个角落。无论何时何地,人们都可以通过发微博来记录和分享自己的经历和感受。虽然微博的类型多种多样,有些甚至不包含任何实质的信息,但有更大比例的微博都是在描述和记录用户身边发生的事件。因此对于那些无法亲身经历的事件,都可以从微博中管中窥豹。
[0003]现实中每时每刻都在发生着事件,事件通过人的感受、记忆、分析,形成了片段性的文字描述,微博用户将这些文字记录在微博中。这一过程实际上完成了事件从现实世界向微博空间的映射。在微博中研究话题或事件的发现便是要在微博空间中找到现实世界事件的“像”。
[0004]如果将人比作事件传感器的话,那么其实“部署”在现实世界的传感器是非常多的,当一个事件发生后,一般有多于一个传感器感知到事件的存在,如果他们都对此事件进行了记录,那么在微博中就会出现关于此现实事件的多个“像”。另一方面,即使是同一个传感器,也不一定只发表一篇微博描述此事件。因此,在微博平台中需要一种判断多个事件的“像”是否表征了同一事件的方法,进一步判断多个事件间的相似度。
[0005]传统的文本信息事件相似性度量方法是建立在“词袋模型”概率特征基础上的度量方法,即将每个描述了事件的文本看作词汇的集合。一些位置敏感的方法还会对词汇出现的位置进行区分。然后计算各个词汇的特征值。常采用的计算词汇特征值方法例如二值法,即存在词汇记为1,不存在则为O。在信息检索领域还常用TFIDF (term frequency -1nverse document frequency词频-逆文档频率)的方法来计算词汇的特征值,该方法统计词汇在单一文本中出现的频率和在全部文档中出现的频率,利用二者的比值作为词汇的特征值;最后,由于将多个文档表示成了词汇和特征值对的集合,因此可以把每篇文档看做一个向量,计算文档向量间两两的欧拉距离或余弦夹角等来衡量文档间的相似度,也即事件间的相似度。
[0006]上述的方法是文本分析的经典方法,但不能满足对于微博的事件相似性度量。微博有其自身的特点,在微博中事件在不断地演化和传播。用户发表了一篇描述事件的微博。随着时间增加,越来越多的用户通过转发和评论上述微博参与到事件的描述中来,微博不断积累,事件的描述信息也越来越丰富。因此需要一种基于微博的事件相似性度量方法。

【发明内容】

[0007]因此,本发明的目的在于克服上述现有技术的缺陷,提供一种基于微博的事件相似性度量方法。
[0008]本发明的目的是通过以下技术方案实现的:[0009]一方面,本发明提供了一种基于微博的事件相似性度量方法,包括:
[0010]步骤1,对于两条给定的原创微博中的每一条:获取在给定时刻前对该原创微博的所有转发和评论的微博,并以该原创微博为根节点,构造该原创微博的传播树;传播树中每个节点对应一条微博,传播树中的边代表微博间的转发/评论关系;
[0011]步骤2,计算两条原创微博的传播树的关注用户集的相似度;所述传播树的关注用户集是传播树中每个节点对应的微博的作者所关注的用户的并集;
[0012]步骤3,计算两条原创微博的传播树的词汇向量的相似度;所述传播树的词汇向量为传播树中每个节点对应的微博的词袋的并集;
[0013]步骤4,基于原创微博的传播树的词汇向量的相似度、传播树的关注用户集的相似度和/或传播树的时间相似度来获取所述两条原创微博所指示的事件相似度。
[0014]上述方法中,所述步骤I还可包括沿传播树检测相邻两节点对应的微博的相关度,如果传播树中两相邻节点对应的微博的相关度低于话题漂移阈值,则在传播树中删除这两节点间的边以及该边后续的所有分支。
[0015]上述方法中,所述步骤2中两条原创微博的传播树的关注用户集的相似度可以如下公式计算:
[0016]
【权利要求】
1.一种基于微博的事件相似性度量方法,包括以下步骤: 步骤1,对于两条给定的原创微博中的每一条:获取在给定时刻前对该原创微博的所有转发和评论的微博,并以该原创微博为根节点,构造该原创微博的传播树;传播树中每个节点对应一条微博,传播树中的边代表微博间的转发/评论关系; 步骤2,计算两条原创微博的传播树的关注用户集的相似度;所述传播树的关注用户集是传播树中每个节点对应的微博的作者所关注的用户的并集; 步骤3,计算两条原创微博的传播树的词汇向量的相似度;所述传播树的词汇向量为传播树中每个节点对应的微博的词袋的并集; 步骤4,基于原创微博的传播树的词汇向量的相似度、传播树的关注用户集的相似度和/或传播树的时间相似度来获取所述两条原创微博所指示的事件相似度。
2.根据权利要求1所述的方法,所述步骤I还包括沿传播树检测相邻两节点对应的微博的相关度,如果传播树中两相邻节点对应的微博的相关度低于话题漂移阈值,则在传播树中删除这两节点间的边以及该边后续的所有分支。
3.根据权利要求1所述的方法,所述步骤2中两条原创微博的传播树的关注用户集的相似度以如下公式计算:
4.根据权利要求3所述的方法,所述传播树的关注用户集中用户对应的用户权值是基于传播树中相邻两节点对应的微博的相关度来设置的。
5.根据权利要求4所述的方法,其中传播树的关注用户集以及用户权值是从传播树的根节点开始遍历,对于每个节点执行下列步骤而得到的: 步骤2-1)假设从根节点s出发沿路径S,U1, U2...,un, V遍历到节点V,取发表V对应的微博的用户所关注的用户列表f (V); 步骤 2-2)节点 V 的候选权值设置为:wp(v)=rel (s, U1).rel (U1, U2)...rel (un, v),其中,rel (.)表示传播树中相邻两节点对应的微博的相关度; 步骤2-3),对用户列表f (V)中每个用户,如果该用户不属于传播树的关注用户集中,则将该用户加入到传播树的关注用户集中,并且将该用户的用户权值设置为Wp(V);如果该用户已经在传播树的关注用户集中,并且该用户的用户权值小于Wp (V),则将该用户的用户权值更新为Wp(V)。
6.根据权利要求1所述的方法,所述步骤3中两条原创微博的传播树的词汇向量的相似度以如下公式计算:
7.根据权利要求6所述的方法,所述传播树的词汇向量中词汇对应的权值是基于传播树中相邻两节点对应的微博的相关度来设置的。
8.根据权利要求7所述的方法,其中传播树的词汇向量以及权值是从传播树的根节点开始进行遍历,对于每个节点执行下列步骤而得到的: 步骤3-1)假设从根节点s出发沿路径S,U1, U2...,un, ν遍历到节点ν,取节点ν对应的微博的词袋; 步骤3-2)节点ν的候选权值设置为:
Wp (V) =rel (S,U1).rel (U1, U2)...rel (un, ν),其中,rel (.)表示传播树中相邻两节点对应的微博的相关度; 步骤3-3),对节点ν对应的微博的词袋中的每个词汇: 若该词汇没有被包含在传播树的词汇向量中,则将该词汇添加到传播树的词汇向量中,并将该词汇的权值设置为Wp(V);如果该词汇已经被包含在传播树的词汇向量中,并且该词汇的权值小于(ν),则将该词汇的权值更新为Wp (ν)。
9.根据权利要求2、4、5、7和8任一项所述的方法,其中,传播树中相邻两节点对应的微博的相关度计算方式如下:以U,V表示传播树中任意两相邻节点,如果U,V对应的微博的作者相同,则U,V对应的微博相关度rel (u, v)=l;否则,u, ν对应的微博相关度

10.根据权利要求1所述的方法,所述原创微博的传播树的时间相似度计算方式如下:假设原创微博S1和S2的传播树中最早的发帖时间,发表时间最晚的时间点,分别记为Cin , χ , Cn , 则两个传播树的时间相似度Simt为: 若Χ%~,则 Simt=O; 若 ^mox < ,则細、=_ tf-)/(?]max —t ).若 /2min < Cx ^ ? ,则 Simt = (Cx — ?)/(?Χ - ^ )
11.根据权利要求1所述的方法,所述步骤4中,按线性加权的方式来结合原创微博的传播树的词汇向量的相似度、传播树的关注用户集的相似度和传播树的时间相似度计算所述两条原创微博所指示的事件相似度。
12.—种基于微博的事件相似性度量系统,包括: 传播树构造模块,用于对于两条给定的原创微博中的每一条:获取在给定时刻前对该原创微博的所有转发和评论的微博,并以该原创微博为根节点,构造该原创微博的传播树;传播树中每个节点对应一条微博,传播树中的边代表微博间的转发/评论关系; 关注用户构造模块,用于计算两条原创微博的传播树的关注用户集的相似度;所述传播树的关注用户集是传播树中每个节点对应的微博的作者所关注的用户的并集; 词汇向量构造模块,用于计算两条原创微博的传播树的词汇向量的相似度;所述传播树的词汇向量为传播树中每个节点对应的微博的词袋的并集; 事件相似度计算模块,用于基于原创微博的传播树的词汇向量的相似度、传播树的关注用户集的相似度和/或传播树的时间相似度来获取所述两条原创微博所指示的事件相似度。`
【文档编号】G06F17/30GK103530421SQ201310529304
【公开日】2014年1月22日 申请日期:2013年10月30日 优先权日:2012年11月2日
【发明者】邓镭, 贾焰, 邹鹏, 杨树强, 周斌, 韩伟红, 李爱平, 韩毅, 李莎莎 申请人:中国人民解放军国防科学技术大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1