在社交网络中基于泊松过程模型的事件流行度预测方法

文档序号:6620063阅读:509来源:国知局
在社交网络中基于泊松过程模型的事件流行度预测方法
【专利摘要】本发明提供了一种在社交网络中基于泊松过程模型的事件流行度预测方法,步骤:第一步,选取样本事件,并获取样本事件的微博传播链;第二步,用户影响力计算并筛选影响力大的作为关键用户,而将剩下的用户标记为非关键用户;第三步,将关键用户带来的转发微博过程建模为泊松过程模型,而对非关键用户带来的转发微博过程简单处理;第四步,使用样本事件的信息来学习和估计关键用户的泊松过程模型的参数以及非关键用户的参数;第五步,给定一个已知一定时间长度的演化信息的新的事件,根据第三步中的模型来预测它在未来某时刻的流行度。本发明能在微博事件发生的初期给出比较好的流行度预测,将为合理引导事件的发展提供非常有效的帮助。
【专利说明】在社交网络中基于泊松过程模型的事件流行度预测方法

【技术领域】
[0001]本发明涉及互联网【技术领域】内社交网络中的事件流行度预测方法,具体地说,涉及的是一种在社交网络中基于泊松过程模型的事件流行度预测方法。

【背景技术】
[0002]在Web2.0时代,社交网络发展如火如荼,逐渐成为网民日常生活中的重要部分。微博作为一种通过关注机制分享简短信息的广播式的新型社交网络平台,它具有操作简单、互动性强等特点。到2012年年底,新浪微博注册用户数已经超过了 4亿,微博作为一种新兴媒体,它在传播信息、形成热点话题和热点事件中起到了越来越重要的作用。微博正成为社会舆论热点的主要策源地,全面参与并影响着现实世界。
[0003]微博在热点事件的发生到推重整个过程中起到非常关键的作用,如果能在事件发生的初期就对其未来的流行度有较准确的预测,将能够给相关部门或企业争取时间,对事件发展进行合理引导和及时采取相应的对策。因此为了避免热点事件由于处理不当或者处理不及时可能带来的经济损失和不良社会后果,对事件的流行度进行预测非常必要,具有重大社会意义。
[0004]经检索,目前没有与事件流行度的预测相关的公开专利。


【发明内容】

[0005]本发明要解决的问题是提供一种在社交网络中对事件的流行度进行预测的方法,并基于此,对事件的流行度进行预测,从而可以早的对事件的发展态势了解,给相关部门或企业争取尽可能多的时间制定对策。
[0006]本发明一个目的是提供一种社交网络中事件流行度的预测方法,具体包括:
[0007]第一步,选取样本事件,并获取样本事件的微博传播链;
[0008]第二步,用户影响力计算,并筛选影响力大的作为关键用户,并将剩下的用户标记为非关键用户;
[0009]第三步,将关键用户带来的转发微博过程建模为泊松过程模型,而对非关键用户带来的转发微博过程简单处理;
[0010]第四步,使用样本事件的信息来学习和估计关键用户的泊松过程模型的参数以及非关键用户的参数;
[0011]第五步,给定一个已知一定时间长度的演化信息的新的事件,根据第三步中的模型来预测它在未来某时刻的流行度。
[0012]所述第一步中,选取样本事件是指:对发生在某一个社交网络平台中的热点事件进行选择,这里的热点事件是指被该社交网络平台或其他热门排行榜列为热点话题;这里的事件通过事件内容的一组关键词来描述,本身是一组内容相近的用户产生内容(UGC)的集合;选取的事件需要反映这个社交网络平台在一定时间段内的所有热点事件信息。
[0013]优选地,所述选取样本事件是按照下面的步骤选取的:
[0014](I)周期性的分别从各大热门话题榜各获取前10个热门事件的标题;
[0015](2)用新闻搜索引擎搜索热门事件的标题,获取有关事件更多的文本信息和关键词;
[0016](3)在社交网络的搜索页面中搜索每个事件的关键词,解析出和该事件有关的原创热门UGC ;
[0017](4)使用社交网络开放平台提供的API来获取每个事件中的原创UGC的转发链,包括每条UGC的创建时间、文本、作者信息;
[0018](5)检测有规律的发布UGC,发布UGC时间间隔短,重复多次转发同一个社交网络用户的水军账户,删除它们发出的所有UGC。
[0019]优选地,所述第一步中,获取样本事件的传播链中的传播链是指参与事件传播的社交网络用户的用户产生内容(UGC)之间具有转发关系,这些UGC转发关系构成有向的具有时间性的传播关系链叫UGC传播链;获取传播链是指通过社交网络平台提供的API获取参与事件传播的用户人数大于阈值T2的UGC传播链,T2是任意正整数,T2为O表示获取事件相关的所有传播链,参与人数少的UGC传播链将被舍去。
[0020]优选地,所述第二步中,用户的影响力是指该用户在事件传播过程中吸引其他用户参与事件传播的能力,用户影响力跟他的粉丝数、粉丝质量、用户之间的交互、发布用户产生内容(UGC)的转发数,甚至和参与事件的主题有关。所述用户的影响力采用基于PageRank的方法计算;或者用户Ui的影响力Si采用以下方法获得:
[0021](I)计算每个用户在样本事件数据中的发出的UGC数iVf);
[0022](2)计算每个用户在样本事件数据中由其一级转发用户产生的UGC转发数iV/1);
[0023](3)用i/f来代表这样一个用户集合,在这个集合中的每个用户Uj发出的UGC的转发数之和都为n = iv/1),并且+至少转发了 Ui 一次,那么用户Ui的影响力用下面的式子计算:

【权利要求】
1.一种在社交网络中基于泊松过程模型的事件流行度预测方法,其特征在于包括如下步骤: 第一步,选取样本事件,并获取样本事件的传播链; 第二步,用户影响力计算,并筛选影响力大的用户作为关键用户,并将剩下的用户标记为非关键用户; 第三步,将关键用户带来的转发传播过程建模为泊松过程模型,而对非关键用户带来的转发传播过程,仅仅使用样本数据获得一个经验比例值; 第四步,使用样本事件的信息来学习和估计关键用户的泊松过程模型的参数以及非关键用户的参数,以确定第三步中的模型; 第五步,给定一个已知时间长度的演化信息的新的事件,根据第三步中的模型来预测它在未来某时刻的流行度。
2.根据权利要求1所述的在社交网络中基于泊松过程模型的事件流行度预测方法,其特征在于:上述第一步中,选取样本事件是指:对发生在某一个社交网络平台中的热点事件进行选择,这里的热点事件是指被该社交网络平台或其他热门排行榜列为热点话题;这里的事件通过事件内容的一组关键词来描述,本身是一组内容相近的用户产生内容(UGC)的集合;选取的事件需要反映这个社交网络平台在一定时间段内的所有热点事件信息。
3.根据权利要求2所述的在社交网络中基于泊松过程模型的事件流行度预测方法,其特征在于:所述选取样本事件是按照下面的步骤选取的: (1)周期性的分别从各大热门话题榜各获取前10个热门事件的标题; (2)用新闻搜索引擎搜索热门事件的标题,获取有关事件更多的文本信息和关键词; (3)在社交网络的搜索页面中搜索每个事件的关键词,解析出和该事件有关的原创热门 UGC ; (4)使用社交网络开放平台提供的API来获取每个事件中的原创UGC的转发链,包括每条UGC的创建时间、文本、作者信息; (5)检测有规律的发布UGC,发布UGC时间间隔短,重复多次转发同一个社交网络用户的水军账户,删除它们发出的所有UGC。
4.根据权利要求1-3任一项所述的在社交网络中基于泊松过程模型的事件流行度预测方法,其特征在于:所述第一步中,获取样本事件的传播链中的传播链是指参与事件传播的社交网络用户的用户产生内容(UGC)之间具有转发关系,这些UGC转发关系构成有向的具有时间性的传播关系链叫UGC传播链;获取传播链是指通过社交网络平台提供的API获取参与事件传播的用户人数大于阈值T2的UGC传播链,T2是任意正整数,T2为O表示获取事件相关的所有传播链,参与人数少的UGC传播链将被舍去。
5.根据权利要求1所述的在社交网络中基于泊松过程模型的事件流行度预测方法,其特征在于:所述第二步中,用户的影响力是指该用户在事件传播过程中吸引其他用户参与事件传播的能力,用户影响力跟他的粉丝数、粉丝质量、用户之间的交互、发布用户产生内容(UGC)的转发数,甚至和参与事件的主题有关。
6.根据权利要求5所述的在社交网络中基于泊松过程模型的事件流行度预测方法,其特征在于:所述用户的影响力采用基于PageRank的方法计算;或者用户Ui的影响力Si采用以下方法获得: (1)计算每个用户在样本事件数据中的发出的UGC数Np); (2)计算每个用户在样本事件数据中由其一级转发用户产生的UGC转发数W/1); (3)用未代表这样一个用户集合,在这个集合中的每个用户+发出的UGC的转发数之和都为η = N}1)’并且+至少转发了 Ui —次,那么用户Ui的影响力用下面的式子计算:
Si = ^nlUJ1I +JV ⑴
η 其中|υ|代表用户集合U中的用户数。
7.根据权利要求6所述的在社交网络中基于泊松过程模型的事件流行度预测方法,其特征在于:所述关键用户的筛选过程如下: (1)将用户Mw< Tc的影响力设置为O,因为他们参与的事件太少; (2)根据影响力排序所有的用户,选取前K个作为选择的关键用户Us,而剩下的则作为非关键用户; 阈值Τ。和参数K用来控制关键用户的数目以及参与事件的数目,在某一种社交网络平台中Τ。= 3是一个经验值,K的经验值在14级别。
8.根据权利要求1所述的在社交网络中基于泊松过程模型的事件流行度预测方法,其特征在于:所述第三步的模型及其涉及参数如下: (1)对关键用户的建模:将每个参与事件的关键用户的一级转发过程建模为一个泊松过程,泊松过程的参数只有到达率λ,它代表了单位时间内的用户的一级转发的增加数量,与下面的因素有关: a)用户自身可以带来的转发数,用用户的活跃粉丝数a^N(Ui)来衡量,其中FN(Ui)是用户Ui的粉丝数,a i彡I ; b)事件的吸引力,用其转发数的平均增长率§|:来衡量,其中q(t)表示事件!^在七时的转发数,tj为事件的起点时刻; c)用户作息的自然规律,用一天内用户产生内容(UGC)的创建时间分布P(t)来衡量; d)UGC的可见度,它是指UGC在用户主页上从上到下用户看到的概率依次降低,它用衰减因子O - 来衡量,其中表示用户Ui在事件中的参与时间; 最后λ用下面的式子计算: A(u,., m;, t) = a.1.FN(Ui)— ty)

t — tj 根据泊松过程的计算,得到某个关键用户带来的转发数随着时间的概率分布; (2)对于非关键用户的建模:只在样本数据中统计得到一个经验比例r,它随着三个变量的变化而变化: a)已知信息的结束时刻tn; b)未来时间段的开始时刻tp; c)未来时间段的长度I;
根据这个经验比例,给定已知一个事件和其一定时间段的信息,计算得出未来某时间段内由非关键用户带来的转发数。
9.根据权利要求8所述的在社交网络中基于泊松过程模型的事件流行度预测方法,其特征在于:第四步中学习和估计第三步模型中涉及到的关键用户的参数λ、非关键用户的参数r以及一天内UGC创建时间的分布P (k)的方法; 事件的传播链是由转发关系组成的,即转发关系Ui — Uj代表用户+转发了 Ui的一条UGC,这种转发关系有下面四种情况: (1)用户Ui和U」都是关键用户; (2)用户Ui是关键用户,用户不是关键用户; (3)用户Ui不是关键用户,用户是关键用户; (4)用户Ui和Uj都不是关键用户; 其中(1)和(2)都构成关键用户带来的转发数,也即转发关键用户的UGC而产生的转发数;而(3)和(4)则构成非关键用户带来的转发数,即转发非关键用户的UGC而产生的转发数;将样本数据按照这个原则分为由关键用户带来的转发和由非关键用户带来的转发两个部分,分别用于关键用户λ和非关键用户比例r的估计; 对于关键用户λ的估计,只采用关键用户带来的转发数据并采用最大似然估计的方法进行估计和学习,通过极大化下面的似然函数来得到的估计值:
其中%[k]为事件mj在第k个时间段内的由关键用户带来的转发数增量; 对于非关键用户r的估计,使用非关键用户带来的转发数据,按照权利要求8 (2)中的方法来进行统计计算; 对于一天内UGC创建时间的分布P(k)的估计,使用所有的样本事件数据;在样本事件数据中统计以δ时间间隔来统计一天内UGC创建的数量并归一化成为P(k)。
10.根据权利要求1所述的在社交网络中基于泊松过程模型的事件流行度预测方法,其特征在于:第五步中给定一个新的事件以及它的一定时间长度的传播链信息,预测其未来某时间段内的流行度的模型,这里的流行度指以转发数为主要衡量标准的流行度; 把整个事件转发数的增长过程等间隔δ的分为许多时间段,每个时间段内认为所有用户的λ是保持不变的,将事件的起点时刻记为O;假设前Tn个时间段的事件的信息是完全已知的,这包括与事件相关的所有UGC的作者和作者的信息、创建时间、文本信息,如果是转发的UGC还包括转发信息;预测第ΤΡ(ΤΡ > Tn)个时间段内的事件转发数的增长量,这个增长量包括由关键用户带来的转发数和非关键用户带来的转发数两个部分: (I)计算关键用户带来的转发数:计算每个关键用户在第Tp个时间段内的转发数随着时间的概率分布λ,其中事件的吸引力,使用所有已知时间段长度的UGC的吸引力即^^;其他的因素使用相应时刻的值,根据泊松过程的可加性,将每个关键用户的λ加起来即得到由关键用户带来的转发数在Tp时间段内的大泊松过程的参数λ,即
(2)计算非关键用户带来的转发数:根据非关键用户带来的转发数比例r,只用计算已知Tn个时间段中参与的非关键用户的个数JVe'即可得到第Tp个时间段内的转发数增量,即
【文档编号】G06F17/30GK104182457SQ201410334425
【公开日】2014年12月3日 申请日期:2014年7月14日 优先权日:2014年7月14日
【发明者】陈凯, 周异, 何建华, 周曲, 杨蒙蒙 申请人:上海交通大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1