一种微博中特定用户的相似用户监控方法
【技术领域】
[0001] 本发明涉及一种信息挖掘技术,具体地说,涉及一种微博中特定用户的相似用户 监控方法。
【背景技术】
[0002] 当今,社交媒体被认为是Web上最有价值的信息资源之一。微博作为众多社交媒 体中的一种,由于其传播性强、操作便利,很多用户在微博形成了类似于现实社会的交往圈 子。传统媒体用户和话题之间是二部网络,微博由于引入了关注和粉丝,使得用户和话题之 间是多模网络。由于微博信息传播性强、具有复杂的网络结构,近几年引起了学术界和产业 界的高度重视。
[0003] 微博中的相似用户是指在微博媒体上具有若干共同属性的用户群,这些属性主要 包括用户的背景、关注、粉丝、微博、交互等信息。社交媒体上用户的信息总体上分为两类: 一类是用户的背景(比如地点、教育、职业、兴趣等)和发表的微博信息;另一类是基于关注 和粉丝构建的社交网络。基于这两类信息,已有的用户相似度计算方法大体上可以分为三 类:(1)基于用户的背景和微博信息的方法,简记为SUDByText ; (2)基于关注和粉丝的社交 网络的方法,简记为SUDBySN ; (3)混合方法,即对方法SUDByText和SUDBySN的融合计算, 简记为SUDByTSN。当前,SUDByTSN是主流的研究方法。
[0004] 在2011年美国出版的会议论文集:2011年可视化信息通信-交互会 议(Proceedings of 2011 Visual Information Communication-International Symposium),题目为:社交网络中基于兴趣的朋友发现和推荐(Sfviz:interest_based friends exploration and recommendation in social networks),作者是:Gou L, You F,Guo J,Wu L,Zhang XL,该文提出了使用用户的社交标签及网络的拓扑结构计算用户的 相似度,网络拓扑包括用户的关注和粉丝,没有利用访客类用户。
[0005] 在 2013 年德国出版的期刊:User Modeling and User-Adapted Interaction,题 目为:Exploring social tagging for personalized community recommendations,作者 是:Kim HN, Saddik AE,该文从一个用户出发,基于社交标签寻找到他感兴趣的社区。社区 的社交标签通过社区成员的标签提取,包括成员的兴趣、情感、地理位置、时间等。
[0006] 在2014年中国出版的期刊:中文信息学报,题目为:基于排序学习的微博用户推 荐,作者是:彭泽环,孙乐,韩先培,石贝,该文在进行微博用户推荐时,利用了用户的微 博、个人信息、交互信息、社交拓扑信息等四类因素,认为用户的交互信息对相似用户的推 荐性能影响最大。
[0007] 在2014年中国出版的期刊:计算机学报,题目为:微博用户的相似性度量及其应 用,作者是:徐志明,李栋,刘挺,李生,王刚,袁树仑,该文在度量用户的相似度时,考 虑了用户的背景信息、微博、社交和交互信息。以50个用户作为种子节点,爬取了 1层关联 的粉丝、关注类用户,并认为社交信息在计算用户的相似度时最有价值。
【发明内容】
[0008] 本发明所要解决的技术问题是针对以上所述现有技术存在的问题和不足,提供一 种微博媒体监控相似用户方法,该方法可以增加发现相似用户的全面性和多样性,提高发 现相似用户的准确性。
[0009] 本发明所要解决的技术问题是通过以下的技术方案来产现的。本发明是一种微博 中特定用户的相似用户监控方法,其特点是,其步骤如下:
[0010] A、根据输入的特定用户SU得到扩展自我网络EEN--Extended Ego Network 的用户集,记为 EEN(su) = FollowerCS(su)UFansCS(su)UVisitorCS(su),其中 FollowerCS(su)为 su 的关注集,FansCS(su)为 su 的粉丝集,VisitorCS(su)为 su 的访客 集;
[0011] 其具体步骤如下:
[0012] AU获取时间片TimeSpan内用户su的所有微博集MB-su,包括原创、转发、评论的 微博;
[0013] A2、获取 su 的关注集 FollowerCS (su)和粉丝集 FansCS (su);
[0014] A3、根据su的微博集MB-su提取访客集VisitorCS (su),将三类用户记为EEN(su) =FollowerCS(su)UFansCS(su)UVisitorCS(su);
[0015] B、基于用户的关注、粉丝和动态微博的相似度,以及用户间的动态交互相互性,从 EEN(su)中发现与su相似的用户集SimUser(su) i EEN(su),其具体步骤如下:
[0016] Β1、获取每个用户Useri ?: EEN(su)在时间片TimeSpan内的微博集MB-user;、关注 集 FollowerCS (Useri)、粉丝集 FansCS (Useri);
[0017] B2、计算用户su与Useri ? EEN(su)的动态微博相似度,记为MBSim(su, Useri),
,其中,Tj为某个时间片,T「1\的 计算结果为时间片相差个数,1为指数衰减参数,用户1^^在T ,时间片的微
为特征项权重,使用TF*IDF 方式计算,在时间片Tj两个用户su, Useri的微博相似度使用余弦夹角方式计算:
[0018] B3、计算用户su与Useri〗EEN(SpecUser)的动态交互相关性,记为RC (su, Useri),
其中,T,为某个时间片,T ,-T1的计算结果为时间 片相差个数,1为指数衰减参数,在时间片Tj两个用户su,USer1的交互相关性为他们的交 互次数,记为%(s/ ,userf'm个时间片的最大交互次数记为RCmax,以RCniax为参考对用户 的交互相关性进行归一化
[0019] B4、计算用户su与Useri ? EEN(SpecUser)的关注相似度,记为
[0020] Β?5、计算用户 su 与 Useri 丨 EEN(SpecUser)的粉丝相似度,记为 FansSim(su, user
[0021] B6、最终得到用户 su 与 Useri ? EEN(SpecUser)的相似度 Sim(su, Useri),
[0022] 本发明方法与现有技术相比较,具有以下效果:该方法引入了访客类用户,增加了 发现相似用户的全面性和多样性;引入了时间的动态划分,能更好的体现微博的动态性,使 得发现的相似用户更为准确。
【附图说明】
[0023] 图1是本发明方法的一种流程图;
[0024] 图2是图1中步骤101所述的得到扩展自我网络的用户集EEN(SU)的流程图;
[0025] 图3是图1中步骤102所述的从EEN(su)中发现与su相似的用户集SimUser (su) 的流程图。
【具体实施方式】
[0026] 下面结合附图和【具体实施方式】对本发明的实施过程作进一步详细的描述。
[0027] 实施例1,一种微博中特定用户的相似用户监控方法,其步骤如下:
[0028] A、根据输入的特定用户su得到扩展自我网络EEN--Extended Ego Network 的用户集,记为 EEN(su) = FollowerCS(su)UFansCS(su)UVisitorCS(su),其中 FollowerCS(su)为 su 的关注集,FansCS(su)为 su 的粉丝集,VisitorCS(su)为 su 的访客 集;
[0029] 其具体步骤如下:
[0030] AU获取时间片TimeSpan内用户su的所有微博集MB-su,包括原创、转发、评论的 微博;
[0031] A2、获取 su 的关注集 FollowerCS (su)和粉丝集 FansCS (su);
[0032] A3、根据su的微博集MB-su提取访客集VisitorCS (su),将三类用户记为EEN(su) =FollowerCS(su)UFansCS(su)UVisitorCS(su);
[0033] B、基于用户的关注、粉丝和动态微博的相似度,以及用户间的动态交互相互性,从 EEN(su)中发现与su相似的用户集SimUser(su) i EEN(su),其具体步骤如下:
[0034] Β1、获取每个用户Useri :丨EEN(su)在时间片TimeSpan内的微博集MB-user;、关注 集 FollowerCS (Useri)、粉丝集 FansCS (Useri);
[0035] B2、计算用户su与Useri ?: EEN(su)的动态微博相似度,记为MBSim(su, user
,其中,Tj为某个时间片,T厂1\的 计算结果为时间片相差个数,I为指数衰减参数,用户1^^在τ ,时间片的