一种面向微博的僵尸粉丝检测方法

文档序号:6638421阅读:2235来源:国知局
一种面向微博的僵尸粉丝检测方法
【专利摘要】本发明公开了一种面向微博的僵尸粉丝检测方法。包括以下几个步骤:选取训练样本集,标注训练样本集中每个用户的用户类型;根据训练样本集中用户的交互行为,建立用户交互图;基于用户交互图提取用户特征;将训练集中每个用户的用户类型和用户特征输入神经网络分类器进行训练,得到训练后的神经网络分类器;提取待检测用户的用户特征,将待检测用户的用户特征输入给训练后的神经网络分类器,得到当前待检测用户的用户类型。本发明能够提高检测僵尸粉丝的检测率与准确度。
【专利说明】一种面向微博的僵尸粉丝检测方法

【技术领域】
[0001] 本发明属于互联网信息管理领域,尤其涉及一种面向微博的僵尸粉丝检测方法。

【背景技术】
[0002] 随着社交网络的快速发展,微博作为主要的社交媒体得到了广大网民的关注。微 博个人用户通过微博与朋友交流并在微博上发布并分享信息,明星用户以及企业微博用户 通过微博进行营销从而提高知名度。由于微博用户数量的快速增长,用户的影响力和可信 度在信息传播和扩散起着重要作用。为了提高用户影响力和可信度,一些用户采取随机关 注其他用户的方式获取其他用户的关注从而增加粉丝数。这种方法不能够满足需要大量粉 丝的用户的需求,由此产生了僵尸粉丝营销商出售粉丝的业务。目前僵尸粉丝营销商所利 用的僵尸粉丝来源途径主要分为两种,一种是创建虚假用户,这些虚假用户通常具有较低 的影响力和可信度,另一种是通过某些手段使正常用户妥协为僵尸粉丝用户,与虚假用户 不同的是妥协用户是高度智能的并且同时具有正常用户和虚假用户的用户特征。微博中的 僵尸粉丝以及具有大量僵尸粉丝的微博用户经常发布营销消息和包含恶意链接的垃圾消 息,破坏了微博社区环境以及降低了微博的用户体验。
[0003] 为了抵制僵尸粉丝以及具有大量僵尸粉丝的微博用户破坏微博的用户体验,微博 启动信息流优化计划,针对用户的举报,对微博内的垃圾营销内容限制展示。但是由于微博 中存在大量的僵尸粉丝并且高智能僵尸粉丝采用逃避策略避免被发现,微博采用的人工举 报的方式效果并不是很明显。
[0004] 现有的微博垃圾用户检测方法中未对不同智能级别的僵尸粉丝进行深入分析,在 检测过程中未考虑微博用户本身以及微博用户粉丝的用户行为特征,应用到实际微博僵尸 粉丝检测系统中会导致较大的误报率、较低的检测率。


【发明内容】

[0005] 本发明的目的是提供能够提高僵尸粉丝的检测率和准确度的,一种面向微博的僵 尸粉丝检测方法。
[0006] 本发明是通过以下技术方案实现的:
[0007] 一种面向微博的僵尸粉丝检测方法,包括以下几个步骤:
[0008] 步骤一:选取训练样本集,样本集中包含用户信息,标注训练样本集中每个用户的 用户类型,用户类型为正常用户和僵尸粉丝用户;
[0009]步骤二:根据训练样本集中用户的交互行为,建立用户交互图G= (U,E,W),U表示 用户集合,E表示顶点之间有交互行为的边的集合,W,wu表示用户i和用户j的交互 次数;
[0010] 步骤三:基于用户交互图提取用户特征;
[0011] 步骤四:将训练集中每个用户的用户类型和用户特征输入神经网络分类器进行训 练,得到训练后的神经网络分类器;
[0012] 步骤五:建立待检测用户的用户交互图,提取待检测用户的用户特征,将待检测用 户的用户特征输入给训练后的神经网络分类器,得到当前待检测用户的用户类型;
[0013] 步骤六:读取下一个待检测用户,重复步骤五,直到任务结束。
[0014] 本发明一种面向微博的僵尸粉丝检测方法,还可以包括:
[0015] 用户特征包括用户关注粉丝比、用户单向交互特征、用户双向交互特征,用户单向 交互特征包括用户原创消息的单向交互动作的平均值和用户非原创消息的单向交互动作 的平均值,其中,用户原创消息的单向交互动作的平均值:
[0016]

【权利要求】
1. 一种面向微博的僵尸粉丝检测方法,其特征在于,包括以下几个步骤: 步骤一:选取训练样本集,样本集中包含用户信息,标注训练样本集中每个用户的用户 类型,用户类型为正常用户和僵尸粉丝用户; 步骤二:根据训练样本集中用户的交互行为,建立用户交互图G= (U,E,W),U表示用 户集合,E表示顶点之间有交互行为的边的集合,WijGW,Wij表示用户i和用户j的交互次 数; 步骤三:基于用户交互图提取用户特征; 步骤四:将训练集中每个用户的用户类型和用户特征输入神经网络分类器进行训练, 得到训练后的神经网络分类器; 步骤五:建立待检测用户的用户交互图,提取待检测用户的用户特征,将待检测用户的 用户特征输入给训练后的神经网络分类器,得到当前待检测用户的用户类型; 步骤六:读取下一个待检测用户,重复步骤五,直到任务结束。
2. 根据权利要求1所述的一种面向微博的僵尸粉丝检测方法,其特征在于:所述的用 户特征包括用户关注粉丝比、用户单向交互特征、用户双向交互特征,用户单向交互特征包 括用户原创消息的单向交互动作的平均值和用户非原创消息的单向交互动作的平均值,其 中,用户原创消息的单向交互动作的平均值:
其中,M。⑴表示用户i的原创消息集合,rc(m)表示消息m的评论数和转发数的总和; 用户非原创消息的单向交互动作的平均值:
其中,Mm(i)表示用户i的原创消息集合,rc(m)表示消息m的评论数和转发数的总和; 所述的用户双向交互特征包括用户交互度和用户交互质量,其中,用户交互度为:
其中,A表示与用户i具有双向交互动作的用户集合, 用户交互质量可以表示为: Q(i) = 其中,巧表示用户i的交互指数。
【文档编号】G06F17/30GK104484390SQ201410765042
【公开日】2015年4月1日 申请日期:2014年12月11日 优先权日:2014年12月11日
【发明者】杨武, 董国忠, 王巍, 苘大鹏, 玄世昌 申请人:哈尔滨工程大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1