基于用户关系的博主兴趣社区发现方法
【专利摘要】本发明提出了一种新的基于用户关系的博主兴趣社区发现方法,并为舆情控制提供技术手段。本发明是利用现有微博开放平台,通过开放的API来接入,抓取微博博主及其特定时间段的内容,并对这些内容进行文本分析,从中提取出适当的若干人工兴趣标签,这些标签代表着博主在该特定时间段的兴趣。然后,我们对具有收听关系的博主的人工兴趣标签进行相似度比对,找出具有传播关系的博主的共同兴趣的子网,进而通过改进的GN算法完成子网上的社区发现,最终从基于兴趣的社区入手进行舆情的监控与信息传播的控制。本发明为微博博主的社区发现提供了一种新的方法,并为信息传播的控制提供了一种技术,具有较强的实践意义。
【专利说明】基于用户关系的博主兴趣社区发现方法
【技术领域】
[0001] 本发明属于互联网社区划分技术,具体涉及一种基于互联网上的用户关系的博主 兴趣的社区发现方法。
【背景技术】
[0002] 随着Web2. 0时代的发展,微博作为一种互联网社交网络服务,以其快捷精炼的特 点风靡全球。微博为用户构建了一个可以通过计算机、手机、MI软件和外部API接口等多 种方式发布140字以内的文本信息及图片、影音等多媒体内容的平台。用户基于社交与话 题这两方面,获取其关注与感兴趣的信息。正是微博庞大的用户群与快捷的消息发送方式 的特点,使得微博平台向用户提供了庞大的信息量。
[0003] 微博不同于传统的社交媒体一对多的信息传播模式,它的传播具有迅捷性和裂变 性,这种信息传播的模式使得微博在突发事件的传播以及舆论的扩散方面具有更强的作用 力。鉴于微博传播的特性,如果无法有效对其发展规模与动向进行监控与引导,将会在网络 乃至现实社会造成严重影响,在这种情况下微博的舆情监控显得格外重要。同时,微博平台 中用户不仅是网站内容的浏览者,也成为了网站内容的创造者,信息的传播以博主用户为 单位,他们的言论和行为特征更加直接决定了网络信息的传播方向和影响范围。
[0004] 社区的一般定义是同一社区内的节点与节点之间的连接很紧密,而社区与社区之 间的连接比较稀疏。将博主的传播关系与行为特征相结合进行社区划分,我们可以锁定某 一兴趣主题类的传播圈和传播关系,进而通过社区划分,实现信息传播的微博舆情控制等 具有现实意义的举措。
[0005] 微博中,博主通过收听(或关注)关系上获取信息,通过听众(或粉丝)关系向下 传播信息,由此构成微博中的传播渠道。但是,博主通常有多个兴趣(可以通过提取博主微 博的关键词,给该博主"贴"上若干人工兴趣标签),不一定对每条信息都回复或转发,造成 实际的信息传播关系只是收听关系的一个子网。所以,单纯通过收听关系划分博主社区的 方式,没有多大实际意义;只有在用户兴趣关系的基础上发现社区,才能实现真正的社区节 点划分与控制。
[0006] 在现有的微博研究中,对博主的社区划分方面的理论已经有许多。比较突出的是 博主自主选择加入的不同的小组或是微群,以便与志同道合的其他博主进行交流,但是这 样的划分方式,使得很多博主的内在区别被忽略。博主只能主动地进行社区选择,很可能本 身就忽略了自己的许多特性。因此,我们缺乏一种更加客观且完善的微博社区划分机制。从 博主发布的微博中可以看出博主的习惯用语、兴趣点所在以及性格特点。所以,基于对博主 发布内容的分析,可以从很大程度上对博主进行当前的兴趣分析,给博主打上个性化的人 工兴趣标签(为防止赘述,以下我们把"人工兴趣标签"简称为"标签"),进而对博主进行 标签分类,从而进行博主的兴趣社区的划分。同时鉴于微博的传播特点,在对博主兴趣社区 划分时应考虑到基于用户关系(某个共同兴趣)的传播链,进而进行基于用户关系的社区 发现。
[0007] 本发明新提出基于用户关系的博主兴趣社区发现方法,根据博主的微博内容和好 友收听(或关注)关系对其进行客观的直接划分。通过开放的API来接入,抓取微博博主 及其特定时间段的内容,包括发布的微博及其评论和转发,并对这些内容进行文本分析, 从中提取出适当的若干人工兴趣标签,这些人工兴趣标签代表着博王在该特定时间段的兴 趣。然后,我们对具有收听(或关注)关系的博主的人工兴趣标签进行相似度比对,找出有 传播关系的博主的共同兴趣的子网,进而通过GN算法完成子网上的社区发现。
[0008] 本发明为微博博主的社区发现提供了一种新的方法,并为信息传播的控制提供了 一种技术。例如,如果希望把一类特定内容的信息的传播控制在其兴趣社区内,则可以先进 行兴趣社区发现,然后对该社区作为入手点进行操控,并对该社区与其它社区的连接进行 监视,在必要的情况下,切断该社区与其它社区的连接。
【发明内容】
[0009] 本发明提出了一种新的基于用户关系的博主兴趣社区发现方法,并为舆情控制提 供技术手段。本发明是利用现有微博开放平台,通过开放的API来接入,抓取微博博主及其 特定时间段的内容,并对这些内容进行文本分析,从中提取出适当的若干人工兴趣标签,这 些标签代表着博主在该特定时间段的兴趣。然后,我们对具有收听(或关注)关系的博主 的人工兴趣标签进行相似度比对,找出具有传播关系的博主的共同兴趣的子网,进而通过 GN算法完成子网上的社区发现,最终从基于兴趣的社区入手进行舆情的监控与信息传播的 控制。本发明为微博博主的社区发现提供了一种新的方法,并为信息传播的控制提供了一 种技术,具有较强的实践意义。
[0010] 1.数据抓取
[0011]目前国内所有的微博平台都是开放的,这些开放的微博平台都相继公布了针对 其平台可以进行使用的API。基于这些API,可以获得抓取微博数据的基础与途径。整个微 博数据抓取程序设计框架如图1所示,主要的内容如下:微博开放平台、OAuth认证授权、 API访问、API源程序、访问队列控制程序、存储控制程序及SQL Server数据库。抓取博主 列表中所有博主截止当前的最近K个月的所有微博。如果该博主最近K个月的微博总条数 大于T条,则认为该博主常发微博,是价值型博主,继续下面的步骤;否则放弃此博主,处理 下一个微博博主。本发明中,将利用这些价值型博主最近K个月发布的微博,确定相应博主 的最近兴趣。
[0012] 2.数据预处理
[0013] 收集数据后,需要对数据进行预处理。首先,去除微博中的符号,如表情符号,@标 志及其后面的博主昵称、话题标志" ## "以及标点、空格、回车等内容。之后,对获取的文本 进行分词,这里我们选择使用中科院分词系统ICTLAS。分词后,去除代词、语气助词等类似 的词语,将这类出现频率很高但对于博主标签挖掘没有帮助的词语统称停用词。本专利采 用停用词表法去除停用词。
[0014] 3.关键词提取
[0015] 对微博数据预处理后,进行博主标签提取。标签的类型有如下两类:
[0016] a.对于字数多于Μ字的微博,使用TF-IDF方法提取出微博内容中的关键词; [0017] b.对于字数小于等于Μ字的微博,直接提取出博主的微博内容中的名词和形容词 作为该微博的关键词。
[0018] 下面列出具体方法:
[0019] (1)对于基于TF-IDF方法的博主关键词的提取,我们使用TF-IDF方法。TF-IDF 作为一种统计方法,主要是用来评估在一个文件集或一个语料库中的某个文件中,某些字 词的重要性。应用在本发明中,为每位博主提供兴趣爱好的关键字。
[0020] a. TF(Term Frequency):即词频,表示一个字词与某个文档的相关性。在这里为一 个字词在某条微博中出现的频率。公式为
【权利要求】
1. 首先获取某个微博博主的基本信息,构成一个基本的博主列表。抓取博主列表中所 有博主截止当前的最近6个月(即选取K个月之内的微博,此处K = 6)的所有微博。如果 该博主最近6个月的微博总条数大于100条(即微博总数大于Τ,此处Τ = 100),则认为该 博主常发微博,是价值型博主,继续下面的步骤;否则放弃此博主,处理下一个微博博主。
2. 对该博主微博进行预处理,包括分词、去除微博中的符号、分词及去除停用词。对于 预处理后的微博,提取每条微博的关键词。对长度超过50个字符(即当微博的字符数超 过Μ时,此处Μ = 50)的微博,使用前述基于TF-IDF方法进行关键词提取,对TF*IDF的值 进行降序排列,取前20个TF*IDF的值对应的词。对长度小于等于50个字符的微博,使用 前述基于名词、形容词的方法进行关键词提取,对这些词出现的次数进行降序排列,取前20 个词作为该博主的关键词。
3. 对于上述得到的每个博主的关键词,统计这些关键词在该微博博主最近6个月(即 统计K个月之内的微博,此处K = 6)发布的微博中的使用次数,并进行降序排列,取前30 个(即取前L个关键词作为博主标签,此处L = 30,如果少于L个则直接使用该数目,为了 方便,我们仍记此数目为L)作为博主最近的标签。
4. 对于全体U个博主,将具有收听关系的博主之间连线,箭头指向收听者,表示一条实 际存在的传播通路,这样就构成了 W个博主的收听关系网(W是对全体U个博主进行连接具 有信息传播通路后得到的博主总数)。博主收听关系网,是指博主节点通过收听关系的传播 通路连接在一起,形成一个覆盖面较广的有向网络。 在博主收听关系网的基础上,我们通过相似度计算的方法将含有同义标签的博主抽取 出来,形成一个子网,这个子网是基于博主的某个实际的共同兴趣的,因此在此子网下信息 是具有传播通路的。
5. 由于社区的一般定义是同一社区内的节点与节点之间的连接很紧密,而社区与社区 之间的连接比较稀疏,因此在得到基于博主兴趣的收听关系子网后,通过GN算法的改进方 法完成子网下的社区划分。本发明将GN算法进行改进,定义边介数为收听子网中经过每个 节点的连线数目,即所有连接该节点的连线的数量之和为该节点的边介数。按照复杂网络 中社区的定义,社区内部结点之间联系紧密,而社团之间连接比较松散,所以社区内的节点 比社区外部的节点具有更大的边介数。通过逐步移去这些边介数较小的节点就能够把它们 连接的社区分割开来。
6. 通过上述算法,可以对同一子网下的全体博主的标签进行社区划分,进而得到基于 博主信息传播关系的若干个不同社区层,将得到的社区兴趣层结果进行可视化展示,进而 进行舆情的控制和引导。例如宏观监控人员不希望某信息在微博上广泛传播,又不想过多 地干涉微博用户,可以通过技术手段切断从该社区到周边社区数目不多的流出连线(即有 向连线)。
【文档编号】G06F17/30GK104102675SQ201310128135
【公开日】2014年10月15日 申请日期:2013年4月15日 优先权日:2013年4月15日
【发明者】梁循, 柴若琪, 林航, 朱浩然, 马跃峰 申请人:中国人民大学