Hadoop环境中基于PageRank的网络论坛中意见领袖识别优化方法
【技术领域】
[0001 ] 本发明设及论坛的信息处理,具体地指一种化doop环境中基于化geRank的网络论 坛中意见领袖识别优化方法。
【背景技术】
[0002] BBS(Bulletin Board System,又名论坛)已经成为了人们生活中必不可少的一种 发表自己言论、情绪和获取信息的一种工具。身处改革开放经济高速发展、社会处于转型期 的今天,特别是Web2.0时代巧临,人人都是一个"自媒体",每个人都要求发表自己的观点, 有人甚至将自己的生活状态中不满情绪夹杂在言论中发表到网络,更有甚者,他们在网络 中造谣,攻击政府和人民,肆意煽动不明真相的人民,从"3.15打砸"到"中日有关钓鱼岛主 权的争议"等社会热点问题中初见端倪。因为与传统的电视、报纸、广播等媒介相比,BBS是 具备更强的开放性和互动性,用户只要注册一个BBS站点的ID就可W发表言论并参与讨论, 还可W获取多元化信息,而且还能在众多用户中找到自己的"知音"。由于用户注册的ID本 身具备一定的隐蔽性,正是因为运种论坛审核技术的漏桐,用户的言论才会大胆、直爽,也 能体现出用户的真实观点。
[0003] 信息网络传播的过程中,由于网络的虚拟特征和开放的特点,不管你是政府的工 作人员还是普通的网民,他们均可W在网络上发表自己的言论。但是,对于不同的人发表的 信息在传播的深度和广度方面的影响就会不一样,普通的网民的影响范围仅仅在自己的朋 友圈之内。可是一个社会的名人的一个言论的影响力就所能达到的影响范围就不一定只是 他的好友圈了,它还会波及好友的朋友圈。运里的名人可W看成社会中的意见领袖,互联网 网络其实跟社会网络一样,也存在着意见领袖,他们在网络上能聚集一大波粉丝,具有很强 的影响力。因此,意见领袖作为一种社会舆论力量,在社会舆论的形成过程中扮演了十分重 要的角色,而且他们的部分意见可W推动舆论的演化方向,意见领袖的影响力能够渗透到 现实社会中。
[0004] 在意见领袖的研究过程中,不少专家学者W及研究人员提出很多研究方法,但是 运些算法存在着诸多不足。有些学者引入社会网络学研究方法中的点度中屯、性、中间中屯、 性W及接近中屯、性等概念,然后根据节点中网络中的位置计算运些指标,依托运些指标值 找出意见领袖,运种算法对于小型网络效果还可W,当网络中节点数量达到一定的范围,算 法效率受到很大影响,不适合做大型网络的节点分析。还有些研究人员将用户与用户之间 互动的次数作为衡量用户与用户之间的关系强度的唯一标准。运些做法都具有一些局限 性,容易对真实情况产生误导。在研究网络论坛的回复关系时,实际还存在着一种间接回复 关系,即B对A的帖子进行了回复,C对B的回复内容进行了再次回复,按照传统的研究算法,C 与A之间不存在任何联系。但实际上,C的影响力通过回复链接可W传递给A,那么A和C之间 是存在着相关联系。
[0005] 此外,随着互联网技术飞快发展,网络规模是越来越大,网络论坛中数据形式也是 越来越多样化,传统的处理技术已经不能完全满足运种海量数据处理架构。
【发明内容】
[0006] 本发明目的在于克服上述现有技术的不足而提供一种Hadoop环境中基于 化geRank的网络论坛中意见领袖识别优化方法,该方法依托A和C之间是存在着相关联系, 找出论坛中的意见领袖。
[0007] 实现本发明目的采用的技术方案是一种化doop环境中基于化geRank的网络论坛 中意见领袖识别优化方法,该方法包括:
[0008] (1)根据帖子回复关系构建回复关系网络图,并将影响力初始化为1;
[0009] (2)根据所述回复关系网络图,计算任意两个节点之间距离相似度和两个帖子之 间内容相似度;
[0010] (2)根据步骤(2)的计算结果,计算两个回帖的相似度;
[0011] (4)根据帖子相似度构建概率转移矩阵;
[0012] (5)计算每个节点UserRa址值;
[0013] (6)重复步骤(2)-巧),直到每个节点UserRank趋于稳定,最大UserRank( j)的用户 为意见领袖。
[0014] 本发明具有W下优点:
[0015] (1)现有的化geRank算法是对互联网上的网页给出了一个全局的重要性排序,然 而重要性与主题无关,没有区分页面内的导航链接、广告链接和功能链接等非内容链接,容 易对广告页面有过高评价。本发明方法是从用户的角度回复内容出发,计算内容相似度,提 升了最后生成的意见领袖正确率,误报率降低了 12%,漏报率降低了 10%。
[0016] (2)现有化geRank算法的另一弊端是,旧的页面等级往往会比新页面高,因为新页 面,即使是非常好的页面,也不会有很多链接。本发明方法在构建回复关系网络图中,任意 两个节点之间的权值可能不一样,运个权值受回帖的情感倾向的影响,给予新的页面更高 的权值,使得形成的转移矩阵更加精确,最后实验时,实验结果中错误代价减少了 15%。
【附图说明】
[0017] 图1为本发明化doop环境中基于化geRank的网络论坛中意见领袖识别优化方法的 流程图。
【具体实施方式】
[0018] 下面结合附图和具体实施例对本发明作进一步的详细说明。
[0019] 本发明提出了一种基于帖子发布的先后顺序和内容相似度的意见领袖识别的方 法,该方法在化geRank算法的基础上进行优化,PageRank算法认为在网络中任意一个节点 跳转到另外一个节点的概率大小相等,但是运与BBS中回复关系网络有所差异,网民浏览回 帖W及发表回帖都是根据自己的兴趣爱好随机进行。因此本文重新定义了一个概率转移矩 阵,该矩阵的每一个元素都受限于影响力的强度,并将该方法部署到化doop平台。
[0020] 本发明提出基于化geRank的网络论坛中意见领袖识别优化方法,是W化geRank算 法为基础并结合用户之间的回复关系提出来的具体包括W下步骤:
[0021] SlOO、根据关系构建回复关系网络图模型,并将影响力初始化为1。
[0022] 在BBS论坛中存在上千上万甚至百万级的用户,根据他们的回复关系构建一个帖 子的回复关系图G(V,E,W),图是由顶点和边组成,其中,V表示顶点的集合,表示用户发表的 帖子。E表示连接两个不同顶点集合的集合,表示用户之间的互动关系,信息传播流向是有 方向的,由回帖人指向发帖人。W表示两个节点之间传播信息的强度。信息传播网络图的构 建规则如下:
[0023] (1)-个帖子文本内容代表一个节点;
[0024] (2)若用户i对用户j的帖子进行了回复,那么节点j和节点i之间将建立一条由j指 向i的线;
[0025] S200、根据回复关系网络图,计算任意两个节点之间距离相似度和两个帖子之间 内容相似度。
[0026] 间接回复关系指的是两个评论之间的相识度,本专利认为回帖人如果对发帖人保 持积极的评价时,那么他的评论在语义上会与帖子内容保持高度的一致。因此,本发明认为 回帖和原帖内容的相似度决定了回帖人对发帖人的影响力的强度。间接链接的影响力不但 由回帖的内容决定,还取决于回帖发表的先后关系,在BBS中用户发表一个帖子,他可W立 即查收到回帖信息,一个立马就收到的回帖的影响力要大于一天之后收到的回帖的影响 力。因为先收到的回帖会引起发帖人的注意,运也从侧面说明了一个问题:最往后发表回帖 会降低回帖影响力,同样也减少了其他网民讨论该帖子的机会。
[0027] 本发明首先使用空间向量模型VSM来表示帖子和回帖如公式(1)所示。
[002引
Π )
[0029] 其中,word康示pj的关键字,W康示特征词wordi的权重。
[0030] 两个帖子内容相似度采用表示它们的空间向量的余弦距离表示,则帖子的内容相 似度计算方法如公式(2)所示。
[00 川
(·2) 其中,II pj II表不pj的长度,即模的大小。
[0032] 节点A和B之间的距离越短,那么B对A的影响力就越大。如何将运个熟悉的规律反 应到帖子回复关系网络中呢?我们可W用两个节点在关系网络中的逻辑距离来Dis(pi,pj) 表示,其中Dis(pi,pj)计算公式如(3)所示。
[0033] Dis((pi,pj))=xl(Pi'Pj)l (3)
[0034] 其中,x(0<x< 1)为距离相关系数,|(pi,pj)|表示回复网络图中的两个点Pi