基于分布式矩阵分解特征提取的社交网络垃圾过滤方法
【专利摘要】本发明涉及网络垃圾过滤【技术领域】,特别涉及一种基于分布式矩阵分解特征提取的社交网络垃圾过滤方法,包括以下步骤:步骤S1:构造社交网络用户-属性矩阵;步骤S2:基于分布式矩阵分解对所述社交网络用户-属性矩阵进行特征提取;步骤S3:对潜在特征向量进行分类,判断是否为社交网络垃圾。该方法有利于高效地过滤社交网络中的垃圾数据。
【专利说明】基于分布式矩阵分解特征提取的社交网络垃圾过滤方法
【技术领域】
[0001] 本发明涉及网络垃圾过滤【技术领域】,特别涉及一种基于分布式矩阵分解特征提取 的社交网络垃圾过滤方法。
【背景技术】
[0002] 目前,社交网络已经在人们的生活中扮演着重要的角色并对人们的信息获得、思 考和生活产生不可低估的影响。通过社交网络,用户可以通过聊天室进行交流,创建个人主 页来分享喜爱的信息,与朋友保持更加直接的联系,创建大交际圈并可寻找失去联络的朋 友们,关注查看其他人的主页和分享等。然而,社交网络中的数据具有真假并存性、海量性、 快速传播性、数量无界性等。由于数据的真假并存性与海量性,导致社交网络存在有大量的 不可靠内容,例如欺诈性广告、仇恨言论、虚假新闻等,这些内容缺乏实际价值,然而却可能 对随后的社交数据挖掘、用户行为分析、资源推荐精度产生负面影响,在这种背景下,社交 网络的垃圾过滤已经成为一个亟待解决的问题。
【发明内容】
[0003] 本发明的目的在于提供一种基于分布式矩阵分解特征提取的社交网络垃圾过滤 方法,该方法有利于高效地过滤社交网络中的垃圾数据。
[0004] 为实现上述目的,本发明的技术方案是:一种基于分布式矩阵分解特征提取的社 交网络垃圾过滤方法,包括以下步骤: 步骤S1 :构造社交网络用户-属性矩阵; 步骤S2 :基于分布式矩阵分解对所述社交网络用户-属性矩阵进行特征提取; 步骤S3 :对潜在特征向量进行分类,判断是否为社交网络垃圾。
[0005] 进一步的,在步骤S1中,社交网络用户-属性矩阵的构造方法如下: 假设有η个用户,m个属性,则社交网络用户-属性矩阵构造为已知社交网络中η个用 户集合.
【权利要求】
1. 一种基于分布式矩阵分解特征提取的社交网络垃圾过滤方法,其特征在于,包括以 下步骤: 步骤S1 :构造社交网络用户-属性矩阵; 步骤S2 :基于分布式矩阵分解对所述社交网络用户-属性矩阵进行特征提取; 步骤S3 :对潜在特征向量进行分类,判断是否为社交网络垃圾。
2. 根据权利要求1所述的基于分布式矩阵分解特征提取的社交网络垃圾过滤方法,其 特征在于,在步骤S1中,社交网络用户-属性矩阵的构造方法如下: 假设有η个用户,m个属性,则社交网络用户-属性矩阵构造为已知社交网络中η个用 户集合
和m个属性集合
,為7表示用户+对属性&的度量值,由 此构造社交网络用户-属性矩阵
所述社交网络用户-属性矩阵是稀疏矩阵。
3. 根据权利要求2所述的基于分布式矩阵分解特征提取的社交网络垃圾过滤方法,其 特征在于,在步骤S2中,对所述社交网络用户-属性矩阵进行特征提取的方法如下: 假定存在用户特征矩阵
和属性特征矩阵
,其中
为特征数;则社交网络用户-属性矩阵J中的任意元素可以近似由以//得到,即 尤7?,因此可得:
采用分布式矩阵分解算法将分解问题转换为最优化问题求解,选择目标函数:
上式即为优化目标的代价函数; 对r的任一元素求导,有:
采用随机梯度下降法进行分布式矩阵分解,其迭代格式为:
其中,.*是矩阵对应元素之间的运算; 对r按行分块,对//按列分块,具体格式如下:
将//更新过程拆分为三个部分,分别为:
.
;结合分块方案,通过适当的MapReduce过程求解各个部分; 同理,将F更新过程拆分为三个部分,分别为:(1)Z=A/,(2) 7=腸/,(3)
;结合分块方案,通过适当的MapReduce过程求解各个部分。
4.根据权利要求3所述的基于分布式矩阵分解特征提取的社交网络垃圾过滤方法,其 特征在于,通过MapReduce过程求解//更新过程各个部分的方法如下: (1) 的 MapReduce 过程 对I按列分块,对I第列&有:
上式表示Z第J列&是以
为基的A中第J列非0元素的线性组合;对Z第J 列工j的求解,通过两步MapReduce实现: Map-I : 输
和
,输出
,即把每个i及其相应的 %、相应的所有乂為7分发到云平台中的同一个节点上,经过Map过程,云平台中的同一个节 点得到每个i及其相应的
Reduce-I : 输
,输出
,即每个i及其相应的
经Reduce过程得到每个j'及其相对应的.
; Map-II : 输
,输出
,即把相同j及其相对应的.
指 派到云平台中的同一个节点上,得到每个j及其对应的
形式; Reduce-II : 输
,输出
,即
(2) 7=#殿的 MapReduce 过程 先计算P/Zf,再计算7=07; 首先,对C求解有:
对C'zfF的MapReduce求解,通过一个MapReduce过程完成: Map-Ill : 输·
,输出
,即把每个i及其相应的%、相应的所有7,尤_/分发 到云平台中的同一个节点上,经过Map过程,云平台中的同一个节点得到每个i及其相应的
Reduce-III : 输
,输出
其次,对7=^7的求解,同样对7按列分块,有:
此处通过MapReduce求解,通过一个Map即可: Map-IV : 输入〈乂 1>,输出 </,J〇.> ; 即.
(3).
的 MapReduce 过程 对"的更新也按列分块进行,则"的第J列I为:
该步通过一个MapReduce过程达到并行: Map-V 输,
,输出
; Reduce-V 输.
,输出
,即
。
5.根据权利要求4所述的基于分布式矩阵分解特征提取的社交网络垃圾过滤方法,其 特征在于,通过分布式矩阵分解计算后,r是潜在社交用户特征矩阵;采用矩阵分解的二分 类方法,即在矩阵分解过程中将潜在特征矩阵定义为二维空间,SPAM和非SPAM分别对应于 二维空间中的一维,通过分解,取二维中比较高的值作为分类的类别。
【文档编号】G06F17/30GK104063516SQ201410332642
【公开日】2014年9月24日 申请日期:2014年7月14日 优先权日:2014年7月14日
【发明者】郑相涵, 陈国龙, 李园园, 索文平, 郭文忠, 於志勇 申请人:福州大学