一种在线社交网络垃圾评论用户检测方法

文档序号:34545418发布日期:2023-06-27 20:18阅读:64来源:国知局
一种在线社交网络垃圾评论用户检测方法

本发明属于数据挖掘领域,涉及一种基于图神经网络的异常检测方法。该方法将在线社交网络建模为图,将垃圾评论用户视为在线社交网络中的异常节点,使用融合边信息的图神经网络抽取在线社交网络用户的特征,并将特征输入到分类器中进行半监督异常检测。


背景技术:

1、随着互联网的发展,涌现了越来越多的在线平台,例如微博,大众点评,豆瓣等。随着用户基数的提升,这些在线平台上的无意义的评论和恶意的评论越来越多。另外,一些不良商家为了刷好评率会雇佣专门的刷分账号在其产品下发送好评评论。这些恶意用户严重扰乱了各类在线平台的可信度。仅采用人工的方式进行审查会消耗大量的人力,因此垃圾评论用户的智能化检测的需求越来越高。

2、通过将用户建模为节点,用户间的各种交互关系为边可以为在线社交平台建立在线社交网络,从而可以使用基于图的算法来检测垃圾评论发送者。由于图数据的复杂性以及垃圾评论发送者的伪装性等特点,垃圾评论发送者检测依然面临着多种挑战。

3、图神经网络由于其在图特征提取上的出色性能被广泛应用于各类的图学习的任务中。fdgars[1]就是一种使用图神经网络检测垃圾评论发送者的方法。但是为了避免被算法检测,垃圾评论发送者可能会产生一些伪装行为,例如与大量正常用户建立正常交互,或者将自己的用户属性和发送的评论进行伪装,使其与正常的用户属性和评论相似。此时就需要对图神经网络的结构进行优化以适应存在伪装行为时的垃圾评论发送者检测任务。

4、[1]wang j,wen r,wu c,et al.fdgars:fraudster detection via graphconvolutionalnetworks in online app review system[c].in companion of the 2019worldwide web conference,2019:310–316


技术实现思路

1、本发明的主要目的是提供一种在线社交网络垃圾评论用户检测方法,用来更为精准地检测社交网络中的垃圾评论发送者。技术方案如下:

2、一种在线社交网络垃圾评论用户检测方法,包括下列步骤:

3、步骤一,图构建和预处理

4、(1)以在线社交平台用户为节点,用户间的交互关系为边建立图结构,构建邻接矩阵;

5、(2)将用户属性数值化,构建属性矩阵,属性矩阵每行代表对应的用户的属性;

6、(3)人工标注部分数据,给出被标注的节点的编号及标签,1代表垃圾评论发送者,0代表正常用户,并划分训练集和测试集;

7、(4)建立一个置信度向量其中n代表节点个数,第i位为0时代表节点i更可能为正常用户,第i位为1时代表节点i更可能为垃圾评论发送者;初始化该置信度向量,使训练集中标签为0的节点在b中对应的位置为0,使训练集中标签为1的节点在b中对应的位置为1,其余位置均为0;

8、步骤二,图神经网络构建

9、图神经网络共包含两层,最后一层的输出维度为2,第1维代表神经网络将节点判定为垃圾评论发送者的置信度,第2维代表神经网络将节点判定为正常用户的置信度,图神经网络通过聚合节点邻居的特征来获取节点自己的特征,在提取节点特征时考虑其邻居的类别信息,对于不同类型的邻居执行不同的特征聚合策略;

10、对于每一层图神经网络均包含以下过程:

11、(1)使用全连接层将用户u的特征hu降维得到降维后的用户特征zu,公式如下:

12、zu=wthu

13、其中,为全连接层的权重矩阵,din为该层输入维度,dout为该层输出维度;

14、(2)将节点v视为中心节点,对于节点v在关系r下的每一个邻居u,按照其与中心节点的关系计算其重要性系数公式如下:

15、

16、其中,为可训练的权重向量;

17、(3)根据置信度向量b判断节点的邻居是否与其同类,将关系r下的节点v的同类邻居放到集合中,异类邻居放到集合中;

18、(4)将两类邻居的重要性系数分别进行归一化操作,得到用以聚合的注意力分数;对于节点v在关系r下的邻居u,如果节点u与节点v同类,则其注意力分数由以下公式求得:

19、

20、其中,为节点v的同类邻居的集合;exp为自然指数函数;σ为非线性激活函数;同理,如果该邻居节点与节点v异类,则其注意力分数由以下公式求得:

21、

22、其中,为节点v的异类邻居的集合;

23、(5)根据上一步计算得到的注意力分数分别计算关系r下中心节点v的同类邻居的嵌入和中心节点v的异类邻居的嵌入其计算公式如下:

24、

25、

26、(6)对于每个节点v,以其特征zv与其他节点特征的欧式距离为依据获取其k近邻节点构成k近邻图

27、(7)按照进行一次聚合操作获取到每个节点v的k近邻嵌入hknn,v,公式如下:

28、

29、其中,k为k近邻选取的邻居数;为权重矩阵;为节点v的k近邻集合;

30、(8)对于每一个节点v,将其同类邻居嵌入异类邻居嵌入和k近邻嵌入hknn,v融合可得到关系r下节点v的综合嵌入

31、(9)引入多头注意力机制,重复步骤(1)到步骤(8)共h次,并将这些拼接得到关系r下的多头注意力后节点v的特征

32、(10),采用拼接和线性变换操作将多关系下的整合为h′v;

33、堆叠两个图神经网络层后得到最后一层的输出hv,out,该输出是一个二维向量;第1维代表节点v为垃圾评论发送者的置信度,第2维代表节点v为正常用户的置信度;对hv,out取softmax操作后即可表示节点属于正常节点和异常节点的概率值;当hv,out的第0维的值大于第1维的值时,该节点被判定为正常节点;当hv,out的第1维的值大于第0维的值时,该节点被判定为异常节点;

34、步骤三,迭代优化

35、(1)将整个图输入到图神经网络中,获取输出结果hout,是全部的hv,out的纵向拼接;

36、(2)对训练标签进行欠采样得到参与损失计算的节点集合使得参与损失计算的正常节点数量与异常节点数量相近,以避免标签01不均衡的影响;

37、(3)按以下公式计算的损失

38、

39、其中,yv代表节点v的标签;

40、(4)根据模型输出hout更新置信度向量b,使hout中第1维大于第2维的行在b中对应的位置为1,其余为0;

41、(5)根据损失执行梯度下降算法;

42、(6)当损失收敛时停止训练;

43、步骤四,无标签用户类别输出

44、(1)获取模型输出hout,取出未标标签的节点对应的行;

45、(2)如果节点i在hout中对应行的第1维的值大于第2维,则该节点为垃圾评论发送者,反之为正常用户。

46、本专利首先将用户建模为节点,用户间的交互关系建模为边建立图结构,同时,人工标记少量的垃圾评论发送者;然后搭建图神经网络,该神经网络主要包括邻域特征提取、全局特征提取和特征融合三个部分,图神经网络最终输出一个二维向量,第一维可以视为用户是垃圾评论发送者的概率,第二维可以视为用户是正常用户的概率;然后使用梯度下降算法迭代优化,在每轮迭代中,使用标签信息和交叉熵计算神经网络的损失并按照损失使用梯度下降更新神经网络参数;最后在损失收敛后获取神经网络的输出作为检测结果。本发明具有一下特点:需要手动标注的标签信息少;对伪装的垃圾评论发送者的检测能力高。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1