微博中针对大宗商品舆情信息的恶意主体识别方法

文档序号:30944408发布日期:2022-07-30 02:58阅读:92来源:国知局
微博中针对大宗商品舆情信息的恶意主体识别方法

1.本发明涉及一种微博平台中针对大宗商品舆情信息的恶意主体识别技术,属于大宗商品电子商务监管技术领域。


背景技术:

2.随着大宗商品交易的蓬勃发展,投资者密切关注交易所中大宗商品交易实况,互联网社交平台中相关信息日益增多,影响力也逐渐扩大。我国大宗商品市场正向专业化、规范化方向转型升级,但仍然存在一些问题,部分交易所出现非法集资、仓单造假、违规挪用保证金等乱象,致使信用危机频发。如果不能及时处理这些问题引发的负面舆情,经过传播和放大后易酿成危机事件,从而又将加重舆情的消极影响,陷入不断恶化的循环。除了由于交易所自身问题导致的负面舆情,恶意维权同样是交易所负面舆情的一大来源。这类敲诈勒索式恶意维权事件不仅引发网络暴力,更严重干扰了各交易所的正常运营,对其声誉信誉造成了极大的损害。因此,对各交易所而言,需要及时发现与己相关的舆情信息,识别事件中的恶意主体,避免或减少舆情事件对其造成的影响。
3.在开放性较高的社交平台中,各个大宗商品交易所的舆情信息,除少量官方发布外,普通用户的发布占比更多,而相比于开放性较低的社交平台,普通用户在高开放性的平台中发布的交易所的舆情大多关于投资亏损的发泄或维权。普通用户的个人力量大多有限,因此常倾向于选择与有相似近况的人聚集抱团维权以扩散事件的影响力,所以维权团体之间大多会互相关注以便及时联系。通常,为了达到增加热度的效果,恶意维权用户会不断地转发含交易所相关信息的微博并在微博中添加多种标签,甚至会对同一条微博多次转发以达到扩散的目的,其行为和水军存在一定的相似之处,因此,在对用户进行行为特征刻画时可以在一定程度上参考水军的行为模式。
4.当前网络水军检测技术目前大致可分为有监督、半监督和无监督三个方面,有监督方法准确率高,但需要以存在精确标签的数据集为基础,半监督方法降低了对已标记数据集的依赖,但在识别方面的适应性存在缺陷,无监督方法摒弃了已标记数据集,但存在识别正确率不高的问题且计算量相对较大。由于高开放性社交平台中大宗商品恶意维权团体信息不多,难以获取高精度的标注数据;同时,恶意维权账号背后大多为人工操作,有别于水军的机器操作,其特征与水军存在一定差别,因此,本文采取将用户行为与大宗商品舆情信息结合的无监督式恶意主体识别的方法。首先选择源头节点构建舆情传播网络,根据网络中节点的关注关系构建用户关系图,随后对该关系图进行社区发现识别维权团体,对于识别出的待检测样本,构建用户行为特征,通过聚类算法划分两类,并通过行为特征综合属性值识别出恶意维权倾向节点。本发明希望通过用户行为特征进行无监督式识别恶意主体,不依赖于已标识的数据集以减少人工因素对最终结果的影响,同时最终识别结果取决于用户自身行为,以期提高灵活性与适应性。


技术实现要素:

5.为解决上述问题,本发明公开了一种微博平台中针对大宗商品舆情信息的恶意主体识别方法,用以识别微博平台中有关大宗商品的恶意维权团体,以期避免或减少负面舆情信息的危害,维护大宗商品行业的良性发展。该检测方法分为四步:舆情传播网络与用户关注关系图构建、维权团体社区发现、用户行为特征构建、聚类与恶意维权用户识别。系统按序执行各个部分,实现无监督式识别恶意维权主体的功能,减少人为因素的影响,提升识别结果的客观性并提高系统的适应性与灵活性。
6.一种微博平台中针对大宗商品舆情信息的恶意主体识别方法,包括以下步骤:
7.步骤(1):舆情传播网络与用户关注关系图构建。在微博中根据交易所名称或简称搜集相关舆情信息,选定源头节点后,搜集源头节点的转发数据,以用户为节点,若两者之间存在转发关系,则生成一条边,构建舆情传播网络。针对该网络中的各个节点,若两个用户之间存在关注关系,则生成一条边,从关注者指向被关注者,构建用户关注关系图。
8.步骤(2):维权团体社区发现。维权团体通常互相关注以便能够及时联系,其所在社区密度高于普通用户,本文进行社区发现算法选取密度最高的团体作为后续样本。首先选取入度和出度之和最高的节点作为中心节点,若度数之和最高的节点有多个则随机选择一个;根据微博含交易所名比例计算该中心节点的邻居节点与其的相似度,选取相似度最高的邻居节点与中心节点构成初始社区,若相似度最高的邻居节点有多个则全部选择;接着对社区的邻居节点计算其与社区内节点的平均相似度,选择值最大的节点作为待加入节点,并计算若加入形成新社区的模块度增益,如果增益大于等于0则将其加入社区,若有多个平均相似度最高的节点则依次进行上述判断。重复上述过程直至所有节点都属于某个社区。划分完社区后,计算每个社区的密度,选取密度最高的社区作为后续待检测样本。
9.步骤(3):用户行为特征构建。对于第二部分检测出的维权团体样本,搜集团体内每个用户从最近日期起的n条微博信息,构建用户行为特征。通常,恶意维权用户为了扩大事件的影响力,会采取和水军相似的行为,频繁转发相关维权信息或大量发布涉及相关交易所的信息。因而,本方案将从五个方面构建用户特征,包括交易所名频繁度、交易所名活跃度、交易所名显著度、相关标签平均数、相关文章出现率。其中,交易所名频繁度为含交易所名或简称的微博数与总微博数之比;交易所名活跃度为含交易所名或简称的微博间隔天数的方差的倒数;交易所名显著度为每天含交易所名或简称的微博占比的总和的均值;相关标签出现率为与交易所相关的标签的总数与总微博数之比;相关文章出现率为与交易所相关的文章链接数与总微博数之比。
10.步骤(4):聚类与恶意维权团体识别。根据每个用户的行为特征,使用k-means++算法将样本聚成两类。分别计算五个特征在每个类中的均值,将其进行z-score标准化后相加,得到两个综合属性值。恶意维权用户由于其大量转发扩散等行为,其综合属性值相比于普通用户较高,因此,判定综合属性值高的一类存在恶意倾向。
11.本发明有益效果:
12.(1)减少人为因素对恶意识别结果影响采用无监督式恶意主体识别,根据用户关注关系判断用户抱团维权倾向,依据用户自身的行为判断用户的恶意倾向,减少对于人工标注数据的依赖,有效提升最终识别结果的客观性。
13.(2)增强适应性与灵活性算法主要关注用户近期数据,获取较为容易并减少了历
史信息对当前恶意识别的干扰。维权团体的发现依赖于舆情传播网络中的用户关注关系与用户行为,聚类划分与恶意识别取决于用户自身的近期行为,有效减少对用户多维信息的需求,在数据规模较小的情况下,依旧能够支撑算法的运行,增强了系统的适应性与灵活性。
附图说明
14.图1是本发明的主要原理示意图;
15.图2是维权团体社区发现示意图。
具体实施方式
16.下面结合附图和具体实施方式,进一步阐明本发明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。需要说明的是,下面描述中使用的词语“前”、“后”、“左”、“右”、“上”和“下”指的是附图中的方向,词语“内”和“外”分别指的是朝向或远离特定部件几何中心的方向。
17.如图1-2所示,本实施例的一种微博平台中针对大宗商品舆情信息的恶意主体识别方法,是通过结合用户行为与大宗商品信息的一种无监督式恶意主体识别方法,系统无需借助已标注的数据集和人工分析,自动根据用户行为数据刻画用户特征进行最终判别;具体包括以下步骤:
18.步骤(1)初始阶段选择源头节点搜集转发数据构建微博舆情传播网络:以用户为节点,若两个用户之间存在转发关系,则在两者之间形成一条边。随后针对舆情传播网络中的节点,搜集其相互之间的关注关系,构建用户关注关系图:以用户为节点,若两个用户之间存在关注关系,则在两者之间形成一条边,从关注者指向被关注者。
19.步骤(2)第二阶段是识别用户关注关系图中维权团体。采用社区发现算法对关系图进行划分,具体步骤如下:
20.计算关注关系图中每个节点的入度和出度之和,选取度最大的作为中心节点,若度最大的节点有多个,随机选取其中一个:
[0021][0022]
node
center
=rand(centernodes)
[0023]
其中,centernodes为度最大的节点集合,v是关注关系图的节点集,i是v中一个节点,为节点i的入度,为节点i的出度。node
center
为最终的中心节点。
[0024]
计算中心节点的邻居节点与中心节点的相似度,选取相似度最高的与中心节点构成初始社区,若相似度最高的邻居节点有多个则全部选择。节点相似度的计算公式如下:
[0025][0026]
i(i,j)=neighbour(i)∩neighbour(j)
[0027]
u(i,j)=neighbour(i)∪neighbour(j)
[0028]
其中,i和j是关注关系图中的任意两个节点,similarity(i,j)为节点i和j的相似
度,neighbour(i)为节点i的邻居节点,i(i,j)是节点i和节点j的邻居节点的交集,u(i,j)是节点i和节点j的邻居节点的并集,exchangenameratek为节点k在n条微博中含交易所名的微博所占比例。
[0029]
计算该初始社区的邻居节点与社区内节点的平均相似度,选取值最大的作为候选节点,计算如果将该节点加入形成的新社区的模块度增益,如果增益大于等于0,则将该节点加入,若有多个平均相似度最高的节点则依次进行判断。模块度增益计算公式如下:
[0030][0031]
化简可得:
[0032][0033]
其中,σc为社区内部的边数,为社区内部节点指向节点k的边数,为社区外部节点指向社区内部节点的边数,为社区内部节点指向社区外部节点的边数,为关系图中节点指向节点k的边数,为节点k指向关系图中节点的边数,m为关系图中所有边数。
[0034]
重复上述步骤直至所有节点都归属于某个社区。
[0035]
对关注关系图划分完社区后,计算每个社区的密度,选取密度最高的社区作为后续样本。密度计算公式如下:
[0036][0037]
其中,nc为某个社区c包含的节点数,sc为该社区中实际存在的边数。
[0038]
步骤(3):第三阶段是构建用户行为特征。对于第二阶段识别出的维权团体,搜集团体内每个用户从当前日期开始的n条微博,进行以下行为特征构建:
[0039]
交易所名频繁度:恶意维权用户会大量发布或转发与交易所有关的微博,其微博内交易所名出现的频率较高。计算公式如下:
[0040][0041]
其中,num
en
为n条微博内含交易所名称或简称的微博数;
[0042]
交易所名活跃度:恶意维权用户会频繁发布或转发与交易所相关微博,相关微博的间隔天数小,交易所名活跃度高。计算公式如下:
[0043][0044]
其中,x为n条微博中含交易所名或简称的微博之间相差的天数的集合,xi为该集合中的一个元素,为该集合元素的均值,num
x
为集合中元素的总数。
[0045]
交易所名显著度:恶意维权用户每天的微博中,与交易所相关的微博的占比较高,交易所名显著度较高。计算公式如下:
[0046][0047]
其中,s为n条微博按天数划分的集合,si为s中一个元素代表处于同一天的微博的集合,为si中微博数,为si中含交易所名或简称的微博数。
[0048]
相关标签平均数:恶意维权用户为提高舆情事件的热度,会添加大量与交易所相关的标签,标签平均数较高。计算公式如下:
[0049][0050]
其中,num
label
为n条微博中与交易所相关的标签的总数。
[0051]
相关文章出现率:恶意维权用户为扩散事件的影响力,会添加或转发与交易所相关的文章链接,文章出现率高。计算公式如下:
[0052][0053]
步骤(4)第四阶段是聚类与恶意主体识别。记第二阶段识别出的维权团体为y,对于y内的每个用户i,构建出用户行为特征向量:
[0054]
使用k-means++算法对样本进行分类,聚类算法的具体步骤如下:
[0055]
4.1:使用随机算法选择一个节点作为第一个聚类中心c1[0056]
4.2:计算其他节点与该聚类中心节点的距离,距离计算公式为:
[0057][0058]
4.3:计算剩余每个节点成为第二个聚类中心的概率,概率计算公式为:
[0059][0060]
4.4:按节点的序号计算每个节点的累计概率,累计概率计算公式为:
[0061][0062]
4.5:使用随机算法生成一个值在0-1之间的数r;
[0063]
4.6:按节点序号依次比较qi与r,若qi≥r,选择该序号对应节点为第二个聚类中心c2;
[0064]
4.7:对于剩下的节点,分别计算它们与两个聚类中心的距离和
[0065]
4.8:比较和若将节点划分至聚类中心c1所属类,否则划分c2所属类;
[0066]
4.9:对于形成的两类cl1和cl2,更新每个类的聚类中心,聚类中心计算公式为:
[0067][0068][0069]
重复4.7至4.9直至聚类中心不再变动;
[0070]
输出最终形成的两类
[0071]
对于最终聚成的两类,记为a和b,分别计算第三阶段的特征在每个类中的均值,将其进行z-score标准化后相加,得到两个属性值fa和fb。以fa的计算为例:
[0072][0073][0074][0075]
比较fa和fb的大小,判定值大的一方为存在恶意倾向的团体。以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1