一种基于社交网络信息的案件热度扩散处理方法与流程

文档序号:31795969发布日期:2022-10-14 17:28阅读:48来源:国知局
一种基于社交网络信息的案件热度扩散处理方法与流程

1.本发明涉及信息处理领域,特别是一种基于社交网络信息的案件热度扩散处理方法。


背景技术:

2.随着知识信息呈社交网络性增长,面对广泛传播的信息,其中社交网络案件信息的扩散现象愈加明显。在公益诉讼过程中,案件线索及公益诉讼涉及的相关案件处理对公众的影响等信息,成为对于公益诉讼办案中比较重要的参考依据。
3.面对社交网络案件信息数据,怎样完成对其的扩散现象成为当前互联网法律相关领域的研究热点,上述指标能够成为公益类案件诉讼影响力的指引,能够为后续的检索案例等提供办案支持。
4.当前数字案件资源普遍已经具有一定的规模,因此,研究社交网络案件信息数据扩散至关重要。在实际情况中,一条或者多条信息是从多个消息源发出的,在多源信息的扩散过程中,消息往往会被多个用户同时发布到网络上,然后在网络中蔓延传播。针对社交网络中信息扩散的特征,将信息抽象为事件,构建海量信息的大规模事件网络,并引入分布式思想,符合海量信息的检测需求,但是上述方法不涉及用户节点的关联关系这一重要因素;基于社交网络信息数据的扩散法研究,该方法从消息传播的机理出发探究节点间的合作和竞争关系,考虑了时间对消息扩散的影响,但该方法计算过程复杂。


技术实现要素:

5.为解决上述问题之一,本发明提出一种基于社交网络信息的案件热度扩散处理方法,尤其是利用关联规则方法有效完成对社交网络案件信息数据扩散的处理。
6.其包括,构建扩散监测模型,对信息通过有向网络g =(u,e)的扩散进行建模,其中u是所有节点的集合,而e(
⊂u×
u)是所有弧的集合;对于每个弧,有两个参数:给出在一天的时间上将信息传输到的概率,其中0 《《1,以及其中 》0;称为扩散函数,称为时间延迟参数;是节点,边和交换的内容特征的函数;计算节点在一天的时间向节点发送一条信息的概率;我们在下面描述的这13个可解释特征是根据过去的信息扩散轨迹计算得出的介于0和1之间的数值。
7.所述概率为此概率是属于社交,主题和时间维度的节点,边缘和主题特征的函数,其中社会维度特征:每个节点发布消息的速率,;两组节点和之间与h()交互的jaccard相似系数;每个节点发布的定向消息与非定向消息之比,;每个节点接收目标消息的速率mr(),mr();
主题维度特征:每个用户对信息的兴趣,;时间维度特征:一天中每个用户活动的分布,作为矢量存储的非参数函数,;扩散概率由以下公式给出,其中v是特征的相关向量:使用贝叶斯logistic回归对描述过去信息在网络中的传播方式的数据进行估计,得出系数。
8.所述方法进一步包括:根据扩散事件的扩散图,进行特征检测;所述特征检测的输入参数是扩散事件的扩散图和特征系数;算法的输出是事件的扩散特征及apl值。
9.所述特征检测具体包括:1)设定特征系数;2)根据扩散图中的邻接表结构,统计扩散图中每个节点的度;3)统计图中多枝节点与二枝节点的数量,节点度大于2的为多枝节点,反之,为二枝节点;4)计算星型节点的占比,对比特征系数对扩散事件特征进行归类;5) 计算扩散图的各连通分支的apl值;6) 计算整个扩散图的apl值,即该事件的扩散能力值。
10.进一步优选的,所述特征检测算法是采用分布式检测模式完成的。
11.进一步,所述特征检测是采用每种类型的事件扩散图map到一个分片以并行执行多个reduce任务的方式执行的。
12.进一步的,所述扩散模型构造中,还包括,将大型社交网络图划分为子图,然后将每个子图分配到流程节点;在每个子图中,有两种节点:内部节点和边缘节点;内部节点是所有邻居都在子图中的节点;边缘节点在其他子图中具有邻居。对于每个子图g,所有内部节点和它们之间的边构成闭合图g;边缘节点可以看作是用于更新规则的“支持信息”。
13.进一步的,案件的特征包括:转发量、评论量,用户节点度和活跃度。
14.进一步的,案件信息的扩散是基于与特征信息的关联规则对社交网络案件信息数据扩散检测。
15.进一步的,所述采用图论中的平均路径长度(apl)对同一特征扩散事件的扩散过程进行比较,采用邻接表存储事件扩散图中的节点与边。
16.优选的还提供一种基于社交网络信息的案件热度扩散处理系统,所述系统包括处理器和存储器,所述存储器上存储有计算机程序,所述处理器用于执行存储器上的计算机程序用于实现上述方法。
17.本发明公开的方法通过关联规则对社交网络案件信息数据扩散处理。首先爬取社交网络案件信息数据,对扩散过程中被转发、评论的数据进行采集,在此基础上完成社交网络案件信息数据扩散处理,提升了热点案件信息互联网中的扩散信息的监测。
附图说明
18.通过参考附图会更加清楚的理解本公开的特征和优点,附图是示意性的而不应理解为对本公开进行任何限制。
19.图1是本方法的事件扩散图拓扑结构示意图。
20.图2是本方法的数据抽象模型与数据结构示意图。
21.图3是本方法的某案件信息转发和评论示意图。
22.图4是本方法的检测方法的输入和输出示意图。
具体实施方式
23.参看下面的说明以及附图,本公开的这些或其他特征和特点、操作方法、结构的相关元素的功能、部分的结合以及制造的经济性可以被更好地理解,其中说明和附图形成了说明书的一部分。然而,可以清楚地理解,附图仅用作说明和描述的目的,并不意在限定本公开的保护范围。可以理解的是,附图并非按比例绘制。本公开中使用了多种结构图用来说明根据本公开的实施例的各种变形。
24.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
25.需要说明的是,本文中的“/”表示或的意思,例如,a/b可以表示a或b;本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。
26.需要说明的是,为了便于清楚描述本技术实施例的技术方案,在本技术的实施例中,采用了“第一”、“第二”等字样对功能或作用基本相同的相同项或相似项进行区分,本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定。例如,第一信息和第二信息是用于区别不同的信息,而不是用于描述信息的特定顺序。
27.需要说明的是,本发明实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
28.实施例1用描述互联网法律文本中关键字集合,其中的元素被称作项。用于描述相关数据集合,称作数据库(database),其中事务(transaction) 是项的集合,即事务是的一个子集,,则认为每个事务均只有一个标识,例如事务号用 tid 进行描述。
29.其中与
ꢀꢀ
用于描述谓
词或数据项,则上述规则的含义是: 在事务相同的情况下,如果 发生,则 也会发生。假设 a 表示项集,事务t 包含a,则关联规则即为的蕴含式,其中 ,同时 。
30.规则
ꢀꢀ
在事务数据集 d 中的支持度定义为事务集合中含有a与b的事务个数和全部事务个数的比,用
ꢀꢀ
进行描述,也就是
ꢀꢀ
: =
ꢀꢀ
= (1)规则
ꢀꢀ
在事务集中的置信度就是含有 a 与b的事务数量和含有a的事务数量的比,用 confidence (ab) 进行描述,也就是 :其中,用于描述含有项集 ayb 的事务记录个数; 用于描述含有项集 a 的事务记录个数。
31.规则的支持度与置信度为衡量规则的指标,其依次体现了规则的实用性与确定性,阈值都在0% ~100%范围内。
32.给出互联网法律话题中的一个事务集 d,挖掘关联规则即满足用户给定最小支持度min-sup 与最小置信度min-con 的过程。
33.在实际应用中,人们通常只关注符合一定支持度与置信度的关联规则,将同时满足min-sup和min-con的规则称作强规则。挖掘关联规则问题即针对某事务集d产生强规则的问题。可将关联规则挖掘过程描述如下: 针对一个事务数据库d,找到全部符合, 的关联规则[9]。
[0034]
形成关联规则的详细过程如下:(1)遍历频繁项集,得到的全部非空子集s;(2)如果,则生成一个关联规则
“”

[0035]
项(item)的集合被称作项集(item set),含有个数据项的项集被称作项集。项集的频率定义为d中含有该项集的事务个数。若项集的频率超过 sup 和 d中事务总数的乘积,则认为项集符合最小支持度min-sup 。 那么该项集称其为频繁项集。频繁 k项集的集合一般被记作 。
[0036]
设置案件信息数据扩散原理如下:假设
ꢀꢀ
用于描述案件信息数据样本,v 为基
础论域, vj 是wj 的观测值,则有:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)存在函数
ꢀꢀ
,使通过vj得到的信息依据扩散至v中,则扩散获取的原始案件信息数据分布为:上式能更好地反映 w的整体规律。
[0037]
互联网媒体中法律相关的大部分信息都会受到用户行为的影响,在扩散过程中产生发散趋势,本方案通过上述描述的关联规则对社交网络案件信息数据扩散处理。首先爬取社交网络案件信息数据,对扩散过程中被转发、评论的数据进行采集,在此基础上完成社交网络案件信息数据扩散处理。
[0038]
依据事件扩散的概念,与信息扩散有着一定的区别和联系。信息扩散主要是指信息的物理传播,要抑制扩散传播,应该切断哪些节点;在多信息社交网络中研究信息扩散时,侧重主流信息的扩散。事件的提出是为了建模信息扩散,是对原信息扩散中信息的包装和抽象。
[0039]
本方法采用图论中的平均路径长度(apl)对同一特征扩散事件的扩散过程进行比较,采用邻接表存储事件扩散图中的节点与边,其存储结构如下:struct diffusiongraph{boolean connected; //连续性检测long eventtimes; //扩散图事件数arraylist* egnodes; //扩散图节点总数map《long, set《long》》 nbr_map; //图的存储结构string info; //事件内容信息}在上述的存储结构中,connected标识连续性扩散探测结果; eventtimes为事件总数;egnodes 为统计图中的节点总数,用于量化扩散速率;nbr_map存储图的节点与边;info 存储扩散图中的事件内容。如图1,图2所示事件扩散的拓扑结构及其对应的邻接表结构。
[0040]
获取案件信息扩散的静态特征,为了研究社交网络案件信息数据扩散问题,对某一法律案件信息被转发与评论的数量进行采集,采集间隔为15 min。热门信息是某新浪微博用户发布的某案的新闻热点,其转发和评论情况如图3所示,可以看出下游用户转发这条信息的时间并不集中,单从整体看来在一定程度上满足正态分布。与此同时,每个时间段用户评论上述信息的数量也不同,与图3柱状图所示的转发时段频数存在正相关。图3折线图描述的就是上述信息在各个时段被评论的数量趋势。提取转发量和评论量相关,基于上述统计挖掘关联规则,利用关联规则计算得到评论数和转发数的相关系数是0.72。说明在互联网法律话题传播过程中,用户转发行为与评论行为存在显著相关性。
[0041]
一方面,因为在网络媒体的案件信息中,用户在对一条案件信息进行转发和评论的同时,可一并评论与转发该信息,从而提高转发数与评论数。另一方面,案件本身的信息
价值较高,所以社会关注度很高。用户选择评论与转发时,主要是由于信息内容符合用户兴趣。因此,信息转发量与评论量呈正相关。获取用户节点度和活跃度相关程度,节点度是案件消息网络节点和相邻节点之间连接程度的体现,包括入度和出度两个概念,入度就是被关注的用户数量,出度则就是用户关注数量。随着入度的逐渐增加,用户影响力也来越大,其发布的信息将会被更多用户浏览。随着出度的逐渐升高,该用户会浏览到更多的信息。通过关联规则衡量节点度,关联规则之间的关联度越大,节点度越高。
[0042]
表 1通过关联规则方法,根据上述样本统计出的用户节点度、出入度结果。
[0043]
表1 样本节点度、出入度可以看出,该图中a节点的节点度是677,说明其和相邻节点存在 677 条与其它节点的联系。其中节点 a 的入度值是168,出度值是 509,也就是说该用户有 168 个粉丝,关注509用户,说明其在社交网络中的活跃性较高。对于节点 w,其入度是6,出度也是 6,说明其在案件信息中扩散不活跃,通常情况下认为这种用户是潜水型用户。
[0044]
提取扩散的广度和用户影响力相关,在通过关联规则对社交网络案件信息数据扩散进行研究的过程中,信息发布者的影响力也会对信息扩散产生很大的影响,而用户影响力主要通过用户粉丝量评定。如果某用户好友较多,说明其发布的信息会被更多人浏览、关注及转发,有助于信息数据的扩散。下面列举了一条热门信息被不同用户转发的规模的统计,结果如表2。
[0045]
表2 不同用户对案件信息数据扩散的广度分布情况由表2可知,用户影响力越大,则案件信息数据被转发的次数越多,评论次数与被
点赞次数也会随之增加。这是由于用户好友数量越多,其发布的案件信息将被更多的人浏览,从而增加转发量和评论量。然而这也是因为用户自身影响力较高,其好友数量多,所以社交网络案件信息扩散和影响力有关。
[0046]
模型形式化。 t-dzd对信息通过有向网络g =(u,e)的扩散进行建模,其中u是所有节点的集合,而e(
⊂u×
u)是所有弧的集合。对于每个弧,有两个参数:给出在一天的时间上将信息传输到的概率,其中0 《《1,以及其中 》0。称为扩散函数,称为时间延迟参数。是节点,边和交换的内容特征的函数。至于独立级联(independent cascades , ic)模型,扩散过程从一组给定的初始激活节点s开始,但不利的是,它们在连续时间内展开。在时间t激活的每个节点都有一次机会以概率激活其每个不活动的邻居。如果激活成功,则远端节点在时间处变为活动状态。该过程的停止条件是无法再进行激活。
[0047]
图4中显示了t-dzd的输入和输出。特征空间。该模型计算节点在一天的时间向节点发送一条信息的概率。此概率是属于社交,主题和时间维度的节点,边缘和主题特征的函数。可选的,在下面描述的这3个可解释特征是根据过去的信息扩散轨迹计算得出的介于0和1之间的数值。
[0048]
社会维度特征:每个节点发布消息的速率;两组节点和之间与h()交互的jaccard相似系数;每个节点发布的定向消息与非定向消息之比;每个节点接收目标消息的速率mr(),mr();主题维度特征:每个用户对信息的兴趣,;时间维度特征:一天中每个用户活动的分布,作为矢量存储的非参数函数;模型参数估计。扩散概率由以下公式给出,其中v是特征的相关向量:使用贝叶斯logistic回归对描述过去信息在网络中的传播方式的数据进行估计,得出系数。
[0049]
示例性的,扩散检测算法,为了扩展到实际的大型网络,tap设计有高效的分布式学习算法,该算法在map-reduce框架下实施和测试,采用事件特征检测算法。
[0050]
根据扩散事件的扩散图,进行特征分析。算法的输入参数是扩散事件的扩散图和特征系数;算法的输出是事件的扩散特征及apl值。特征检测算法的主要思路如下:
1)设定算法参数,即特征系数。
[0051]
2)根据扩散图中的邻接表结构,统计扩散图中每个节点的度。
[0052]
3)统计图中多枝节点与二枝节点的数量,节点度大于2的为多枝节点,反之,为二枝节点。
[0053]
4)计算星型节点的占比,对比特征系数对扩散事件特征进行归类。
[0054]
5) 计算扩散图的各连通分支的apl值。
[0055]
6) 计算整个扩散图的apl值,即该事件的扩散能力值。
[0056]
算法的执行主要消耗在apl值的计算上,在最坏情况下的时间复杂度为,其中m为图的连通分支数,n为包含节点个数最多的连通分支中的节点数。
[0057]
事件扩散检测算法,采用分布式diffusion detection(ddd)算法完成事件扩散过程的检测,算法基于mapreduce的编程模型。保证每种类型的事件扩散图map到一个分片以并行执行多个reduce任务。如图4所体现的ddd 算法的执行逻辑,具体流程如下。
[0058]
由于社交网络可能包含数百万个用户,并且用户之间有数亿个社交纽带,因此使用单个机器从如此庞大的数据中学习tfg是不切实际的。为了解决这个挑战,我们将学习任务部署在map-reduce编程模型下的分布式系统上。
[0059]
map-reduce是用于大型数据集的分布式处理的编程模型。在map阶段,每台机器(称为过程节点)接收数据的子集作为输入,并生成一组中间键/值对。在reduce阶段,每个过程节点合并与同一中间键关联的所有中间值,并输出最终的计算结果。用户指定一个处理键/值对以生成一组中间键/值对的映射函数,以及一个reduce函数,该函数合并与同一中间键关联的所有中间值。
[0060]
在亲和力传播过程中,我们首先将大型社交网络图划分为子图,然后将每个子图分配到流程节点。在每个子图中,有两种节点:内部节点和边缘节点。内部节点是所有邻居都在子图中的节点。边缘节点在其他子图中具有邻居。对于每个子图g,所有内部节点和它们之间的边构成闭合图g。边缘节点可以看作是用于更新规则的“支持信息”。为了便于说明,我们考虑针对单个主题的分布式学习算法,因此可以将映射阶段和归约阶段定义如下。
[0061]
在map阶段,每个过程节点都扫描分配的子图g的闭合图g。请注意,每个边缘eij具有两个值aij和rij。因此,将映射函数定义为针对每个键/值对eij/aij,发布一个中间键/值对ei

/(bij + aij);对于键/值对eij/rij,则发布中间键/值对e

j/rij。
[0062]
在还原阶段,每个过程节点都收集与中间键ei 相关联的所有值,以根据等式生成新的ri ,并且所有与同一个键e * j相关联的中间值都根据等式生成新的a * j。因此,一次映射减少过程对应于我们的亲和力传播算法中的一次迭代。
[0063]
使用不同规模的的单文件数据集,在hadoop集群上运行事件扩散检测算法。在每种数据集上,分别执行10次算法,取最优的3次的平均值作为最后的执行时间,如表3所示:表3 ddd 算法运行时间对比
根据图中的测试结果显示,随着数据规模的增大,算法的执行时间有明显提升,当数据集达到1gb时,算法的执行时间少于300s。实验表明,本方法在处理社交网络数据信息时,在执行时间上具有明显的优势。
[0064]
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)、随机存储记忆体(random access memory,ram)、快闪存储器(flash memory)、硬盘(hard disk drive,缩写:hdd)或固态硬盘(solid-state drive,ssd)等;所述存储介质还可以包括上述种类的存储器的组合。
[0065]
如在本技术所使用的,术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体,该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如,组件可以是,但不限于是:在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例,在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中,并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外,这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如,来自一个组件的数据,该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互)的信号,以本地和/或远程过程的方式进行通信。
[0066]
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1