一种面向噪声数据环境的传播网络结构重构方法及装置

文档序号:33471746发布日期:2023-03-15 08:42阅读:37来源:国知局
一种面向噪声数据环境的传播网络结构重构方法及装置

1.本发明属于信息传播领域,具体涉及一种面向噪声数据环境的传播网络结构重构方法及装置。


背景技术:

2.信息传播网络的拓扑结构可以直观显示网络节点之间影响关系,对于揭示扩散动力学的内在机制至关重要。一般来说,信息传播网络的拓扑结构是无法直接得到的,需要从历史扩散过程中观察得到最终感染结果重构。信息传播网络重构问题越来越受到广泛的关注,如病毒营销、流行病预防,因为重构出的信息传播网络拓扑可以让专业人员直观的理解节点之间的潜在交互,并帮助他们更好的预测、促进或预防未来的信息传播。
3.已有的重构方法中,无论是需要感染时间信息或基于最终感染状态数据的方法,他们通过识别节点感染之间的频繁序列或统计相关性来确定节点之间的潜在影响关系。在一些现实环境中,如流行病的传播,由于成本高,追踪准确的感染时间往往是不可行的;即使获得节点的精确感染状态也是一项挑战性任务,得到的感染状态数据中一般会包含噪声数据,因为头痛等可观察症状只能部分揭示节点的真实状态。在现实环境中,往往只能得到关于节点感染状态的概率信息,而关于节点感染状态的概率信息无法直接用以计算统计相关性,因此需要新的方法来基于节点感染状态的概率信息推断传播网络中的影响关系。


技术实现要素:

4.针对现有技术中存在的缺陷,本发明的在于提供一种面向噪声数据环境的传播网络结构重构方法及装置,基于节点感染状态的概率信息,推断出传播网络中节点之间的影响关系。
5.为达到以上目的,一方面,采取的技术方案是:一种面向噪声数据环境的传播网络结构重构方法,包括步骤:
6.获取传播网络中每个节点vi与其余节点的相关性;
7.初始化传播网络的一个影响关系图g1={v,e1,w1},其中v表示组成传播网络的n个节点,e1表示g1中的有向边集合,w1表示g1中的有向边对应的权重集合;
8.根据所述w1的权重数据对g1聚类,将权重大于设定值的节点列入候选父节点集合ci;
9.利用ci使用分支限界策略找到每个节点的最优父节点集合fi;
10.根据每个节点的fi更新边集合e1,返回更新得到的图g1。
11.优选的,在所述计算传播网络中每个节点vi与其余节点的相关性,之前,所述方法包括:
12.定义传播网络中潜在的影响关系图为g={v,e,w},其中v={v1,v2,

,vn}表示组成网络的n个节点;e是表示影响关系图中的有向边集合,w表示有向边上对应的权重集合;
13.其中,从父节点vi∈v到子节点vj∈v的有向边(vi,vj)∈e表示:若节点vi被感染、vj节点未被感染,那么有p
ij
概率vj节点会被vi节点感染,其中p
ij
为感染传播概率;
14.使用集合s={s1,s2,...,s
β
}来记录传播网络中β次传播过程结束后的概率信息,其中表示第l次传播过程结束后网络中n个节点的感染概率,表示第l次传播过程结束后节点vi的感染概率。
15.优选的,所述获取传播网络中每个节点vi与其余节点的相关性,包括:
16.计算其余各个节点vj∈v\{vi}与vi的相关性g(vj,vi):
[0017][0018]
其中,xi∈[0,1]是节点vi的感染状态变量,α是变量xi和xj采样数据数目;
[0019]
tr(.)是矩阵的迹,i是单位矩阵,在中,1是全1矩阵,表示矩阵,矩阵第a行第b列元素表示矩阵,矩阵第a行第b列元素其中《.》为内积函数;δ是一个双射{1,

,α}

{1,

,α},δ
α
是包含所有双射的集合,(xi)
δ
是xi关于δ的置换版本。
[0020]
优选的,根据相关性初始化传播网络的一个影响关系图g1={v,e1,w1},包括:
[0021]
将g1中e1初始化为空集、w1初始化为节点间的g分数。
[0022]
优选的,根据所述w1的权重数据对g1聚类,将权重大于设定值的节点列入候选父节点集合ci,包括:
[0023]
对w1中的权重数据使用k-means方法进行聚类,得到至少两组元素;
[0024]
获取最大一组元素中的最小值t1,将g1中所述权重大于t1的有向边添加到e1;定义每个节点vi的候选父节点集合ci={vj|vj→vi
,vj∈v/{vi},g(vj,vi)》t1}。
[0025]
优选的,将聚类数设为2,对w1中的权重数据使用k-means方法进行聚类,得到两组元素。
[0026]
优选的,所述利用ci使用分支限界策略找到每个节点的最优父节点集合fi,包括:
[0027]
从队列q取出第一个元素t,记录t中节点的最大节点索引为i
max
,若t为空,i
max
为0;其中,队列q为空元素初始化得到,即初始化得到,即
[0028]
定义j={(i
max
+1),

,|ci|},令t

=t∪(ci)j,(ci)j表示ci的第j个元素,计算g(t

,vi),若g(t

,vi)大于g
max
,则将g
max
更新为g(t

,vi)并将fi更新为t

;其中,gmax为g(t

,vi)的最大值,其初始值为负无穷;
[0029]
计算节点vi的g0(vi)分数,若的g0(vi)分数大于g
max
则将t

插入队列q;
[0030]
g(t

,vi)和g0(vi)分数计算方式如下:
[0031][0032]
其中,x
t

∈[0,1]
|t

|
是集合t

中节点的感染状态变量,α是变量xi和x
t

采样数据数目;
[0033][0034]
其中,xc∈[0,1]
|c|
是集合ci中节点的感染状态变量,α是变量xi和x
t

采样数据数目。
[0035]
优选的,根据每个节点的fi更新边集合e1,返回更新得到的图g1,包括:
[0036]
对于g1中的每一个节点vi,构造一个边集合,构造一个边集合将图g1的边集合e1更新为返回更新得到的图g1。
[0037]
优选的,在所述根据每个节点的fi更新边集合e1,返回更新得到的图g1之前,还包括:
[0038]
判断队列q是否为空,若为空,则继续利用ci使用分支限界策略找到每个节点的最优父节点集合fi。
[0039]
另一方面,本发明还提供一种面向噪声数据环境的传播网络结构重构装置,包括:
[0040]
获取模块,其用于获取传播网络中每个节点vi与其余节点的相关性;
[0041]
初始化模块,其用于初始化传播网络的一个影响关系图g1={v,e1,w1},其中v表示组成传播网络的n个节点,e1表示g1中的有向边集合,w1表示g1中的有向边对应的权重集合;
[0042]
筛选模块,其用于根据所述w1的权重数据对g1聚类,将权重大于设定值的节点列入候选父节点集合ci;
[0043]
选取模块,其用于利用ci使用分支限界策略找到每个节点的最优父节点集合fi;
[0044]
返回模块,其用于根据每个节点的fi更新边集合e1,返回更新得到的图g1。
[0045]
上述技术方案中的一个具有如下有益效果:可以基于有噪声的感染状态数据推断信息传播网络;使得节点感染状态的概率信息可以直接用以计算统计相关性,提出了新的方法来根据关于节点感染状态的概率信息推断出节点之间的影响关系。
附图说明
[0046]
图1是本发明实施例的流程图;
[0047]
图2是本发明实施例在lfr算法生成的人工网络上构建影响关系图对应f值的结果图;
[0048]
图3是本发明实施例在dunf和dpu网络上使用不同不确定因子均值构建影响关系图对应的f值的结果图。
具体实施方式
[0049]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
[0050]
在本实施例中,发明人使用了七个网络(如表1所示),其中网络net1,net2,net3,net4和net5是采用lfr算法生成的人工网络,dunf和dpu是两个常用的现实世界微博网络。每个网络的传播数据生成过程如下:假定网络中各个节点之间的影响程度相同,每次传播
过程中,从测试网络中随机选择15%的节点作为初始“感染”点,并根据ic模型进行传播模拟,在传播模拟结束后,记录每个节点的感染状态作为一条传播轨迹数据,并生成多条数据作为实验的观测数据集。为了增加感染数据的不确定性,对于每个确切的节点感染状态x∈{0,1},将其替换为|s-u|,其中u是一个随机不确定因子,其值服从高斯分布,平均值μ和标准差为0.1。
[0051]
表1实验网络
[0052]
网络节点个数不确定因子u均值net11000.3net21500.3net32000.3net42500.3net53000.3dunf7500,0.05,0.1,0.15,0.2,0.25,0.3dpu10380,0.05,0.1,0.15,0.2,0.25,0.3
[0053]
在基于上述网络的基础上了,一种面向噪声数据环境的传播网络结构重构方法,包括步骤:
[0054]
步骤101:获取传播网络中每个节点vi与其余节点的相关性;
[0055]
步骤102:初始化传播网络的一个影响关系图g1={v,e1,w1},其中v表示组成传播网络的n个节点,e1表示g1中的有向边集合,w1表示g1中的有向边对应的权重集合;
[0056]
步骤103:根据所述w1的权重数据对g1聚类,将权重大于设定值的节点列入候选父节点集合ci;
[0057]
步骤104:利用ci使用分支限界策略找到每个节点的最优父节点集合fi;
[0058]
步骤105:根据每个节点的fi更新边集合e1,返回更新得到的图g1。
[0059]
本发明实施例可以基于有噪声的感染状态数据推断信息传播网络,提出了新的方法来根据关于节点感染状态的概率信息推断出节点之间的影响关系。
[0060]
应当理解的是,在计算传播网络中每个节点vi与其余节点的相关性之前,还需要执行步骤100:定义传播网络中潜在的影响关系图,其具体包括:
[0061]
步骤1001:定义传播网络中潜在的影响关系图为g={v,e,w},其中v={v1,v2,

,vn}表示组成网络的n个节点;e是表示影响关系图中的有向边集合,w表示有向边上对应的权重集合;
[0062]
其中,从父节点vi∈v到子节点vj∈v的有向边(vi,vj)∈e表示:若节点vi被感染、vj节点未被感染,那么有p
ij
概率vj节点会被vi节点感染,其中p
ij
为感染传播概率;
[0063]
使用集合s={s1,s2,...,s
β
}来记录传播网络中β次传播过程结束后的概率信息,其中表示第l次传播过程结束后网络中n个节点的感染概率,表示第l次传播过程结束后节点vi的感染概率。
[0064]
在一些可选的实施例中,步骤101获取传播网络中每个节点vi与其余节点的相关性包括了以下的具体步骤:
[0065]
步骤1011:计算其余各个节点vj∈v\{vi}与vi的相关性g(vj,vi):
[0066][0067]
其中,xi∈[0,1]是节点vi的感染状态变量,α是变量xi和xj采样数据数目;
[0068]
tr(.)是矩阵的迹,i是单位矩阵,在中,1是全1矩阵,表示矩阵,矩阵第a行第b列元素表示矩阵,矩阵第a行第b列元素其中《.》为内积函数;δ是一个双射{1,

,α}

{1,

,α},δ
α
是包含所有双射的集合,(xi)
δ
是xi关于δ的置换版本。
[0069]
作为一个优选的事实方式,在步骤102中,根据初始化传播网络的一个影响关系图g1={v,e1,w1}还可以包括以下的具体步骤:
[0070]
步骤1021:将g1中e1初始化为空集、w1初始化为节点间的g分数。结合前文,v表示组成网络的n个节点,e1和w1表示g1中的有向边集合和有向边对应的权重集合,初始化e1为空集、w1为节点间的g分数。
[0071]
在一些优选的实施例中,步骤103根据所述w1的权重数据对g1聚类,将权重大于设定值的节点列入候选父节点集合ci,可以包括以下的具体步骤:
[0072]
步骤1031:对w1中的权重数据使用k-means方法进行聚类,得到至少两组元素;
[0073]
步骤1032:获取最大一组元素中的最小值t1,将g1中所述权重大于t1的有向边添加到e1;定义每个节点vi的候选父节点集合ci={vj|vj→vi
,vj∈v/{vi},g(vj,vi)>t1}。
[0074]
应当理解的是,这里的聚类数量可以是两个,也可以是多个,聚类数量的多少可以根据场景需求,精度要求进行调整。为了降低计算和分类工作量,将聚类数设为2,对w1中的权重数据使用k-means方法进行聚类,得到两组元素。
[0075]
为了更快速得到最优解,避免了冗余的计算量,不断更新最优父节点集合fi,步骤104:利用ci使用分支限界策略找到每个节点的最优父节点集合fi包括:
[0076]
步骤1041:从队列q取出第一个元素t,记录t中节点的最大节点索引为i
max
,若t为空,i
max
为0;其中,队列q为空元素初始化得到,即
[0077]
定义j={(i
max
+1),

,|ci|},令t

=t∪(ci)j,(ci)j表示ci的第j个元素,计算g(t

,vi),若g(t

,vi)大于g
max
,则将g
max
更新为g(t

,vi)并将fi更新为t

;其中,gmax为g(t

,vi)的最大值,其初始值为负无穷;目的是找到令g(t

,vi)最大的t

,并用gmax记录最大值。
[0078]
步骤1042:计算节点vi的g0(vi)分数,若的g0(vi)分数大于g
max
则将t

插入队列q;
[0079]
g(t

,vi)和g0(vi)分数计算方式如下:
[0080][0081]
其中,x
t

∈[0,1]
|t

|
是集合t

中节点的感染状态变量,α是变量xi和x
t

采样数据数目;
[0082][0083]
其中,xc∈[0,1]
|c|
是集合ci中节点的感染状态变量,α是变量xi和x
t

采样数据数
目。
[0084]
为了保证能找到最优父节点集合,还包括步骤1043:判断队列q是否为空,若为空,则继续利用ci使用分支限界策略找到每个节点的最优父节点集合fi。
[0085]
优选的,步骤105:根据每个节点的fi更新边集合e1,返回更新得到的图g1,包括:
[0086]
步骤1051:对于g1中的每一个节点vi,构造一个边集合,构造一个边集合将图g1的边集合e1更新为
[0087]
步骤1052:返回更新得到的图g1。
[0088]
结合图2和图3可以看出,本发明在测试案例中有着较高的准确度,且随着网络规模的增加进精确度进一步提升,这是因为在更大规模的网络中可以捕捉到更丰富的信息;而随着不确定性因子的增加,本发明的准确度有下降趋势,这是因为更高的不确定性使得衡量感染节点之间的相关性更加困难。
[0089]
另一方面,本发明还提供一种面向噪声数据环境的传播网络结构重构装置,包括:
[0090]
获取模块,其用于获取传播网络中每个节点vi与其余节点的相关性;
[0091]
初始化模块,其用于初始化传播网络的一个影响关系图g1={v,e1,w1},其中v表示组成传播网络的n个节点,e1表示g1中的有向边集合,w1表示g1中的有向边对应的权重集合;
[0092]
筛选模块,其用于根据所述w1的权重数据对g1聚类,将权重大于设定值的节点列入候选父节点集合ci;
[0093]
选取模块,其用于利用ci使用分支限界策略找到每个节点的最优父节点集合fi;
[0094]
返回模块,其用于根据每个节点的fi更新边集合e1,返回更新得到的图g1。
[0095]
需要说明的是,针对方法的实施例中的方案同样是可以用于本装置的,为了避免赘述,在此不再重复。
[0096]
以上仅为本发明的实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均包含在申请待批的本发明的权利要求范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1