基于标签传播自然启发式的动态网络社团结构识别方法与流程

文档序号:17542215发布日期:2019-04-29 14:47阅读:254来源:国知局
基于标签传播自然启发式的动态网络社团结构识别方法与流程
本发明属于人工智能与复杂网络领域,涉及基于标签传播自然启发式的动态网络社团结构识别方法。
背景技术
:网络可以描述现实世界之间复杂的关系,比如网络中的节点表示现实世界的实体,而边表示实体间的关系。复杂网络是现实世界网络建模的有效方法。复杂网络不仅是数据的表现形式,也是一种科学研究手段,因此,复杂网络目前受到广泛的关注和研究。其中,网络社团结构识别是复杂网络中最重要的特征之一,是了解整个网络结构和功能的重要方法。并且,社团结构识别的应用往往会揭露出以往未发掘的信息,对现实世界具有一定的指导意义。复杂网络中的城市交通人流网络是研究的热点之一,随着城市人口以及出行人口的增加,城市的交通问题普遍称为焦点问题。设备不足,交通拥堵,交通秩序混乱,停车困难等问题日益突显,并且这些问题已经成为制约经济发展,削弱经济活力的瓶颈之一。针对以上这些问题,可以采用基于复杂网络的分析方式,利用网络社团结构识别的方法,对城市交通人流网络进行识别,分析人流移动模式的社团聚集特征,不仅可以帮助疏散聚集人流,而且还可预测人流出行模式,动态采取调度措施,进而提高交通出行效率。不仅是交通人流网络,通信网络也是新兴研究之一。随着通信技术的不断发展,人们之间的联系越来越依靠通讯传输。通过研究人们之间的通信网络,可以更好的进行人群归类。普遍认为,群体之间相互影响并且相互联系,人们往往更倾向于与好友联系,而不是非好友。因此,好友之间的通讯更为紧密,非好友之间的通讯更为稀疏。针对这个特点,利用网络社团结构识别的方法,对通信网络进行识别,从而对归类人群,找出人群中的内部联系有着重要的意义。社团结构识别不仅可以理解网络的拓扑结构,分析网络的功能和挖掘网络潜在的规律,而且还对网络演化有着预测作用。因此,社团结构识别有着广泛的应用,例如:推荐聚类、社交网络分析、网络脆弱性评估、城市交通人流预测等。社团结构识别现在已经有很多优秀的算法,但大多基于静态网络。实际上,与现实世界联系的复杂网络基本具有动态的特征。例如:在交通人流网络下,人流会随着时间的变化而发生移动,当时间达到某一个量级的时候,随着人流移动的改变,这个时刻的网络与上一时刻相比,有着显著的变化。因此,在动态网络下实行社团结构识别成为一项新的挑战。大部分基于动态网络的社团结构识别算法主要分为两大类别:增量聚类方法和进化聚类方法。1.增量聚类方法的研究,主要是将增量数据看成是时间序列数据和特定顺序的数据:第一个是将每个时刻的网络进行迭代运算,但不利用上一次聚类的结果,其优点是精度高,不足之处是计算开销过大;另一个是利用上一次聚类的结果,将节点划分到已有的社团中,其优点是充分利用上一次聚类结果,计算开销小,不足之处是对网络拓扑结构变化不敏感,导致准确率较低。2.进化聚类方法,主要是定义了两个指标用于社团检测:第一个是快照质量(snapshotquality,sq),基于当前网络拓扑结构进行评估;另一个是历史开销(temporalcost,tc),衡量当前聚类的结果与上一次聚类结果的差异。因此,引入这两个指标可以在保证当前网络上社团结构识别的准确率下,减少与上一时刻聚类结果的差异。目前为止,大多数的动态网络社团结构识别问题,还是通过预先设置参数进行计算。技术实现要素:有鉴于此,本发明的目的在于提供一种基于标签传播自然启发式的动态网络社团结构识别方法。为了避免固定的预设值参数,本发明将动态网络社团结构识别问题建模为多目标优化问题。自然启发式算法可以很好的应用于多目标问题,因此本发明结合自然启发式算法与标签传播算法,并发现其在全局探索和局部搜索问题上都有很强的优势。本发明涉及的标签传播算法是一种半监督的学习方法,具有高效率特点。但缺点是每次迭代结果不稳定,准确率不高。因此,本发明引入自然启发式算法,并在增强结果的准确率的同时,保证迭代结果尽量稳定。标签传播算法的核心机制是随机使用邻居节点标签作为当前节点的标签,在更新操作时选择标签数目最大的邻居节点标签进行更新,因此导致每次迭代结果不太稳定。遗传算法具有自组织、自适应和自学习性,在进化过程中自动调整算法控制参数和编码精度,而粒子群算法收敛速度较快,具有并行的特点。本发明将多目标遗传和粒子群与标签算法相结合,解决了上述问题并具有较高的聚类质量。最后,将本发明的方法应用到交通人流网络中,成功的挖掘出人流社团结构,这将对解决交通拥堵、实行动态调度策略、缓解城市交通压力等具有重大现实意义。为达到上述目的,本发明提供如下技术方案:基于标签传播自然启发式的动态网络社团结构识别方法,包括以下步骤:s1:输入动态网络g={g1,g2,...,gt}的邻接矩阵a={a1,a2,...,at};s2:判断t是否到达最终时刻,若否,则继续执行s3,并让t=t+1;若是,则执行s14;s3:初始化邻居数目,粒子群数目,最大迭代数,学习因子,突变率;s4:判断k是否到达最大迭代数,若否,则继续执行s5,并让k=k+1;若是,则执行s13;s5:判断i是否到达最大粒子数,若否,则继续执行s6,并让i=i+1;若是,则执行s13;s6:基于改进的标签传播算法给粒子群赋予初始位置;改进的标签传播方式为:neighbor(i)是邻居节点集合,公式(1)是每个节点从邻居节点集合中随机选出一个节点作为标签,产生一个随机序列;公式(2)是根据节点的度降序排列,然后采用同步更新规则进行节点更新;s7:采用单程交叉操作,将更好的维持社团结构的稳定性;s8:当随机数小于突变率时,就发生突变操作;突变操作是将粒子群位置在按照公式(2),进行一次异步更新;s9:粒子群更新规则为:其中,是粒子群个体最优位置;是粒子群全局最优位置;c是学习因子;ω是惯性权重;公式(3)中:是异或操作,操作是将两个速度矢量相加,形成新的速度矢量;假设:则详细操作如下定义:公式(4)中:速度矢量和位置矢量通过操作形成新的位置矢量;假设:v={v1,v2,…,vn},则详细操作如下定义:其中,li={l1,l2,…,lk}是邻居节点集合,若i==j,则否则,s10:目标函数模块度q的具体定义如下:n是节点数目,m是边数,ki是节点i的度,若节点i和j属于相同群集,则δ(i,j)=1,否则等于0;标准互信息(nmi)的定义如下:c是混淆矩阵,n是节点数目,cij是社区a和b共享的节点数目,ca或cb是划分a或者划分b的群集数量,ci或cj是c在i行或j列矩阵c的元素数目;s11:首先用切比雪夫不等式定义第i层优化目标,具体定义如下:其中,权向量是一个参考点,z*={maxfj(x)|xi∈x};然后,利用切比雪夫不等式判定全局最优和个体最优是否需要更新,具体如下:若gte(xi|ωi,z*)<gte(pbesti|ωi,z*),则pbesti=xi若gte(xi|ωj,z*)<gte(gbestj|ωj,z*),则gbestj=xi,j属于邻居bi;s12:更新非支配解集时,将所有被xi支配的解从解集中移除,然后把xi加入解集;s13:选出非支配解集中最高nmi值对应的聚类结果当作t时刻网络的社团划分,并保存划分结果;s14:输出动态网络的社团划分c={c1,c2,...,ct}。本发明的有益效果在于:(1)通过标签传播算法的改进,将按照节点度的大小更新节点标签。度大的节点对周围节点的影响更大,采用此种改进方法,将解决迭代结果不稳定的问题。(2)通过叠加遗传的交叉变异操作,增加粒子的多样性。交叉操作选择单程交叉规则,并用轮盘赌算法选择目标函数较高的粒子交叉。再用突变操作,让随机数小于突变率的粒子,进行一次同步更新操作。这样不仅维持了好的社团结构,而且增加了粒子位置的多样性,避免陷入局部最优。(3)通过粒子群更新规则,找出全局最优解,加速粒子收敛。并将结果保存在非支配解集中。通过更新迭代,可以得到一组非支配解集。通过这种方式,可以更好的对多目标问题进行建模求解。(4)该方法既能够适应动态无权网络,也能适应动态有权网络。我们将本发明的方案与其他方法在人工数据集和真实世界网络上进行对比测试,结果表明我们的方案优于其他的对比方法,具有较高准确性,能够有效应用于动态网络社团结构识别。附图说明为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供如下附图进行说明:图1为本发明的流程图;图2为本发明的详细图解;图3展示了4种方案(l-dmgapso,se-nmf,dynmoga,facenet)在syn基准网络上的社团挖掘结果。图3(a)为syn(z=5,nc=10%)网络上的社团挖掘结果;图3(b)为syn(z=5,nc=30%)网络上的社团挖掘结果;图3(c)为syn(z=6,nc=10%)网络上的社团挖掘结果;图3(d)为syn(z=6,nc=30%)网络上的社团挖掘结果;图4展示了4种方案(l-dmgapso,se-nmf,dynmoga,facenet)在syn-fix-var基准网络上的社团挖掘结果。图4(a)为syn-fix(z=3)网络上的挖掘结果;图4(b)为syn-fix(z=5)网络上的挖掘结果;图4(c)为syn-var(z=3)网络上的挖掘结果;图4(d)为syn-var(z=5)网络上的挖掘结果;图5展示了4种算法(l-dmgapso,se-nmf,dynmoga,facenet)在syn-event基准网络上的社团挖掘结果。图5(a)为birthanddeath网络上的挖掘结果;图5(b)为expansionandcontraction网络上的挖掘结果;图5(c)为intermittentcommunities网络上的挖掘结果;图5(d)为mergingandsplitting网络上的挖掘结果;图6展示了在手机cellphonecalls真实数据集上第7和第8时刻下主要社团变化;图7展示了在某周五重庆市轨道交通网络的社团挖掘结果;图8展示了在第6点到第7点时段重庆市轨道交通网络的社团挖掘结果;图9展示了在第7点到第8点时段重庆市轨道交通网络的社团挖掘结果;具体实施方式下面将结合附图,对本发明的优选实施例进行详细的描述。图1是本发明实施方式的流程图;表1展示了测试数据集的规模和网络层规模设置:表1测试数据集和网络层规模设置数据集节点数边数时间段层设置hospital7532424975-64-32-16hypertext113208185113-64-32-16syn128-20128-64-32-16syn-fix128-10128-64-32-16enronmail1513312412151-128-64-32rados1678292710167-128-64-32syn-event250-10250-128-64-32syn-var256-10256-128-64-32highschool3271885089327-256-128-64java3764091566376-256-128-64cellphonecalls400983410400-256-128-64图2所示的是本发明的详细图解。图3展示了4种方案(l-dmgapso,se-nmf,dynmoga,facenet)在syn基准网络上的社团挖掘结果。图3(a)为syn(z=5,nc=10%)网络上的社团挖掘结果;图3(b)为syn(z=5,nc=30%)网络上的社团挖掘结果;图3(c)为syn(z=6,nc=10%)网络上的社团挖掘结果;图3(d)为syn(z=6,nc=30%)网络上的社团挖掘结果。横坐标是时间段,每个时间段对应一个子网络。纵坐标是nmi值,反映算法挖掘出的网络社团结果与真实网络社团之间的相似性。实验表明本发明算法l-dmgapso与其他算法相比,能够在syn不同时间段上的子网络中挖掘出更精确的社团。图4展示了4种方案(l-dmgapso,se-nmf,dynmoga,facenet)在syn-fix-var基准网络上的社团挖掘结果。图4(a)为syn-fix(z=3)网络上的挖掘结果;图4(b)为syn-fix(z=5)网络上的挖掘结果;图4(c)为syn-var(z=3)网络上的挖掘结果;图4(d)为syn-var(z=5)网络上的挖掘结果。横坐标是时间段,每个时间段对应一个子网络。纵坐标是nmi值,反映算法挖掘出的网络社团结果与真实网络社团之间的相似性。实验表明本发明算法l-dmgapso与其他算法相比,能够在syn-fix-var不同时间段上的子网络中挖掘出更精确的社团。图5展示了4种方案(l-dmgapso,se-nmf,dynmoga,facenet)在syn-event基准网络上的社团挖掘结果。图5(a)为birthanddeath网络上的挖掘结果;图5(b)为expansionandcontraction网络上的挖掘结果;图5(c)为intermittentcommunities网络上的挖掘结果;图5(d)为mergingandsplitting网络上的挖掘结果。横坐标是时间段,每个时间段对应一个子网络。纵坐标是nmi值,反映算法挖掘出的网络社团结果与真实网络社团之间的相似性。实验表明本发明算法l-dmgapso与其他算法相比,能够在syn-event不同时间段上的子网络中挖掘出更精确的社团。表2展示了在真实网络上,不同方法的社团挖掘结果。并通过标准互信息(nmi)对结果的优劣进行量化。表中的值是每个时间段值中的平均值,加粗的值是在这4个算法中,值最高的。由此看出,除了在hospital网络中,dynmoga比l-dmgapso略大一点以外,其余的真实网络都表明l-dmgapso能挖掘出与真实社团结构更相似的社团。表27个真实世界网络上的社团挖掘结果l-dmgapsose-nmfdynmogafacenetcellphonecalls0.73610.28730.73120.6810enronmail0.91420.58470.84390.6271highschool0.94400.67430.90010.5753hospital0.79270.46880.80280.3900hypertext0.70080.41770.67480.3858java0.82270.3140.0.79940.7091rados0.59810.28900.56930.4232图6展示了cellphonecalls真实手机数据集上第7和第8时刻下主要社团结构变化。许多手机记录用的相关联的假名称,因此我们采用标识符而不是名称。从第7天到第8天,5个核心成员的节点标识符从2,3,4,6,201变为310,398,361,307,301。图6(a)展示了在第7天中,201号节点充当领导角色,而2,3,4,6节点是重要任务的角色;而图6(b)展示了在第8天中,310,398,361,307,301号节点分别成为新领导的角色。图7展示了在某周五重庆市轨道交通网络的社团挖掘结果,其中是按小时划分的动态网络。图中有2个时刻的社团结构具有明显的变化,分别是:7点到8点和18点到19点。这最有可能的原因是,这两个时刻处于工作日的早高峰和晚高峰时段,导致市民出行结构与其他时刻不同。图8和图9是6点到7点和7点到8点重庆市轨道交通网络线路图。轨道交通网络共有4条线路,为1、2、3、6号线,分别由红、绿、蓝、黄色的线条表示。图8被划分为4个社团,图9被划分为3个社团。在6点到7点时段,聚类4大致划分出渝北区。聚类3大致划分出北碚区和江北区。而在7点到8点时段,渝北区,北碚区和江北区处于同一聚类,这最有可能的解释是,在早高峰时间段,北部三区的联系由于工作等原因更为紧密。图8和图9都大致划分出沙坪坝区(聚类1)和巴南区(聚类2)。但是,由于渝中区是重庆市市中心,因此在7点到8点的早高峰时间段与每个聚类都有联系。最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离本发明权利要求书所限定的范围。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1