专利名称:实现演变点发现的社会网络演化分析方法及系统的制作方法
技术领域:
本发明涉及实现演变点发现的社会网络演化分析方法及系统。
技术背景 目前数据挖掘任务处理的对象主要是单独的数据实例,这些数据实例往往可以用 一个包含多个属性值的向量来表示,同时这些数据实例之间假设是统计上独立的。例如,要 训练一个疾病诊断系统,它的任务是诊断一个被试者是否患有某种传染病,通常的做法是 用一个向量来表示一个被试者,同时假设各被试者之间的患病情况是相互独立的,即知道 一个确诊病人对于诊断其他被试者是否患病不能提供任何帮助。直观经验告诉我们这种假 设是不合理的,一个人的亲戚、朋友患有此传染病,则他相对其他人有更大的可能性患病。 在社会里,人与人不是简单的统计上独立的采样点,他们之间必然存在着联系和影响,忽视 了这种联系会对整个诊断系统的性能带来很大的影响。为了解决这个问题,必须将数据实 例之间的关系同时考虑进来,从而提出了社会网络的概念,可以用图结构来刻画社会结构。社会网络包括很多节点和连接这些节点的一种或多种特定的链接。其中,节点往 往表示了个人、团体、人、文章和/或服务器等物理存在的实体;链接则表示节点之间存在 的各种关系,如朋友关系、亲属关系、贸易关系、引用关系等。社会网络除了图结构表示之 外,还有其他社会学形式和代数形式的表示方式。在很多情况下,链接随着时间不断改变,那么对社会网络的分析需要对一段时间 内的社会网络变化情况进行分析,目前,主要是将分析的时间段等分后进行分段分析即增 量分析。然而,在实际情况中,事物的发生发展不是均勻的,增量分析方法无法准确分析出 社会网络中的噪声和事件,其中,噪声是指与社会网络分析主题无关的联系,主要由具有社 会化特征的个体行为的随机性和不确定性造成的,例如拨错电话号码而造成的无效通话; 事件是指与社会网络分析主题相关的异常联系,例如人们在春节期间的通话。增量分析方 法,一方面,可能会在分析过程中放大噪声,或者往往无法捕捉该时间段中对事物发展产生 重大变化的演变点(即事件),从而无法提供准确的分析结果。
发明内容
因此,本发明的目的在于提供实现演变点发现的社会网络演化分析方法及系统, 从而可以提供准确的分析结果。为实现本发明的上述目的,提供一种实现演变点发现的社会网络演化分析方法, 包括按照时间顺序计算相邻两个社会网络之间的相似度;根据计算结果求出相似度的突变点,即演变点;将相邻突变点之间的社会网络快照选择叠加,形成相应时间段的社会网络拓扑 图,其中,所述相应时间段的社会网络拓扑图与相邻突变点的平均距离最小,社会网络快照 为根据最小粒度划分的一系列社会网络;
根据所述社会网络拓扑图进行聚类和关联分析。优选地,其中,所述计算相邻两个社会网络之间的相似度包括计算相邻两个社会网络之间的距离,所述两个社会网络之间的距离与所述两个社 会网络之间的相似度成反比。优选地,其中,所述计算相邻两个社会网络之间的距离还包括在计算过程中忽略噪声节点,所述噪声节点为只在单一时刻出现过的节点优选地,其中,所述计算相邻两个社会网络之间的相似度包括 采用滑动窗口对社会网络中的节点进行分类,分别得到离网节点、入网节点和稳 定节点,其中,所述离网节点为变化点后不再出现的节点,所述入网节点为变化点后新入网 的节点,所述稳定节点为变化点前后均出现的节点;根据离网节点相似度的变化情况,计算变化点两侧离网节点的变化值;根据入网节点相似度的变化情况,计算变化点两侧入网节点的变化值;根据稳定节点相似度的变化情况,计算变化点两侧稳定节点的变化值;累计离网节点的变化值、入网节点的变化值和稳定节点的变化值,得到变化点及 对应的变化值。优选地,所述根据计算结果求出相似度的突变点包括根据所有变化点及对应的变化值形成时间轴;根据所述时间轴求出相似度的突变点,即得到演变点。优选地,其中,所述将相邻突变点之间的社会网络快照选择叠加包括对所述时间轴归一化处理,产生用于线性分段的基准;采用所述滑动窗口找出相对于所述基准的较高值和较低值;裁剪所述较高值以及平滑所述较低值得到平稳时间段的社会网络。本发明还提供一种实现演变点发现的社会网络演化分析系统,其特征在于,该系 统包括计算单元,用于按照时间顺序,计算相邻两个社会网络之间的相似度;突变单元,用于根据计算结果,求出相似度的突变点;叠加单元,用于将相邻突变点之间的社会网络快照选择叠加,形成相应时间段的 社会网络拓扑图,其中,所述相应时间段的社会网络拓扑图与相邻突变点的平均距离最小, 社会网络快照为根据最小粒度划分的一系列社会网络;分析单元,用于根据所述社会网络拓扑图进行聚类和关联分析。优选地,所述计算单元包括分类子单元,用于采用滑动窗口对社会网络中的节点进行分类,分别得到离网节 点、入网节点和稳定节点,其中,所述离网节点为变化点后不再出现的节点,所述入网节点 为变化点后新入网的节点,所述稳定节点为变化点前后均出现的节点;第一计算子单元,用于根据离网节点相似度的变化情况,计算变化点两侧离网节 点的变化值;第二计算子单元,用于根据入网节点相似度的变化情况,计算变化点两侧入网节 点的变化值;第三计算子单元,用于根据稳定节点相似度的变化情况,计算变化点两侧稳定节点的变化值;累计子单元,用于累计离网节点的变化值、入网节点的变化值和稳定节点的变化 值,得到变化点及对应的变化值。优选地,所述突变单元包括时间轴子单元,用于根据所有变化点及对应的变化值形成时间轴;演变子单元,用于所述时间轴求出相似度的突变点,即得到演变点。优选地,所述叠加单元包括基准子单元,用于对所述时间轴归一化处理,产生用于线性分段的基准;相对子单元,用于采用滑动窗口找出相对于所述基准的较高值和较低值;处理子单元,用于裁剪所述较高值以及平滑所述较低值得到平稳时间段的社会网 络。本发明的有益效果是本发明通过求出社会网络相似度的突变点,捕捉在社会网络演化过程中对事物发 展产生重大变化的演变点,并对演变点前后时间段的社会网络进行拓扑分析,从而精确快 速地发现网络演化过程中事件的发生,以及揭示事件对网络演化所产生的影响,进而提高 准确的分析结果。
图1示出本发明实施例中实现演变点发现的社会网络演化分析方法的流程示意 图;图2示出本发明实施例中实现演变点发现的社会网络演化分析方法的应用流程 示意图;图3示出本发明实施例中滑动窗口的结构示意图;图4示出本发明实施例中实现演变点发现的社会网络演化分析系统的结构示意 图。
具体实施例方式以下结合附图详细说明本发明的实现演变点发现的社会网络演化分析方法及系 统。为了避免噪声,本发明对社会网络中的节点进行分类,采用叠加的方法计算变化点前后 的变化值,从而有效减少噪声带来的影响,同时保留社会网络的基本特征。请参阅图1,一种实现演变点发现的社会网络演化分析方法,包括按照时间顺序计算相邻两个社会网络之间的相似度;根据计算结果求出相似度的突变点,即演变点;将相邻突变点之间的社会网络快照选择叠加,形成相应时间段的社会网络拓扑 图,其中,所述相应时间段 的社会网络拓扑图与相邻突变点的平均距离最小,社会网络快照 为根据最小粒度划分的一系列社会网络;根据所述社会网络拓扑图进行聚类和关联分析。本发明通过求出社会网络相似度的突变点,捕捉在社会网络演化过程中对事物发 展产生重大变化的演变点,并对演变点前后时间段的社会网络进行拓扑分析,从而精确快速地发现网络演化过程中事件的发生,以及揭示事件对网络演化所产生的影响,进而提高 准确的分析结果。其中,所述计算相邻两个社会网络之间的相似度包括 计算相邻两个社会网络之间的距离,所述两个社会网络之间的距离与所述两个社 会网络之间的相似度成反比。其中,所述计算相邻两个社会网络之间的距离还包括在计算过程中忽略噪声节点,所述噪声节点为只在单一时刻出现过的节点。其中,所述计算相邻两个社会网络之间的相似度包括采用滑动窗口对社会网络中的节点进行分类,分别得到离网节点、入网节点和稳 定节点,其中,所述离网节点为变化点后不再出现的节点,所述入网节点为变化点后新入网 的节点,所述稳定节点为变化点前后均出现的节点;根据离网节点相似度的变化情况,计算变化点两侧离网节点的变化值;根据入网节点相似度的变化情况,计算变化点两侧入网节点的变化值;根据稳定节点相似度的变化情况,计算变化点两侧稳定节点的变化值;累计离网节点的变化值、入网节点的变化值和稳定节点的变化值,得到变化点及 对应的变化值。对社会网络中的节点进行分类,采用叠加的方法计算变化点前后的变化值,可以 有效的减少噪声带来的影响,同时保留社会网络的基本特征。在分类的过程中,采用滑动窗 口,每次窗口只向前移动一步,且对离网、入网和稳定节点的状态是在原有窗口的基础上更 新,所以其时间复杂度低,生成方法合理而高效。所述根据计算结果求出相似度的突变点包括根据所有变化点及对应的变化值形成时间轴;根据所述时间轴求出相似度的突变点,即得到演变点。其中,所述将相邻突变点之 间的社会网络快照选择叠加包括对所述时间轴归一化处理,产生用于线性分段的基准;采用所述滑动窗口找出相对于所述基准的较高值和较低值;裁剪所述较高值以及平滑所述较低值得到平稳时间段的社会网络。社会网络的演化是一个平稳和事件交替出现的过程,通过对事件发生前后两个平 稳时间段的社会网络的特征抽取,对比它们在这两个时间段的不同,从而精确快速地发现 网络演化过程中事件的发生,并揭示事件对网络演化所产生的影响。请参阅图2,为本发明发现演变点发现的社会网络演化分析系统的应用,包括201、接受用户输入的社会网络数据;根据输入的数据,使用一个确定大小的滑动 窗口,确定节点类型,请参阅图3,在本实施例中,采用大小为六的滑动窗口 301,其中“〇” 代表变化点后不再出现的节点,即离网节点;“Δ”代表变化点后新入网的节点,即入网节 点;“ ”代表变化点前后均出现过的节点,即稳定节点;“☆”代表只在某一时刻出现过的 节点,即噪声节点;202-1、计算变化点两侧离网节点的变化,变化值由离网节点的度的变化情况来确 定;202-2、计算变化点两侧入网节点的变化,变化值由入网节点的度的变化情况来确定;202-3、计算变化点两侧稳定节点的变化,变化值由稳定节点的度和邻居的变化情 况来确定;203、累计上面三种节点的变化值,形成一个变化点及其变化值;204、对演化网络中每个变化点求变化值,它们所组成的坐标集就形成了整个网络 的TimeLine ;根据形成的TimeLine,确定演化点;
205、平稳时间段抽取对原始的TimeLine进行归一化处理,产生一个线性分段的 基准;然后使用滑动窗口策略找出相对于基准的较高值和较低值,裁剪较高值并平滑所有 的较低值从而得到平稳演化段落。相应的,请参阅图4,一种实现演变点发现的社会网络演化分析系统,其特征在于, 该系统包括计算单元,用于按照时间顺序,计算相邻两个社会网络之间的相似度;突变单元,用于根据计算结果,求出相似度的突变点;叠加单元,用于将相邻突变点之间的社会网络快照选择叠加,形成相应时间段的 社会网络拓扑图,其中,所述相应时间段的社会网络拓扑图与相邻突变点的平均距离最小, 社会网络快照为根据最小粒度划分的一系列社会网络;分析单元,用于根据所述社会网络拓扑图进行聚类和关联分析。所述计算单元包括分类子单元,用于采用滑动窗口对社会网络中的节点进行分类,分别得到离网节 点、入网节点和稳定节点,其中,所述离网节点为变化点后不再出现的节点,所述入网节点 为变化点后新入网的节点,所述稳定节点为变化点前后均出现的节点;第一计算子单元,用于根据离网节点相似度的变化情况,计算变化点两侧离网节 点的变化值;第二计算子单元,用于根据入网节点相似度的变化情况,计算变化点两侧入网节 点的变化值;第三计算子单元,用于根据稳定节点相似度的变化情况,计算变化点两侧稳定节 点的变化值;累计子单元,用于累计离网节点的变化值、入网节点的变化值和稳定节点的变化 值,得到变化点及对应的变化值。所述突变单元包括时间轴子单元,用于根据所有变化点及对应的变化值形成时间轴;演变子单元,用于所述时间轴求出相似度的突变点,即得到演变点。所述叠加单元包括基准子单元,用于对所述时间轴归一化处理,产生用于线性分段的基准;相对子单元,用于采用滑动窗口找出相对于所述基准的较高值和较低值;处理子单元,用于裁剪所述较高值以及平滑所述较低值得到平稳时间段的社会网 络。尽管以上参照具体实施方式
详细描述了本发明,但是对于本领域技术人员而言, 在本文的教示下可以对本发明作出各种修改和变形,而不脱离本发明的实质和范围。
权利要求
一种实现演变点发现的社会网络演化分析方法,包括按照时间顺序计算相邻两个社会网络之间的相似度;根据计算结果求出相似度的突变点,即演变点;将相邻突变点之间的社会网络快照选择叠加,形成相应时间段的社会网络拓扑图,其中,所述相应时间段的社会网络拓扑图与相邻突变点的平均距离最小,社会网络快照为根据最小粒度划分的一系列社会网络;根据所述社会网络拓扑图进行聚类和关联分析。
2.根据权利要求1所述的方法,其中,所述计算相邻两个社会网络之间的相似度包括 计算相邻两个社会网络之间的距离,所述两个社会网络之间的距离与所述两个社会网络之间的相似度成反比。
3.根据权利要求2所述的方法,其中,所述计算相邻两个社会网络之间的距离还包括 在计算过程中忽略噪声节点,所述噪声节点为只在单一时刻出现过的节点。
4.根据权利要求1至3任一项所述的方法,其中,所述计算相邻两个社会网络之间的相 似度包括采用滑动窗口对社会网络中的节点进行分类,分别得到离网节点、入网节点和稳定节 点,其中,所述离网节点为变化点后不再出现的节点,所述入网节点为变化点后新入网的节 点,所述稳定节点为变化点前后均出现的节点;根据离网节点相似度的变化情况,计算变化点两侧离网节点的变化值; 根据入网节点相似度的变化情况,计算变化点两侧入网节点的变化值; 根据稳定节点相似度的变化情况,计算变化点两侧稳定节点的变化值; 累计离网节点的变化值、入网节点的变化值和稳定节点的变化值,得到变化点及对应 的变化值。
5.根据权利要求4所述的方法,其中,所述根据计算结果求出相似度的突变点包括 根据所有变化点及对应的变化值形成时间轴;根据所述时间轴求出相似度的突变点,即得到演变点。
6.根据权利要求5所述的方法,其中,所述将相邻突变点之间的社会网络快照选择叠 加包括对所述时间轴归一化处理,产生用于线性分段的基准; 采用所述滑动窗口找出相对于所述基准的较高值和较低值; 裁剪所述较高值以及平滑所述较低值得到平稳时间段的社会网络。
7.一种实现演变点发现的社会网络演化分析系统,其特征在于,该系统包括 计算单元,用于按照时间顺序,计算相邻两个社会网络之间的相似度;突变单元,用于根据计算结果,求出相似度的突变点;叠加单元,用于将相邻突变点之间的社会网络快照选择叠加,形成相应时间段的社会 网络拓扑图,其中,所述相应时间段的社会网络拓扑图与相邻突变点的平均距离最小,社会 网络快照为根据最小粒度划分的一系列社会网络;分析单元,用于根据所述社会网络拓扑图进行聚类和关联分析。
8.根据权利要求7所述的系统,其特征在于,所述计算单元包括分类子单元,用于采用滑动窗口对社会网络中的节点进行分类,分别得到离网节点、入网节点和稳定节点,其中,所述离网节点为变化点后不再出现的节点,所述入网节点为变化 点后新入网的节点,所述稳定节点为变化点前后均出现的节点;第一计算子单元,用于根据离网节点相似度的变化情况,计算变化点两侧离网节点的 变化值;第二计算子单元,用于根据入网节点相似度的变化情况,计算变化点两侧入网节点的 变化值;第三计算子单元,用于根据稳定节点相似度的变化情况,计算变化点两侧稳定节点的 变化值;累计子单元,用于累计离网节点的变化值、入网节点的变化值和稳定节点的变化值,得 到变化点及对应的变化值。
9.根据权利要求8所述的系统,其特征在于,所述突变单元包括 时间轴子单元,用于根据所有变化点及对应的变化值形成时间轴; 演变子单元,用于所述时间轴求出相似度的突变点,即得到演变点。
10.根据权利要求9所述的系统,其特征在于,所述叠加单元包括 基准子单元,用于对所述时间轴归一化处理,产生用于线性分段的基准; 相对子单元,用于采用滑动窗口找出相对于所述基准的较高值和较低值;处理子单元,用于裁剪所述较高值以及平滑所述较低值得到平稳时间段的社会网络。
全文摘要
本发明提供实现演变点发现的社会网络演化分析方法及系统,其中,该方法包括按照时间顺序计算相邻两个社会网络之间的相似度;根据计算结果求出相似度的突变点,即演变点;将相邻突变点之间的社会网络快照选择叠加,形成相应时间段的社会网络拓扑图,其中,所述相应时间段的社会网络拓扑图与相邻突变点的平均距离最小,社会网络快照为根据最小粒度划分的一系列社会网络;根据所述社会网络拓扑图进行聚类和关联分析。本发明通过求出社会网络相似度的突变点,捕捉在社会网络演化过程中对事物发展产生重大变化的演变点,并对演变点前后时间段的社会网络进行拓扑分析,从而精确快速地发现网络演化过程中事件的发生,以及揭示事件对网络演化所产生的影响,进而提高准确的分析结果。
文档编号G06F17/30GK101872359SQ201010198329
公开日2010年10月27日 申请日期2010年6月11日 优先权日2010年6月11日
发明者吴斌, 张雷, 杨娟, 杨胜琦, 柯庆, 王柏 申请人:北京邮电大学