一种广义最大度随机游走图抽样算法
【专利摘要】本发明公开一种广义最大度随机游走图抽样算法,在图上随机游走采集样本;根据采集得到的样本构造无偏估计;能够有效地平衡RW算法的“大偏差问题”以及MD算法的“重复样本问题”,从而提升了从网络中采集样本点的整体效率。
【专利说明】一种广义最大度随机游走图抽样算法
【技术领域】
[0001] 本发明属于大图数据挖掘【技术领域】,尤其涉及一种广义最大度随机游走图抽样算 法。
【背景技术】
[0002] 近年来,在线社交网络分析在学术界和工业界都引起了广泛关注。在所有在线 社交网络分析的相关研究中,一个最为基本的研究问题是估计社交网络中的节点性质以 及整个社交网络的拓扑特性。然而,由于很多在线的社交网络公司,例如腾讯、新浪微博、 Facebook以及Twitter等,都没有向第三方发布其社交网络的图谱数据,并且整个社交图 谱数据的大小对于第三方来说往往都是未知的。因此,广大从事社交网络分析的研究者和 开发者都面临一个非常困难的数据采集问题。这里的主要难点在于,如何设计和开发出一 种简便的方法来从一个"对于研究者不可见"的社交网络中提取出均匀的图节点样本。
[0003] 为了解决这一问题,目前在学术界有很多基于爬虫技术的网络抽样方法被提出并 广泛使用。可以把这些方法分为两大类:一类是基于图遍历的方法,另一类则是基于随机 游走的方法。基于图遍历的方法主要是应用广度优先搜索(BFS,breadth-first search)或 者深度优先搜索(DFS,depth-first search)采集节点。然而,这一类方法的主要缺点是在 采集节点的过程中,算法会偏向于度比较高的节点,这显然与需要均匀的节点样本的目标 不相符。并且,这一类算法对度比较高的节点偏向多少无法从理论上刻画,因此很难纠正这 一偏向,进而无法得到均匀的节点样本。目前,这一类算法逐渐被学术界和工业界弃用。基 于随机游走的算法很好地解决了基于图遍历的算法的缺陷,它们可以直接生成无偏的节点 样本,或者生成有偏但是偏向性已知的节点样本,故而这类算法在图采样中广受欢迎。目前 有两种非常流行的基于随机游走的图抽样算法。第一种算法是重新加权的随机游走算法, 称之为RW(re-weighted random walk)算法;第二种算法是最大度随机游走算法,称之为 MD (maximum-degree random walk)算法。下面简要介绍这两种算法。
[0004] 将网络抽象成一个图G = (V,E),其中n = |V|代表节点的个数,m = |E|代表 边的条数。令N(U)为节点U e V的所有邻接节点的集合,du = |N(u) I表示节点U的度。 令f:V -R是一个定义在节点集V上的实值函数,表示节点u的某种特性的值,例如节点 的度,或者节点的某个属性值。在估计网络特性的问题中,目标是估计整个网络中所有节 点的f (U)值的平均值,记为Σ./?/η '这里的,=[l/η,. . .,l/η]表示均匀分 ueV 布。例如,如果定义f(u) =du,那么代表的是图G中节点度的平均值。如果定义 h/(u) = lR《(l<d<n-l),则1(f)表示的是图G中节点的度分布,这里Ild^.是一个 指示函数,如果d u = d,则=1,否则l{d"=di = 〇
[0005] 在现有的文献中,RW和MD算法都能产生一个对A.: (f)的无偏估计。RW算法是在图 中执行一次随机游走来采集节点样本。众所周知,在一个非周期性的无向连通图中采用随 机游走所采集到的节点样本并不是一个均匀分布。根据随机游走的稳定分布理论,节点被 选取的概率和节点的度成正比,也即对于uev,有ji?( u) =du/2m,这里的π?表示随机游 走的稳定分布。因此,根据随机游走的采集样本策略,图中每个节点被采集到的概率是不一 样的,度大的节点被采集到的概率比度小的节点被采集到的概率要大,也就是说随机游走 的算法更偏向于度比较高的节点。为了纠正这种偏向性,RW算法采用了一种重新加权的策 略。具体地,RW算法采用估讨
【权利要求】
1. 一种广义最大度随机游走图抽样算法,包括以下步骤: S1,在图上随机游走采集样本;采集到样本点集S;在图中随机选择节点U设为初始节 点,并且将计数器i置为1;使用du/max{du,C}作为参数生成一个几何随机变量Ii并加入 集合ξ;将节点u作为Si,并加入样本点集S;从节点u的邻接节点中等概率随机选取一个 节点V;将节点V作为下一步的节点u,计数器i加1,返回采集到的样本点集S和相应的几 何随机变量集ξ;循环执行直至不满足条件; S2,根据采集得到的样本构造无偏估计;构造无偏估计的公式为:
其中,Si表示算法收集到的第i个节点,ξi指用来表示样本Si的重复次数。
2. 根据权利要求1所述的广义最大度随机游走图抽样算法,其特征在于:在图上随机 游走采集样本的概率转移方程如下:
其中du表示节点u的度,C是一个非负整数。
【文档编号】G06F17/30GK104462374SQ201410749244
【公开日】2015年3月25日 申请日期:2014年12月9日 优先权日:2014年12月9日
【发明者】李荣华, 邱宇轩, 毛睿, 秦璐, 金檀, 蔡涛涛 申请人:深圳大学