基于特征关联的对等网络特征分析方法

文档序号:7752110阅读:249来源:国知局
专利名称:基于特征关联的对等网络特征分析方法
技术领域
本发明涉及网络信息安全领域,具体涉及一种对等网络(Peer-to-Peer networking, P2P)特征分析方法。
背景技术
目前,对等网络应用在Internet网络上的广泛流行,已成为互联网主流应用技术。对对等网络特征的测量、提取与分析,能够有效指导新型P2P协议的设计与实现,并能够对于规模互联网络安全事件的检测与预警提供可靠的数据保障。对等网络系统具有大规模复杂性、强动态性、以及时空演进特性等特征。而从目前技术发展状况来看,绝大部分研究均局限于某个或某部分较为单一的网络特征的测量与分析,且测量与分析方法还存在较大的局限性。然而,大量研究表明,单纯将一部分特征割裂开来,进行单一角度、单一层次的检测分析,而不是从宏观上把握整个网络的特征,从中得到的结论往往不够全面准确,致使难以很好反映对等网络系统的真实状态,甚至出现特征偏差。此外,随着研究的不断深入, 一些新的网络特征也不断被提出来。这要求我们必须从网络的时空静态、动态特征,宏观、 微观行为特征,以及用户偏好特征等多个方面进行分析,通过关联各层次特征,找到这些特征的相互内在联系,发现对等网络系统的潜在隐藏特征。

发明内容
为了克服现有方式方法测量手段单一、测量数据片面的问题,在分析归类当前主流对等网络的基础上,研究具备人工智能与自主学习能力的对等网络特征挖掘技术,建立对等网络主被动测量相结合的监测体系,从对等网络结构、消息流量、用户行为等多个层次,综合发现对等网络的新特征、隐藏特征,通过对对等网络监测结果时间、空间特征的跟踪分析,建立对等网络在上述各个特征层面上的演进规律模型,并探索对等网络应用综合特征分析算法,实现了多层次、多特征的监测和分析。本发明主要解决了两个问题(1)建立了对等网络环境下性能参数测量体系,准确提取对等网络的多个重要特性,从结构特征、流量特征、以及用户行为特征等多个层次对对等网络性能指标进行监测;(2)通过数据挖掘、机器学习等技术,建立了对等网络质量评价分析模型,实现了对等网络特征与特性的准确把握,从而为对等网络大规模安全事件应急响应提供基本的数据保障。本发明具有以下特点(1)测量算法具有高效性和实时性,能实时监测当前对等网络的性能指标;(2)具有自主学习能力,减少了人工干预;(3)弥补了传统的基于单一特征的测量分析方法缺点,使得测量分析结论更可
罪;(4)具备数据挖掘能力,能够发现对等网络隐藏特征。


图1为整体框架流程图;图2为基本网络特征示意图;图3为网络重绘示意图;图4为复杂网络特征示意图。
具体实施例方式本发明整体框架流程如下一、对网络特征参数进行测量与统计。一般而言,对等网络抽象协议可描述如下1.加入对等网络。节点ν连接D个缓存点,缓存节点的选择可以采用随机选择策略或其它更为复杂的选择策略。2.邻居重连。当节点ν的邻居离开网络后,节点ν将选择新的缓存节点作为其邻居,缓存节点的选择策略可以是随机选择或更为复杂的策略。3.缓存节点替换。当缓存节点ν的邻居数超过C,或者离开对等网络,需要选择其它节点(非缓存节点)作为新的补充。设vk是缓存节点集合中第k个节点,则选择的基本策略是k = 0 ;while (没有找到一个非缓存节点){在节点Vk的邻居中寻找一个非缓存节点;k++ ;}4.邻居信息报告。当节点ν收到邻居信息请求消息时,ν将自己当时所有邻居的地址信息,以及自己的相关信息一同发送给请求者。而对等网络主动测量过程可以描述为1.预先收集对等网络入口节点(缓存节点)的地址信息,将其保存到队列Q中。 其中,队列Q中的元素是唯一的。2.从队列Q中每次取出m个未访问的节点,获取这些节点的信息以及其k个邻居地址信息。3.将k个邻居节点地址信息保存到队列尾部,保存m个节点的邻居关系。4.重复第2步,直到访问完队列Q中的所有节点或访问了网络中ε比例的节点。 采用多点并行分布式测量策略,以及,提高了测量速度,减少了测量误差。由于对等网络大规模、强动态的特性,本方法采用多点并行分布式测量策略来增大测量系统的获取速度。同时,由于网络具有异构混合(disassortative mixing)特性—— 网络中大度节点偏好与低度节点建立邻居关系——本方法优先选择大度节点访问能获得更多的节点信息,以减小产生访问回路的概率。对于规则网络和正态简单随机网络,本策略不会影响测量速度;而且,对于幂律网络和具有混杂特征(mixing pattern)的随机网络, 这一策略显然更具优势。现有的研究结论表明,节点随机加入、离开网络。节点随机加入对等网络的统计行为服从参数为λ的泊松分布(Possion distribution);而节点的在线时间服从参数为μ 的指数分布(Exponential distribution)。令Gt = (Vt,Et)是时刻t的网络拓扑,节点加入网络的泊松分布参数λ,节点在线时间的指数分布参数为μ ;令N = λ/μ。得到1.对于任意时刻 t = Ω (N),Vt = θ (N);当 t/N—c 时,满足P (I Vt =N士 ο(Ν)) = 1-Ν"ω(1);2.存在一个常数c,对于给定的任意时刻t > clogN,对等网络图Gt满足概率关系Pr (Gt 是连通的)彡 1-0 (log2N/N)。上述两个结论说明根据抽象协议描述的对等网络,经过一段时间后,该网络的节点数量是相对稳定的,同时网络是连通的。定义完整性指数、形变指数和稳定性指数作为衡量系统框架和策略中测量结果数据的指标5.设Nmax,Emax分别表示网络中节点和边的总数,n,e为测量系统当前获取节点、边的数量,定义拓扑数据完整性指数ε = (n/Nmax+e/Emax)/2,作为测量系统在某一时刻获取的拓扑数据占网络总体的比例。根据实验结果,我们选择测量系统运行30分钟时获取的节点和边的总数作为Nmax和Emax。6.同时做两次反向爬行(Back-to-Back Crawling),获取拓扑图 Gtl = (V0, E0I,G1 =IV1, EJ。定义 Gc^G1W点差异集合 Vd= {v|ve (V0 xor V1)},边差异集合 Ed = {e | e e (E0 xor E1)} ο设δ e为集合Ed中元素个数,δ v为Vd中元素个数,N, E分别为Gtl,G1节点数和边数的均值。定义拓扑数据形变指数δ = (δ^Ε+δν/Νν2,以反映拓扑图微观结构变化情况。δ越小,说明测量系统越准确。δ值与每次访问的节点数m、这m个节点的平均度数 d,以及运行时间T等密切相关,通过增加m和d可以在短时间内获得较小形变的网络拓扑图。7.设X,y分别为Gtl,G1节点度排名前K的节点分布序列,则拓扑数据稳定性指数 S定义为s =^Zxy-ZxZy
^{κΣχ2-α^Τ- κΣγ2 — CIy)2]S衡量连续两次快照拓扑图Gtl,G1节点度分布序列的相似程度,从而比较拓扑图在宏观结构上的一致性。S越大,说明测量系统获取的拓扑图越稳定,数据越可靠。二、建立拓扑特征选择模型。它包含一个基本拓扑特征参数有限集、一个复杂拓扑特征集合、以及相应的分析方法。基本拓扑特征参数集合Φ中的元素权(d = 0,1,. . . D)描述了网络的特定拓扑特征, 也代表了具有粉(d = 0,1,. . . D)特征的网络图集合,内(d = 0,1,. . . D)满足如下一些约束1.可生成性。通过构造特定的网络拓扑生成算法,能够生成具有相同(或相似)(Pd (d = 0,l,...D)的“人造”网络图;2.包容性。拓扑特征参数集合中,元素权包含元素釣(d = 0,1,. . . d-Ι)所描述的所有拓扑特征。也就是说,具有彻拓扑特征的网络图,必然同时具有豹(d = 0,l,...d-l)的拓扑特征;3.收敛性。模型中的拓扑特征参数集合是有限的,即在集合中,存在正整数n,元素办描述的所有拓扑图是同构的。集合Φ中,定义办是网络的平均度数<k>,它描述了每个节点的平均连接数。φ0是对网络图拓扑特征的描述相对粗糙,不能反映网络中节点度分布特征,于是定义奶为网络图的度分布特征p(k)。类似的,列描述了度为k的节点在网络中的数量,但是没有反映节点间的相互连接特征,也就是说,料没有提供度为k和k’的节点之间连接关系这一信息,于是定文内为联合度分布特征P (k1; k2)。φ ο,約和内满足可生成性约束条件。通过连边重画算法(link rewriting algorithm)可以容易地重现这些拓扑特征(<k>、P(k)和P(k1;k2));此外,给定网络图的联合度分布特征P(k1;k2),可以很容易得到相应的度分布特征,即P(k) = <k> Σ k,P(k,k’ )/ k,同样,给定网络图的度分布特征P(k),也能够得到平均度数<k>,即<k> =Σ kP(k)。这说明,办、列和約也满足包容性约束条件可以通过给定的内计算出相应的特征外,进而得到特征仰,它们是单向拓扑特征包含的关系。附图1显示了基本拓扑特征有限集Φ中元素的相互关系以及办、竹和内·代表的拓扑特征。附图2是节点数为4的网络图实例,其粉(d = 0,1,2)描述的拓扑特征进一步定义仍为网络图中三角形和锲形子图分布密度,用网络的聚集系数C,C(k) 等来表示;同理,可以做推广定义仰为k个节点组成的不同子图在网络图中的分布特征。容易发现,由k+Ι个节点组成的子图必然包含k个节点组成的子图,也就是说,这个推广定义满足包容性约束条件;另一方面,当k = η时,η个节点的子图其实就是整个网络图的拓扑, 也就是满足收敛性的约束。我们将富人俱乐部连接性作为基本拓扑特征参数集合Φ中元素化。就网络拓扑的静态特征而言,Φ=彻(d = 0,1,2,3)既能够很好的描述多数现实网络的拓扑特征。此外, 为了描述对等网络的可生存性包含网络的整体性能、动态演化等特征,建立了复杂拓扑特征集合Φ’作为基本拓扑特征有限集Φ的补充。Φ’中的元素从宏观角度描述网络的性能、弹性、指纹等。通过集合Φ描述的特征再生成“实际”的网络拓扑,同时利用Φ’中元素描述的特征,进一步衡量、比较分析这些拓扑特征的影响。至此,建立的拓扑特征选择模型整体框架可以由附图3表示。我们提出的拓扑特征选择模型是动态的、可扩展的。也就是说,随着网络拓扑研究的深入和实际应用的需求,通过扩展Φ可以更细致的描述网络的拓扑特征;通过改变Φ’中的元素则可以实现不同角度的分析目的。三、对等网络拓扑特征分析方法在拓扑特征选择模型基础上,获取对等网络有效、稳定的大规模拓扑测量数据。并针对对等网络动态性、大规模的特点,建立了层次化的对等网络拓扑特征分析方法如下1.计算集合0,使用0=内(d = 0,1,2,3)描述现实对等网络的拓扑特征。2.测量获取的拓扑实例进行重采样与“再生成”,重建可以代表实际对等网络的、 规模相对较小的,并且能够计算其复杂拓扑特征的“再生”拓扑图,从而得到复杂网络拓扑特征集合Φ’中的元素,以代替目前由于计算复杂,而无法直接得到复杂拓扑特征参数。3.根据集合Φ’中的元素,分析、动态模拟“再生”拓扑图的复杂拓扑特征;
4.根据网络拓扑“指纹”特征、对消息转发的影响,以及在面临节点失效或恶意攻击时的可生存性能等指标,得出对等网络特征分析的最终结论。
权利要求
1.一种基于数据挖掘技术的拒绝服务攻击防御方法和系统,该系统需部署在被保护网络的网络入口,并为该系统配置数据库服务器以存储系统抽样的实时流量;其特征在于,所述系统包括有异常检测模块,负责检测当前网络流量的状态以判断当前系统是否异常,并根据当前系统的状态将当前网络流量随机抽样至数据库服务器的正常流量库和异常流量库;数据挖掘引擎模块,负责利用数据库服务器中的正常流量库和异常流量库提取可信源 IP列表和属性分值表,并将可信源IP列表和属性分值表分别传递给可信IP过滤器和流量控制模块;可信IP过滤器模块,负责根据可信源IP列表对数据包的源IP进行匹配,如果匹配则放行流量,否则将流量交给流量控制模块处理;流量控制模块,负责根据属性分值表对流经流量控制模块的网络数据包进行打分,并将分值映射成数据包危险等级,该模块根据危险度等级的高低进行选择性的丢包。
2.如权利要求1所述的异常检测模块,其特征在于,所述异常检测算法包括 定时提取TCP包头的标志字段和IP包头的分片标志;构造协方差矩阵,并计算协方差矩阵与协方差矩阵序列的均值的距离; 构造存储大量距离值的历史窗口,在假设距离值独立同分布的情况下,计算距离值的置信区间;对判断结果进行二次评估,使检测算法的检测结果更准确。
3.如权利要求1所述的网络流量随机抽样,其特征在于,所述方法包括随机生成16比特匹配串,与IP数据包Identification字段16比特进行匹配,若匹配成功则抽样该数据包。
4.如权利要求1所述的提取可信源IP列表,其特征在于,所述方法包括 对正常流量库中的源IP进行访问频度排序,得到集合S1 ;在正常流量库中,根据IP数据包TTL属性和IP包长度属性提取频繁项集,并得到频繁属性集对应的IP列表,得到集合S2 ;在异常流量库中,根据IP数据包TTL属性和IP包长度属性提取频繁项集,并得到频繁属性集对应的IP列表,得到集合S3 ; 根据前三个集合得到可信IP列表。
5.如权利要求1所述的提取属性分值表方法,其特征在于,所述提取方法包括根据IP数据包的TTL属性和源IP前缀(16比特)两属性,对正常流量库和异常流量库中的数据包进行频率统计;按照贝叶斯定理生成属性分值表;根据属性分值表计算正常流量库和异常流量库中的数据包分值的平均值和标准差。
6.如权利要求1所述的将分值映射成数据包危险等级,其特征在于,所采用的映射方法充分考虑了贝叶斯分类误差,并减少映射关系对数据包危险度划分的影响。
7.如权利要求1所述的根据危险度等级的高低进行选择性的丢包,其特征在于根据危险等级与丢包概率的对应关系,对高危险度的数据包进行高概率丢包,对于低危险度的数据包进行低概率丢包。
8.如权利要求7所述的危险等级与丢包概率的对应关系,其特征在于当危险等级为0时,丢包概率为0%,当危险等级为9时,丢包概率为10%,其他危险等级可以按照线性或指数函数关系来设定丢包率。
全文摘要
本发明公开了一种对等网络(Peer-to-Peer networking,P2P)特征分析方法。该方法从结构特征、流量特征、以及用户行为特征等多个层次对对等网络进行监测,通过在线实时数据流特征分析和离线信息内容深入挖掘等技术,实现对等网络特性指标的获取与网络态势的感知,从而为对等网络安全预警,事件应急响应等方面的研究提供基本的支撑平台和技术保障。
文档编号H04L29/06GK102299897SQ20101020720
公开日2011年12月28日 申请日期2010年6月23日 优先权日2010年6月23日
发明者张凤荔, 王勇, 秦志光 申请人:电子科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1