一种高速多维报文分类的设计方法
【专利摘要】本发明公开了一种高速多维报文分类的设计方法,该方法能够利用骨干网流量特征优化高速多维报文分类,并且将优化问题规约为求取当前时间片内的动态流量分类代价最小化的最佳流量分类树;最佳流量分类树的求解方法包括以下4部分,即利用大规模骨干网的流量特征优化报文分类树的层次划分方法;衡量各种分类域对当前流量的分类能力的分类域熵计算方法;利用流长特性减低分类树节点查找和拷贝代价,有效提高报文分类速度的查找方法以及动态更新最佳流量分类树的更新方法。
【专利说明】-种高速多维报文分类的设计方法
【技术领域】
[0001] 本发明设及一种高速多维报文分类的设计方法,属于网络安全【技术领域】。
【背景技术】
[000引滥用入侵检测系统Intrusion Detection System(简称;ID巧中的报文分类算法 是使用多个分类域的高维分类算法。为了论述方便设d为分类维数,n为规则个数。
[0003] 已有的分类算法分为硬件和软件两类。硬件算法利用硬件并行计算能力提高处理 速度,在时间和空间的消耗上取得了较好的折中,但是硬件算法虽然速度快,但价格比较昂 贵,特别对于IDS规则库更新频繁,报文分类维数多(10个W上)的情况,扩展性差是另一 个不可忽略的缺点。软件算法最有代表意义的就是粪俭等人提出的P_Hicuts算法,它针对 经典化cuts算法空间异常膨胀和决策树不平衡问题提出了两点改进:①采取非均匀切分 方法减少了分类节点个数;②将覆盖规则上提,不再参与分组,W此抑制由该类规则引起的 空间指数膨胀,从而降低了分类树的高度,减小了平均分类复杂度。目前报文分类算法发展 基本稳定,理论上该些分类算法的平均时间复杂度为0(d),提出的各种改进措施保证空间 占用远小于其最坏空间复杂度〇(nd)。
[0004] 但是上述软件算法都属于传统报文分类算法,它们的各种优化措施仅仅只考虑 IDS规则库的静态特征,而完全忽略了访问分类树的主体一一网络流量的特性,因而无法利 用动态流量特性来优化分类树结构。Sinha,S等人提出的WIND算法创新地提出利用流量 的动态特征来指导分类树构造的方法,其本质是对分类树中分类结点的划分策略的改进, 是一种分类结点切分的启发式方法。WIND W流量中分类域的特殊属性值能排除的规则个 数M来衡量是否为此特殊属性值建立单独的分类节点。但它的方法还远未成熟,该体现在 ①WIND只是采用小样本数据通过实验证明按照当前流量特征构建的分类树,可W将报文 分类速度提高至未经优化的Snod分类树的1. 3?1. 7倍,占用存储量少近15%,而直觉地 得出结合动态流量特征可W改善分类树性能的结论。并没有指出是流量的长相关和自相似 特征保障了使用当前流量的特征生成的分类树在一段时间内是最适合流量的"最佳"分类 树。②WIND提出的该种结点切分启发式方法只适合小样本数据,对于大规模骨干网真实流 量分类树空间占用会大得不可接受;⑨WIND提出流量的特征是动态变化的,最佳分类树必 须自适应于流量的动态变化才能保持分类树的"最优",但是它没有提出自己的自适应的动 态更新策略。比如采用多长时间的流量样本、能利用流量的那些动态特征来提高分类树查 找速度构造W及如何更新分类树结构等等关键问题都没有得到解决。而本发明能够很好地 解决上面的问题。
【发明内容】
[0005] 本发明目的在于提供了一种高速多维报文分类的设计方法,该方法能够利用骨干 网流量特征优化高速多维报文分类,并且将问题规约为求取当前时间片内的动态流量分类 代价最小化的最佳流量分类树的定义方法;最佳流量分类树的求解方法,即利用大规模骨 干网的流量特征优化报文分类树的层次划分方法;衡量各种分类域对当前流量的分类能力 的分类域滴计算方法;利用流长特性减低分类树节点查找和拷贝代价,有效提高报文分类 速度的查找方法W及动态更新最佳流量分类树的更新方法。
[0006] 本发明解决其技术问题所采取的技术方案是;一种高速多维报文分类的设计方 法,该方法包括如下步骤:
[0007] 步骤1 ;使用MultiBloom Filter实时计算报文Pi所属流F的流长。
[000引步骤2 ;如果报文Pi属于短流,则说明报文Pi没有对应的规则号缓存空间,报文 Pi仍需采用P_Hicuts的传统捜索方法查找分类树,将遍历的每个分类树节点的规则号集 合拷贝至报文Pi的规则标签中,当查找至分类树叶结点时将Pi+标签集合化拷贝入报文 公共缓存中。
[0009] 步骤3 ;如果报文Pi所属流F的流长刚刚满足长流的标准,则为该个新的长流在 长流hash表中创建新项目。其包括四项信息;流标识和S个位置指针。它们分别是流标识 FlowID,采用四元组信息标识;报文Pi的分类树中间结点指针p_midNod冲ointer,指向报 文Pi在分类树中采用5元组信息捜索后到达的中间结点;报文Pi的分类树叶结点指针p_ finalNod冲ointer,指向报文Pi捜索分类树最后访问的叶结点和Pi在公共内存中的规则 标签指针p_rule。
[0010] 步骤4 ;如果报文Pi是长流F的后继报文,则报文Pi直接从长流hash表中保存 的中间结点指针p_midNodePointer往下查找的分类树叶结点,如果该个叶结点和流中其 它报文的叶结点一样,则不必再次拷贝规则标签,直接将报文Pi按P_rule加入到流共享内 存缓冲池中去,否则进行第五步。
[ocm] 步骤5 ;报文Pi和流中的其他报文访问的叶结点不一样,此时产生回溯,按P_ 化cuts的传统捜索方法从中间结点指针p_midNodePointer开始查找分类树,将遍历的每 个分类树节点的规则号集合拷贝至报文Pi规则标签中,当查找至分类叶结点时将Pi+标签 集合化拷贝入报文公共缓存中。
[001引有益效果;
[0013] 1、本发明利用动态流量的特点改进了 IDS分类树结构、降低了报文访问分类树的 复杂度,在提高分类速度的同时降低了算法的内存开销。
[0014] 2、本发明解决了 Wind算法的缺陷和不足,改进了分类树的动态更新策略。
【专利附图】
【附图说明】
[0015] 图1为本发明的方法的流程图。
[0016] 图2为五个主要分类域滴值分布比较示意图。
[0017] 图3为每小时其他分类域滴值分布比较示意图。
[0018] 图4为=种报文分类算法的分类速度比较示意图。
[0019] 图5为S种报文分类算法的内存占用比较示意图。
[0020] 图6为骨干网每分钟长流数目的分布统计图。
[0021] 图7为每小时长流的流含量及其报文含量百分比统计图。
【具体实施方式】
[0022] 下面结合说明书附图对本发明创造作进一步说明。
[0023] 实施例一
[0024] 1、分类域滴计算方法
[0025] 定义分类域滴;
[0026] 设X = {xi,X2, ... X。... X。}代表当前流量,每个Xi都代表一个报文,X也称作报 文集合。设 R = {r。r2,. . . r。. . . r。}是 IDS 的攻击规则集合,A = {a。32,. . .,3j,. . . a。} 代表分类域集合,R在上的非均匀切分形成的分类为〇令,={G,,...,G,,...,G;i}。则 V_Ti,3C;;,使得X, G巧,。则分类域对于当前流量X和规则集分类的分类属性滴定 义为
【权利要求】
1. 一种高速多维报文分类的设计方法,其特征在于,所述方法包括如下步骤: 步骤1 :使用MultiBloom Filter实时计算报文Pi所属流F的流长; 步骤2 :如果报文Pi属于短流,则说明报文Pi没有对应的规则号缓存空间,报文Pi仍 需采用P_Hicuts的传统搜索方法查找分类树,将遍历的每个分类树节点的规则号集合拷 贝至报文Pi的规则标签中,当查找至分类树叶结点时将Pi+标签集合Ri拷贝入报文公共 缓存中; 步骤3 :如果报文Pi所属流F的流长刚刚满足长流的标准,则为这个新的长流在长 流hash表中创建新项目,其包括四项信息:流标识和三个位置指针;它们分别是流标识 FlowID,采用四元组信息标识;报文Pi的分类树中间结点指针p_midNodePointer,指向报 文Pi在分类树中采用5元组信息搜索后到达的中间结点;报文Pi的分类树叶结点指针p_ finalNodePointer,指向报文Pi搜索分类树最后访问的叶结点和Pi在公共内存中的规则 标签指针p_rule ; 步骤4 :如果报文Pi是长流F的后继报文,则报文Pi直接从长流hash表中保存的中 间结点指针P_midNodePointer往下查找的分类树叶结点,如果这个叶结点和流中其它报 文的叶结点一样,则不必再次拷贝规则标签,直接将报文Pi按P_rule加入到流共享内存缓 冲池中去,否则进行第五步; 步骤5 :报文Pi和流中的其他报文访问的叶结点不一样,此时产生回溯,按P_Hicuts 的传统搜索方法从中间结点指针P_midNodePointer开始查找分类树,将遍历的每个分类 树节点的规则号集合拷贝至报文Pi规则标签中,当查找至分类叶结点时将Pi+标签集合Ri 拷贝入报文公共缓存中。
2. 根据权利要求1所述的一种高速多维报文分类的设计方法,其特征在于,所述方法 是利用骨干网流量特征优化高速多维报文分类,将问题规约为求取当前时间片内的动态流 量分类代价最小化的最佳流量分类树;最佳流量分类树的求解方法,即利用大规模骨干网 的流量特征优化报文分类树的层次划分方法;衡量各种分类域对当前流量的分类能力的分 类域熵计算方法;利用流长特性减低分类树节点查找和拷贝代价。
3. 根据权利要求2所述的一种高速多维报文分类的设计方法,其特征在于:所述方法 的流量能起到分类作用的为取值〇. 5以上的5个分类域;所述的熵取值大小顺序不随时间 变化而变化。
4. 根据权利要求1所述的一种高速多维报文分类的设计方法,其特征在于:所述方法 利用了骨干网大规模流量的重尾特性,即占流量数量少数的长流报文担负了大部分的报文 负载;占总量10%?20%的长流包含50%?99%的报文负载。
【文档编号】H04L29/06GK104486308SQ201410730111
【公开日】2015年4月1日 申请日期:2014年12月4日 优先权日:2014年12月4日
【发明者】宁卓, 孙知信, 石伟, 胡婷 申请人:南京邮电大学