一种基于统计特征的有噪网络流量分类建模方法
【技术领域】
[0001] 本发明属于网络流量分类技术,尤其设及一种基于统计特征的有噪网络流量分类 建模方法。
【背景技术】
[0002] 网络的资源管理和安全控制对国民经济和国家安全的影响巨大,日益受到国家政 府的重视。我国也将信息管理和网络安全为优先研究领域发展。网络流量分类是解决网络 资源管理和安全控制中一系列重要问题的基础技术。为了实施正确的管理和控制策略,网 络管理者通常需要采用流量分类来清楚的了解当前的网络状态。为了实现服务质量(QoS) 控制,不同的应用将被赋予不同的优先级化合理分配有限的网络带宽。在网络安全方面,根 据流量分类的结果,入侵检测系统对不同流量类别采取细粒度的检测方案,可W更有效的 识别可疑网络流。
[0003]网络流量分类技术随着网络的演变也不断发展。最初的技术是根据互联网地址指 派机构IANA规定的端口映射表,将特定端口的网络流量划分到相应的网络应用。然而,越 来越多的网络应用使用动态随机端口,导致该技术不再可靠。现有商用系统主要使用基于 负载的流量分类技术,通过分析数据分组的应用层负载,检测不同应用的特征字段来划分 网络流量。运类技术的问题是,分析完整的应用层负载计算开销大,可能带来的用户隐私权 纠纷,而且无法识别使用负载加密技术或者特征字段保密的网络应用。在当前的大数据时 代,网络流量数据量庞大且结构复杂,不可避免的会存在一些噪声数据。特别是在对网络流 量数据进行标注或获取的过程中,难免会引入大量噪声,导致大量样本内容与所标记的类 别不符等。运些噪声样本会使训练样本中类别概念模糊,其提供的分类经验知识不足,导致 分类器构建的分类决策不明确,从而对测试样本所属类别进行误判,影响最终的分类性能。 由此说明,提高有噪网络流量分类的精度势在必行。
【发明内容】
[0004] 本发明要解决的技术问题:提供一种基于统计特征的有噪网络流量分类建模方 法,W解决现有技术对大数据网络流量分类存在的大量样本内容与所标记的类别不符,也 就是网络流量中存在大量类别噪声的问题,运些噪声样本会使训练样本中类别概念模糊, 其提供的分类经验知识不足,导致分类器构建的分类决策不明确,从而对测试样本所属类 别进行误判,影响最终的分类性能等技术问题。
[000引本发明技术方案: 一种基于统计特征的有噪网络流量分类建模方法,它包括: 步骤1、网络数据采集处理,从网络流量监测站实时提取网络流量数据,并对网络流量 数据进行预处理; 步骤2、建立网络流量噪声判断模型并清除网络流量数据中的噪声,所述网络流量噪声 判断模型为:
,式中::%代表第j条网络流量的噪声网络流量判断结 果,代表第j条网络流量被第i个分类器判断为噪声的结果;步骤3、建立网络流量噪声 容忍模型,所述网络流量噪声容忍模型包括: 疑似噪声数据的噪声等级表达式:
和疑似噪声数据的权重表达式:
式中:代表第j条网络流量的噪声等级,胃代表权重分数,代表第t种噪 声等级的值; 步骤4、根据步骤2和步骤3所述的网络流量噪声判断模型和网络流量噪声容忍模型, 建立鲁棒的分类模型:
,式中:1代表网络流量数据中噪声等级为 t的数据,代表鲁棒的训练集的集合; 步骤5、采用随机森林的分类方法,把在线网络流量数据作为测试集,利用鲁棒的分类 模型进行分类。
[0006] 所述的对网络流量数据进行预处理,其处理方法包括:步骤1、集成从网络流量数 据中收集的IP数据包,并将IP数据包组成网络流;步骤2、将网络流转换为统一的数据格 式;步骤3、清除存在缺失值的数据;步骤4、提取每条网络流的特征,步骤5、利用特征选择 算法清除网络流特征中冗余和不相关的特征。
[0007] 本发明的有益效果: 本发明利用网络流的统计特征和机器学习的技术来分类识别不同的网络流量。基于统 计特征的流量分类技术由于避免了分析负载,具有一系列的优点:(1)不依赖于端口匹配, 可W处理使用动态端口的网络应用;(2)使用简单的网络流统计特征,计算开销小,分类速 度快;(3)使用的统计特征与负载无关,可W识别使用负载加密技术的网络应用;(4)不设 及用户私密数据,避免了用户隐私纠纷。
[0008] 本发明基于统计特征的网络流量提供噪声判断、噪声清除和噪声容忍的建模,如 果仅仅单纯的网络流量噪声清除极有可能会清除掉一些非噪声的网络流量,运样也会影响 精度,所W需要在确切的网络流量噪声数据清除之后,对剩余的疑似噪声数据进行容忍计 算,W提高分类精度,本发明主要具有下述特点: (1)针对网络流量数据进行了集成IP数据包、组成网络流、提取特征、特征选择的预处 理操作。
[0009] (2)分析确切网络流量噪声数据的特点,结合其特点提出了去除网络流量噪声的 模型。
[0010] (3)在清除网络流量噪声基础上,提出容忍疑似的网络流量噪声的模型。
[0011] 本发明通过噪声鉴别和清除、噪声容忍的建模方法,能够更好的建立精准的分类 决策,为网络流量分类提供技术保障,提高了在有噪情况下网络流量的分类性能,满足了当 前网络流量大数据分类的迫切需求,解决了现有技术对大数据网络流量分类存在的大量样 本内容与所标记的类别不符,运些噪声样本会使训练样本中类别概念模糊,其提供的分类 经验知识不足,导致分类器构建的分类决策不明确,从而对测试样本所属类别进行误判,影 响最终的分类性能等技术问题。
【附图说明】
[0012] 图1为本发明分类建模方法总体框架图。
【具体实施方式】
[0013] 一种基于统计特征的有噪网络流量分类建模方法,它包括: 步骤1、网络数据采集处理,从网络流量监测站实时提取网络流量数据,并对网络流量 数据进行预处理; 所述的对网络流量数据进行预处理,其处理方法包括:步骤1、集成从网络流量数据中 收集的IP数据包,并将IP数据包组成网络流;步骤2、将网络流转换为统一的数据格式;步 骤3、清除存在缺失值的数据;步骤4、提取每条网络流的特征,步骤5、利用特征选择算法清 除网络流特征中冗余和不相关的特征。
[0014] 所述的对网络流量数据进行预处理即在多个网络流