定的错误率阈值,如果大于阈值,则需要对流集重新进行分类处理;具体的,如果src_fs和dst_fs均命中,选择错误率估计值小的端点记录,如果流集分类错误率估计大于阈值,则对流集进行流类型判别,并根据判别结果更新FSIT ;如果流集分类错误率估计不大于阈值,则按照流集应用类别标签标记报文,并更新FSIT。
[0021]步骤四:对流集进行分类;对流集进行分类的具体方法为:数据处理模块对流入报文、定位流表,提取流特征并进行流类型判别,并根据流分类置信度对流集的分类错误率进行估计,最终投票得出流集对应的应用类别,更新流集信息表中的相关信息。
[0022]实施例2:结合图1-图3,一种基于流集的在线流量识别方法,其中硬件部分包括1G骨干线路接入模块、流量筛选模块和数据处理模块,在详细描述本申请实施例之前,首先对本申请实施例中可能涉及的符号进行如下说明:
FSC:Traffic Identificat1n based on Flow Set,基于流集的在线流量识别方法; FSIT:Flow Set Informat1n Table,流集信息表;
图1,为基于流集的在线流量识别方法的流程图,具体步骤如下:
步骤101:捕获网络流量,完成光口传输到以太网输入的协议转换,并对输入原始包进行过滤筛选。
[0023]步骤102:流集匹配检测,对接收报文进行处理,根据报文的源目三元组,查询报文所属流集是否在流集信息表中存在对应的表项,然后提取表项中的应用类别信息对报文进行标记处理。
[0024]步骤103:流集分类模块,定位流表,提取流特征并进行流类型判别,并根据流分类置信度对流集的分类错误率进行估计,最终投票得出流集对应的应用类别,更新流集信息表中的相关信息。基于流集的在线流量识别方法并不限定具体的流量分类算法。
[0025]图3,为基于流集的在线流量识别方法的外部接口示意图,该实施例示出了本发明的前后接口如下:
模块201:1OG输入接口。
[0026]具体的,通过连接骨干网络中的1G POS互联网流量,完成输入1G POS光传输到1G ETH以太网输入的协议转换;
模块202:流量筛选模块。
[0027]具体的,对已在匹配范围内的流进行跟踪,进而区分出所需流量。按照所需数据包的协议特征,分析待监测的数据流,将疑似所需数据包筛选出来,对所需数据包顺序执行后续操作,否则,丢弃数据包。
[0028]模块203:数据流处理模块。
[0029]本申请基于流集的在线流量识别技术的流集匹配规则检测:
具体的,当收到报文后,对接收报文进行处理,提取报文的源端点src_fs={src_ip,src_port, src_proto}和目的端点 dst_fs= {dst_ip, dst_port, dst_proto},分别针对src_fs和dst_fs查询FSIT。如果源目三元组在FSIT均不存在匹配表项,则对流集进行流类型判别,并更新到FIST中则将该三元组信息写入FSIT,并对FSIT进行更新;如果源目三元组在FSIT中存在匹配表项,则需要对流量进行进一步的时间窗匹配规则检测,详细见4部分介绍。
[0030]本申请基于流集的在线流量识别技术的流集时间窗匹配规则检测:
具体的,检查流集时间窗是否到期,如果到期,则删除该流集记录,并对FSIT进行更新;否则需要对流集进行错误率估计,详细见5部分介绍。
[0031]本申请基于流集的在线流量识别技术的流集错误率匹配规则检测;
具体的,如果src_fs和dst_fs均命中,选择错误率估计值小的端点记录,如果流集分类错误率估计大于阈值,则对流集进行流类型判别,并根据判别结果更新FSIT ;如果流集分类错误率估计不大于阈值,则按照流集应用类别标签标记报文,并更新FSIT。
【主权项】
1.一种基于流集的在线流量识别方法,硬件部分包括1G骨干线路接入模块、流量筛选模块和数据处理模块,其中,数据经过1G骨干线路接入模块进入流量筛选模块,然后流入数据处理模块,其特征在于:该在线流量识别方法的步骤包括: 步骤一:捕捉网络数据流量,提取其报文; 步骤二:流集信息表的生成与维护; 步骤二:对流集进行检测; 步骤四:对流集进行分类。2.根据权利要求1所述的基于流集的在线流量识别方法,其特征在于:所述捕捉网络数据流量的具体方法是:10G骨干线路接入模块通过连接骨干网络中的1G POS互联网流量,完成输入1G POS光传输到1G ETH以太网输入的协议转换;对已在匹配范围内的流进行跟踪,对输入原始包进行过滤筛选,进而区分出所需数据流量。3.根据权利要求1所述的基于流集的在线流量识别方法,其特征在于:所述流集信息表的生成与维护的具体方法为:流集信息表用来存储线路中流集的信息,流集的信息包含流数、应用类别、流集时间窗和流集分类错误率估计;由于流集信息表空间有限,无法存放线路中所有出现的流集信息,因此采用LRU算法,将出现频度最低的流集放置于链表尾部,当流集数量超过流集信息表容量后,将链表尾部的端点淘汰。4.根据权利要求1所述的基于流集的在线流量识别方法,其特征在于:所述流量筛选模块对流集进行检测包括:流集匹配规则检测、流集时间窗匹配规则检测和流集错误率匹配规则检测。5.根据权利要求4所述的基于流集的在线流量识别方法,其特征在于:所述流集匹配规则检测是:对接收报文进行处理,根据报文的源目三元组,查询报文所属流集是否在流集信息表中存在对应的表项,然后提取表项中的应用类别信息对报文进行标记处理。6.根据权利要求4所述的基于流集的在线流量识别方法,其特征在于:所述流集时间窗匹配规则检测是:检测流集信息表中的流集三元组信息是否过期,过期则需要进行删除处理。7.根据权利要求4所述的基于流集的在线流量识别方法,其特征在于:所述流集错误率匹配规则检测是:检测流集的分类错误率是否大于设定的错误率阈值,如果大于阈值,则需要对流集重新进行分类处理。8.根据权利要求1所述的基于流集的在线流量识别方法,其特征在于:所述对流集进行分类的具体方法为:数据处理模块对流入报文、定位流表,提取流特征并进行流类型判另IJ,并根据流分类置信度对流集的分类错误率进行估计,最终投票得出流集对应的应用类别,更新流集信息表中的相关信息。
【专利摘要】本发明属于网络监督领域,具体的涉及一种基于流集的在线流量识别方法,其中硬件部分包括10G骨干线路接入模块、流量筛选模块和数据处理模块,该在线流量识别方法的步骤包括:步骤一:捕捉网络数据流量,提取其报文;步骤二:流集信息表的生成与维护;步骤三:对流集进行检测;步骤四:对流集进行分类。本发明很好地解决了高速链路在线流识别准确度低、效率不高等问题,极大的提高了对高速链路在线流识别的准确性、可靠性和有效性。本申请实施例在多种不同的类型的流量数据上进行验证,该在线流量识别技术比参考算法的分类性能均有不同程度的提升。
【IPC分类】H04L12/26
【公开号】CN105162663
【申请号】CN201510619088
【发明人】金鑫, 徐杰, 候颖, 朱宇航, 葛东东, 于岩, 苏哲
【申请人】中国人民解放军信息工程大学, 国家计算机网络与信息安全管理中心
【公开日】2015年12月16日
【申请日】2015年9月25日