一种基于流集的在线流量识别方法

文档序号:8945639阅读:440来源:国知局
一种基于流集的在线流量识别方法
【技术领域】
[0001]本发明属于网络监督领域,具体的涉及一种基于流集的在线流量识别方法。
【背景技术】
[0002]网络数据流识别是网络监督的重要手段。随着互联网的日益普及,网络服务应用不断地发展壮大,在网络优化、QoS保证、网络管控等应用领域,对在线流量识别的需求越来越多,要求分类算法能够在线运行,根据分类结果产生即时报告或进行管控处理,如对VoIP网络电话的监控等等。目前,为了实现网络流量的高速在线处理,主要从三个方面进行研究,特征约减、流量识别以及硬件加速。在线流量识别要求对链路中的流量实时进行识别和标记,而随着网络链路带宽越来越高,在线流量识别的挑战也越来越大。在高速流量下,算法既要完成对流量的线速处理,又要保证分类准确率,通常需要算法在准确度、性价比和处理效率上进行折衷。
[0003]本发明从流量约减这一新的角度出发,提出对具有相同三元组的流统一进行识别的方法,即基于流集(流集:具有相同三元组的流的集合)的在线流量识别方法。三元组是指源IP地址、源端口号和协议类型的组合或者是目的IP地址、目的端口号和协议类型的组合。该方法首先分析流集内部多个流的分类结果。然后,为了保证流量分类的准确率,根据分类置信度通过投票机制决定流集中流的应用类别。流聚合度表示流数量与流集数量的比率。通过现网真实数据对流集的存在和规模进行了验证分析,分析结果表明,流集现象普遍存在,但流聚合度不同。对算法的分类错误率和处理速度进行的理论分析表明:线路中流聚合度越大,表明线路中相同端点流的聚集程度越高,FSC算法的计算强度衰减越大,算法的加速效果越显著;此外,如果线路中大规模流集数量较多时,基于流集的在线流量识别算法的计算强度衰减更大,其加速效果更好。

【发明内容】

[0004]本发明针对现有技术存高速链路在线流识别准确度低、效率不高等问题,提出一种基于流集的在线流量识别方法。
[0005]本发明的技术方案是:一种基于流集的在线流量识别方法,其中硬件部分包括1G骨干线路接入模块、流量筛选模块和数据处理模块,该在线流量识别方法的步骤包括:
步骤一:捕捉网络数据流量,提取其报文;
步骤二:流集信息表的生成与维护;
步骤二:对流集进行检测;
步骤四:对流集进行分类。
[0006]所述的基于流集的在线流量识别方法,所述捕捉网络数据流量的具体方法是:1G骨干线路接入模块通过连接骨干网络中的1G POS互联网流量,完成输入1G POS光传输到1G ETH以太网输入的协议转换;对已在匹配范围内的流进行跟踪,对输入原始包进行过滤筛选,进而区分出所需数据流量。
[0007]所述的基于流集的在线流量识别方法,所述流集信息表的生成与维护的具体方法为:流集信息表用来存储线路中流集的信息,流集的信息包含流数、应用类别、流集时间窗和流集分类错误率估计;由于流集信息表空间有限,无法存放线路中所有出现的流集信息,因此采用LRU算法,将出现频度最低的流集放置于链表尾部,当流集数量超过流集信息表容量后,将链表尾部的端点淘汰。
[0008]所述的基于流集的在线流量识别方法,所述流量筛选模块对流集进行检测包括:流集匹配规则检测、流集时间窗匹配规则检测和流集错误率匹配规则检测。
[0009]所述的基于流集的在线流量识别方法,所述流集匹配规则检测是:对接收报文进行处理,根据报文的源目三元组,查询报文所属流集是否在流集信息表中存在对应的表项,然后提取表项中的应用类别信息对报文进行标记处理。
[0010]所述的基于流集的在线流量识别方法,所述流集时间窗匹配规则检测是:检测流集信息表中的流集三元组信息是否过期,过期则需要进行删除处理。
[0011]所述的基于流集的在线流量识别方法,所述流集错误率匹配规则检测是:检测流集的分类错误率是否大于设定的错误率阈值,如果大于阈值,则需要对流集重新进行分类处理。
[0012]所述的基于流集的在线流量识别方法,所述对流集进行分类的具体方法为:数据处理模块对流入报文、定位流表,提取流特征并进行流类型判别,并根据流分类置信度对流集的分类错误率进行估计,最终投票得出流集对应的应用类别,更新流集信息表中的相关?目息O
[0013]本发明的有益效果是:本发明从流量约减这一新的角度出发,提出对具有相同三元组的流统一进行识别的方法,即基于流集的在线流量识别方法。该方法首先分析流集内部多个流的分类结果。然后,为了保证流量分类的准确率,根据分类置信度通过投票机制决定流集中流的应用类别。本发明很好地解决了高速链路在线流识别准确度低、效率不高等问题,极大的提高了对高速链路在线流识别的准确性、可靠性和有效性。
【附图说明】
[0014]图1为基于流集的在线流量识别方法的流程框图;
图2为基于流集的在线流量识别方法的外部接口示意图;
图3为基于流集的在线流量识别方法的流集分类流程示意图。
【具体实施方式】
[0015]实施例1:一种基于流集的在线流量识别方法,其中硬件部分包括1G骨干线路接入模块、流量筛选模块和数据处理模块,该在线流量识别方法的步骤包括:
步骤一:捕捉网络数据流量,提取其报文;捕捉网络数据流量的具体方法是:1G骨干线路接入模块通过连接骨干网络中的1G POS互联网流量,完成输入1G POS光传输到1GETH以太网输入的协议转换;对已在匹配范围内的流进行跟踪,对输入原始包进行过滤筛选,进而区分出所需数据流量。
[0016]步骤二:流集信息表的生成与维护;流集信息表的生成与维护的具体方法为:流集信息表用来存储线路中流集的信息,流集的信息包含流数、应用类别、流集时间窗和流集分类错误率估计;由于流集信息表空间有限,无法存放线路中所有出现的流集信息,因此采用LRU算法,将出现频度最低的流集放置于链表尾部,当流集数量超过流集信息表容量后,将链表尾部的端点淘汰。
[0017]步骤三:对流集进行检测;流量筛选模块对流集进行检测包括:流集匹配规则检测、流集时间窗匹配规则检测和流集错误率匹配规则检测。
[0018]流集匹配规则检测是:对接收报文进行处理,根据报文的源目三元组,查询报文所属流集是否在流集信息表中存在对应的表项,然后提取表项中的应用类别信息对报文进行标记处理;具体的,当收到报文后,对接收报文进行处理,提取报文的源端点SrC_fS={SrC_ip, src_port, src_proto}和目的端点 dst_fs= {dst_ip, dst_port, dst_proto},分别针对 src_fs 和 dst_fs 查询 FSIT,所述 FSIT 为:FSIT:Flow Set Informat1n Table,流集信息表。如果源目三元组在FSIT均不存在匹配表项,则对流集进行流类型判别,并更新到FIST中则将该三元组信息写入FSIT,并对FSIT进行更新;如果源目三元组在FSIT中存在匹配表项,则需要对流量进行进一步的时间窗匹配规则检测。
[0019]流集时间窗匹配规则检测是:检测流集信息表中的流集三元组信息是否过期,过期则需要进行删除处理;具体的,检查流集时间窗是否到期,如果到期,则删除该流集记录,并对FSIT进行更新;否则需要对流集进行错误率估计。
[0020]流集错误率匹配规则检测是:检测流集的分类错误率是否大于设
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1