专利名称:P2p业务识别方法和装置的制作方法
技术领域:
本发明涉及网络业务识别领域,更具体地说,涉及一种P2P( Point to Point, 点对点)业务识别方法和装置。
背景技术:
当前P2P计算已经占据了分布式计算的重要领域。与传统的集中式的基于 服务器的服务模型相比,P2P模型是一个分布式的模型,它使得网络中各结点 共享信息,互相协作;允许用户在下载信息的同时上传信息,相对于以往的 传统网络业务来说,具有高速传输、数据量大和上下行流量对称等特点。P2P 计算不但引起了学术界的广泛关注,同时它也引起了计算机工业的极大兴趣。
随着互联网的技术、应用和商业创新的日新月异,网络流量每6个月就增 加一倍,其中P2P流量占绝大部分,同时网络中的P2P应用数目与日俱增,大 量地占用着网络的带宽,给Intemet服务提供商(ISP )和应用服务提供商(ASP ) 高级服务的部署带来了很多问题。因此,如何识别和检测P2P流成为网络监控 和管理的一个重要研究方向。
最早的P2P应用使用固定端口号,可以简单地通过基于端口识别的技术进 行检测和管理。随着Internet的发展,P2P应用开始使用动态随机端口号,这就 使得通过一些传统的基于端口识别的方法不能有效地识别P2P流。与此同时, 大量的新型P2P应用不断在网络中出现,它们为了避免被识别和检测,采用了 加密、伪装和文件分块传输等方法,对网络监控和管理提出了挑战。
但在现有的P2P业务识别方法中,存在或多或少的缺陷,如果要求能够快 速检测P2P业务流,就必定会降低检测的精确性,而如果要求做到精确检测, 又必然会降低^r测的效率,同时,由于大量的P2P业务采用了加密的传输方法, 还容易造成对P2P业务流的漏检
发明内容
有鉴于此,本发明实施例提供一种P2P业务识别方法,通过根据预存的P2P 流行为特征判断数据流是否属于P2P业务流,并数据流为P2P业务流时,将该 数据流的报文特征与预存的P2P流I艮文特征进行匹配,确定该P2P业务流的具 体业务类型,以解决现有技术中无法快速、精确地识别P2P业务流的问题。
本发明实施例还提供一种P2P业务识别的装置,通过利用该装置中的P2P 业务识别模块判断数据流是否是P2P业务流,利用具体业务识别模块判断数据 流的具体业务类型,以解决现有技术中无法快速、精确地识别P2P业务流的问 题。
本发明实施例是这样实现的 一种P2P业务识别方法,包括
根据预存的P2P流行为特征判断数据流是否属于P2P业务流,在所述数 据流为P2P业务流时,将该数据流的报文特征与预存的各种P2P具体业务的 流^^艮文特征进行匹配,依据匹配结果确定该P2P业务流的具体业务类型。
所述才艮据预存的P2P流行为特征判断数据流是否属于P2P业务流包括以 下步骤
接收数据流;
按照数据流的源/目的IP、源/目的端口号、协议号进行分类; 统计所述分类后的数据流与预存P2P流行为特征相匹配的流行为特征; 对所述统计得出的流行为特征进行加权计算,当计算结果大于设定阈值
时,确定该数据流为P2P业务流。
在对所述数据流进行分类之后,还包括删除发生时间未达到设定时间
阈值的数据流。
在进行流行为特征统计时,还包括根据配置策略来判断数据流中是否 出现新特征,所述配置策略为已发现的流特征和4艮文特征。
对所述统计得出的流行为特征进行加权计算具体为按照对有效识别的 影响对所述统计得出的流行为特征赋予不同的权值。
在识别出数据流为P2P业务流之后,进一步包括将已识别的P2P业务 流进行抽样存储。所述将该数据流的报文特征与预存的各种P2P具体业务的流报文特征进
-f亍匹配包凌舌
提取所述数据流的报文特征字;
当所述报文特征字与配置策略中的报文特征字一致时,确定所述数据流 为与配置策略中的报文特征字对应P2P业务流。
在所述数据流为P2P业务流时,还包括将配置特征的匹配结果通过配 置应答机制通告给用户。
其中,还包括
提取出现的新特征;
将该新特征与识别出的P2P流进行特征匹配,当匹配结果大于设定阈值 时,将该特征信息添加至所述配置策略中。 一种P2P业务识别装置,包括
P2P业务识别模块,用于对数据流进行流行为检测,判断所述数据流是否 属于P2P业务流;
具体业务识别模块,用于在所述数据流为P2P业务流时,将该数据流的 报文特征与预存的各种P2P具体业务的流报文特征进行匹配,依据匹配结果 确定该P2P业务流的具体业务类型。
所述P2P业务识别模块包括接收模块、流分类模块、流特征统计模块、 特征加权计算模块,其中,
接收模块,用于接收数据流;
流分类模块,用于按照数据流的源/目的IP、源/目的端口号、协议号进行 分类;
流特征统计模块,用于统计所述分类后的数据流与预存P2P流行为特征 相匹配的流行为特征;
特征加权计算模块,对所述统计得出的流行为特征进行加权计算,当计 算结果大于设定阈值时,确定该数据流为P2P业务流。
所述P2P业务识别模块进一步包括新特征存储才莫块、P2P流存储^t块、 新特征匹配模块,其中,新特征存储^t块,用于存储新出现的流特征; P2P流存储模块,用于将识别后的P2P流进行抽样存储; 新特征匹配模块,用于将出现的新特征与识别出的P2P流进行特征匹配, 将匹配结果超过设定阈值的新特征添加至流特征统计才莫块。 所述具体业务识别模块包括
报文特征字提取模块,用于提取所述数据流的报文特征字;
报文特征字匹配模块,用于当所述报文特征字与配置策略中的报文特征 字一致时,确定所述数据流为与配置策略中的报文特征字对应P2P业务流。
对现有技术相比,本发明实施例提供的技术方案具有以下优点和特点 首先根据预存的P2P流行为特征判断数据流是否属于P2P业务流,由于对数 据流的外在流特征进行检测,可以有效识别出加密流,并且检测过程较快捷, 因此,保证了对P2P业务流识别的有效性,其次,当数据流检测为P2P业务 流时,将该数据流的才艮文特征与预存的P2P流报文特征进行匹配,确定该P2P 业务流的具体业务类型,实现了快速、精确地检测P2P业务流的目的。
较佳的,本发明实施例提供的技术方案还可以将检测到的P2P业务流和 检测过程中出现的新特征进行匹配,获得对识别有效性有影响的新特征,完 善流特征配置策略,提高识别的准确率。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实 施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面 描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲, 在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明具体实施例中P2P业务识别流程图2为本发明具体实施例中P2P业务识别器的结构示意图3为本发明具体实施例中流分类流程图。
具体实施例方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做 出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种P2P业务识别的方法,通过根据预存的P2P流行为特征判 断数据流是否属于P2P业务流,并数据流为P2P业务流时,将该数据流的l艮文 特征与预存的P2P流报文特征进行匹配,确定该P2P业务流的具体业务类型, 以解决现有技术中无法快速、精确地识别P2P业务流的问题。
预存的P2P流行为特征是通过长期统计和分析得出的,例如业务持续时 间较长、平均流速率较快、报长度较长等都是P2P业务流的特征。
本实施例具体过程如图1所示,包括以下步骤
步骤S101、接收数据流。
步骤S102、将接收到的数据流进行分类。
可根据五元组(源/目的IP、源/目的端口号、协议号)划分数据流。
步骤S103-步骤S104、对数据流进行特征统计,判断是否出现新特征, 如果出现新特征,则执行步骤SllO,否则,执行步骤S105。
在该步骤中,首先用户通过命令行向P2P流识别器添加配置策略,该配 置策略为已发现的流特征和报文特征,据此来判断接收到的数据流中是否出 现新特征。同时,将分类后的数据流打上时间戳,在后续过程中, 一旦该数 据流;故识别为P2P流,用户可以及时获得流识别的时间。
步骤S105、对数据流进行流特征加权计算,进入步骤S106。
该步骤的特征加权计算要根据配置策略来进行,配置策略中包括多个流 特征和报文特征,但各个特征对有效识别的影响存在不同,由此要为不同的 特征赋上不同的权值,优先级较高的特征拥有较高的权值,且权值随优先级 的降低而降低。另外,为便于对识别器进行扩展,可将已识别出的P2P流进 行抽样存储,其有效特征以备后续使用。
步骤S106、判断加权计算结果是否大于设定阈值,若是,进入步骤S107; 否则,进入步骤S108。
步骤S107、确定该数据流为P2P业务流,并进入步骤S109。
步骤S108、确定该数据流为非P2P业务流,结束。步骤S109、提出数据流报文特征字,与匹配策略中的报文特征字逐一匹 配,确定该P2P业务具体类型,结束。 步骤S110:提取新特征;
步骤Sl 11:将提取出的新特征与识别出的P2P流进行流特征匹配; 步骤S112:判定匹配结果是否大于设定阈值,如果大于设定阈值,则将 该特4正作为后续P2P业务识别的特4正。
本领域技术人员应能理解,上述判断新特征及对新特征的处理均属于为 了进一步提高以后对P2P业务流检测的效率而设置的。
在上述流程的步骤S102中,在才艮据五元组划分完数据流后,还可以#4居 针对在线时间长的P2P应用占用网络带宽严重的特点,假定发生时间短的流 对带宽的占用不产生严重的影响,所以可以通过连接的时间长短为标准删除 发生时间短的数据流,具体流程如图3所示
步骤S301:根据五元组对数据流进行分类。
步骤S302:统计数据流发生的时间。
步骤S303:判断各数据流发生时间是否超过设定的时间阈值,如果大于 时间阈值,则进入步骤S304,如果小于时间阈值,则进如步骤S305。 步骤S304:对数据流进行特征加权计算。 步骤S305:删除数据流。
针对上述P2P业务识别的方法,本发明实施例同时还提供了 一种用于进 行P2P业务识别的装置。
图2为依照本发明的一个具体实施例的P2P业务识别器的结构示意图。 如图所示,该P2P业务识别器包括P2P业务识别模块和具体业务识别模块。
其中,P2P业务识别模块又进一步包括接收模块201、流分类模块202、 流特征统计模块203、特征加权计算模块204、 P2P流存储模块205、新特征 存储模块206、和新特征匹配模块207。
在上述模块中,各个^t块分别具有如下功能
接收模块201,用于接收数据流。流分类模块202,用于将数据流通过五元组进行分类,并删除发生时间短 的数据流。
流特征统计模块203,用于统计分类后的数据流与预存P2P流行为特征相 匹配的流行为特征并判断是否有新特征出现,并筛选出有规律、经常出现的 可参考备选特征。
特征加权计算模块204,用于对统计得出的流行为特征进行加权计算,当 计算结果大于设定阈值时,确定该数据流为P2P业务流。P2P流存储模块205, 用于将识别后的P2P流进4亍抽样存储;
新特征存储模块206,用于存储新出现的流特征;
新特征匹配模块207,该模块的功能在于将提取到的新特征与P2P流特征 进行匹配,并将匹配结果添加至特征统计^t块。
具体业务识别模块包括报文特征字提取模块208和报文特征字匹配模块
209。
报文特征字提取模块208,用于提取数据流的报文特征字。
报文特征字匹配模块209,用于当报文特征字与匹配策略中的报文特征字 一致时,确定数据流为与匹配策略中的报文特征字对应的P2P业务流。
由以上实施例可以得出根据预存的P2P流行为特征判断数据流是否属 于P2P业务流,由于对数据流的外在流特征进行^r测,可以有效识别出加密 流,并且检测过程较快捷,因此,保证了对P2P业务流识别的有效性,其次, 当数据流检测为P2P业务流时,将该数据流的报文特征与预存的P2P流报文 特征进行匹配,确定该P2P业务流的具体业务类型,实现了快速、精确地检 测P2P业务流的目的。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用 本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易 见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下, 在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例, 而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
ii
权利要求
1、一种P2P业务识别方法,其特征在于,包括根据预存的P2P流行为特征判断数据流是否属于P2P业务流,在所述数据流为P2P业务流时,将该数据流的报文特征与预存的各种P2P具体业务的流报文特征进行匹配,依据匹配结果确定该P2P业务流的具体业务类型。
2、 如权利要求1所述的方法,其特征在于所述根据预存的P2P流行为特征判断数据流是否属于P2P业务流包括以下步骤4妄收数据流;按照数据流的源/目的IP、源/目的端口号、协议号进行分类;统计所述分类后的数据流与预存P2P流行为特征相匹配的流行为特征;对所述统计得出的流行为特征进行加权计算,当计算结果大于设定阈值时,确定该凄t据流为P2P业务流。
3、 如权利要求2所述的方法,其特征在于,在对所述数据流进行分类之后,还包括删除发生时间未达到设定时间阈值的数据流。
4、 如权利要求2所述的方法,其特征在于,在进行流行为特征统计时,还包括根据配置策略来判断数据流中是否出现新特征,所述配置策略为已发现的流特征和l艮文特征。
5、 如权利要求2所述的方法,其特征在于,对所述统计得出的流行为特征进行加权计算具体为按照对有效识别的影响对所述统计得出的流行为特征赋予不同的权值。
6、 如权利要求1或2所述的方法,其特征在于,在识别出数据流为P2P业务流之后,进一步包括将已识别的P2P业务流进行抽样存储。
7、 如权利要求1所述的方法,其特征在于,所述将该数据流的报文特征与预存的各种P2P具体业务的流报文特征进行匹配包括提取所述数据流的报文特征字;当所述报文特征字与配置策略中的报文特征字一致时,确定所述数据流为与配置策略中的报文特征字对应P2P业务流。
8、 如权利要求1、 2或7所述的方法,其特征在于,在所述数据流为P2P业务流时,还包括将配置特征的匹配结果通过配置应答机制通告给用户。
9、 如权利要求1所述的方法,其特征在于,还包括提取出现的新特征;将该新特征与识别出的P2P流进行特征匹配,当匹配结果大于设定阈值时,将该特征信息添加至所述配置策略中。
10、 一种P2P业务识别装置,其特征在于,包括P2P业务识别模块,用于对数据流进行流行为检测,判断所述数据流是否属于P2P业务流;具体业务识别模块,用于在所述数据流为P2P业务流时,将该数据流的报文特征与预存的各种P2P具体业务的流报文特征进行匹配,依据匹配结果确定该P2P业务流的具体业务类型。
11、 如权利要求10所述的装置,其特征在于,所述P2P业务识别模块包括接收模块、流分类模块、流特征统计模块、特征加权计算模块,其中,接收模块,用于接收数据流;流分类模块,用于按照数据流的源/目的IP、源/目的端口号、协议号进行分类;流特征统计模块,用于统计所述分类后的数据流与预存P2P流行为特征相匹配的流行为特征;特征加权计算模块,对所述统计得出的流行为特征进行加权计算,当计算结果大于设定阔值时,确定该数据流为P2P业务流。
12、 如权利要求10所述的装置,其特征在于,所述P2P业务识别模块进一步包括新特征存储模块、P2P流存储模块、新特征匹配模块,其中,新特征存储模块,用于存储新出现的流特征;P2P流存储模块,用于将识别后的P2P流进行抽样存储;新特征匹配模块,用于将出现的新特征与识别出的P2P流进行特征匹配,将匹配结果超过设定阈值的新特征添加至流特征统计才莫块。
13、 如权利要求10所述的装置,其特征在于,所述具体业务识别模块包括报文特征字提取模块,用于提取所述数据流的报文特征字;报文特征字匹配模块,用于当所述报文特征字与配置策略中的报文特征字一致时,确定所述数据流为与配置策略中的报文特征字对应P2P业务流。
全文摘要
本发明实施例公开了一种P2P业务识别的方法和装置,在该方案中,首先根据预存的P2P流行为特征判断数据流是否属于P2P业务流,由于对数据流的外在流特征进行检测,可以有效识别出加密流,并且检测过程较快捷,因此,保证了对P2P业务流识别的有效性,其次,当数据流检测为P2P业务流时,将该数据流的报文特征与预存的P2P流报文特征进行匹配,确定该P2P业务流的具体业务类型,解决了现有技术中无法同时做到快速、精确地检测P2P业务流的问题。
文档编号H04L29/08GK101459695SQ200910000748
公开日2009年6月17日 申请日期2009年1月9日 优先权日2009年1月9日
发明者燕 崔, 张建辉, 珂 朱, 涓 申 申请人:中国人民解放军信息工程大学