基于下载资源名的流量识别方法和设备、管控方法和设备的制作方法
【专利摘要】本发明公开了一种基于下载资源名称的网络流量识别方法、识别设备、管控方法和管控设备。所述网络流量识别方法包括接收请求报文;识别所述请求报文中的下载资源链接;如果识别成功,则解析所述请求报文,提取下载资源名称。从网络流量中提取下载资源名称,可以进一步根据下载资源名称进行网络流量的管理和控制。本发明具有针对下载流量识别细化的功能,将识别粒度的精细度加大,可以使用户对下载流量的审计和管控更加精细,对下载流量有更深层次的信息提取。
【专利说明】基于下载资源名的流量识别方法和设备、管控方法和设备
【技术领域】
[0001]本发明属于网络应用流量识别与分类【技术领域】,特别是涉及一种基于下载资源名称的网络流量识别方法、识别设备、管控方法和管控设备。
【背景技术】
[0002]随着互联网技术的迅猛发展,网络已经成为人们生活中不可分割的组成部分。随着P2P等网络技术的出现,同时也带来了网络安全、带宽占用、内容计费、信息安全等一系列新的课题。出于对网络流量的管理,流量识别技术目前开始处于十分重要的位置,其是网络中内容过滤、流量分析、带宽管理、安全通信及互联网监管和运维等多方面的基础。所谓的流量识别是指利用流以及流中报文的某些信息(例如:协议特征、指纹、签名等)将网络上的流划分为既定的若干类别(例如:各种应用类型的流)的技术;其中流是指在某一段固定时间间隔内通过网络上的一个观测点的IP(Internet Protocol,网络互联协议)报文的集合,这些报文具有相同的五元组(源IP、源端口、目的IP、目的端口和协议类型)标识;其中一个流属于流量的一部分。
[0003]目前流量识别的方式主要包括:基于端口映射的流量识别方式、基于IP地址的流量识别方式、基于DPI (Deep Packet Inspect1n,深度包检测)的流量识别方式和基于DFI (Deep Flow Inspect1n,深度流检测)的流量识别方式。目前各大网络设备生产商所推出的流量识别技术或产品大多使用了深度包检测技术(DPI),除了在性能和精度上有所差别外,其技术本质是相同的。
[0004]目前DPI的识别结果粒度过粗,都是限于应用级的,例如使用迅雷软件下载一部电影《红星闪闪》,各大设备厂商都会对当前流量识别为“迅雷下载”,不会识别为《红星闪闪》。当前情况首先会导致用户无法获取网络中下载流量的具体信息,无法对海量数据进行统计。其次假如用户对公司网络设置了流量控制策略,用户无法针对资源的类别或者关键字进行下载管理,因此网络流控设备对于下载流量的监控受到很大的限制。
【发明内容】
[0005]有鉴于此,本发明提供了一种基于下载资源名称的网络流量识别和管控方案,具有针对下载流量识别细化的功能,将识别粒度的精细度加大,可以使用户对下载流量的审计和管控更加精细,对下载流量有更深层次的信息提取。
[0006]为了解决上述技术问题,本发明一方面提供了一种网络流量的识别方法,该方法包括以下步骤:接收请求报文;识别所述请求报文中的下载资源链接;如果识别成功,则解析所述请求报文,提取下载资源名称。还可以进一步提取下载资源类型。
[0007]进一步地,利用上述识别方法从网络流量中提取了下载资源名称之后,就可以根据下载资源名称进行网络流量的管理和控制。
[0008]本发明第二方面提供了一种网络流量的识别设备。该设备包括接收单元,用于接收请求报文;识别单元,用于识别所述请求报文中的下载资源链接;解析单元,用于解析成功识别出下载资源链接的请求报文,从中提取下载资源名称。还可以进一步提取下载资源类型。
[0009]进一步地,利用上述识别设备从网络流量中提取了下载资源名称之后,网络流量管理单元就可以根据下载资源名称进行网络流量的管理和控制。
[0010]有益效果:
[0011](I)本发明提供了更细粒度的识别结果,当使用迅雷软件下载一部电影《红星闪闪》,采用本发明方案可以识别为《红星闪闪》,而不仅仅是“迅雷下载”。那么,有了本发明的识别结果就可以在网络流量管控中,对海量数据进行更有针对性的统计,设置以下载资源名称为目标的流量控制策略,从而使得用户能够针对资源关键字进行下载管理,例如禁止用户下载特定名称的资源,从而大大拓宽了网络流控设备对于下载流量的监控功能。
[0012](2)本发明通过签名对请求报文进行解析,签名解析可读性高,易于读者理解,且解析速度快,便于快速提取出需要的资源名称信息。
[0013]本发明识别精细度高、可实现性强,可作为网络流控设备功能实现,可用于策略中的网络应用控制,并可进行网络应用时监控。
【专利附图】
【附图说明】
[0014]图1为本发明实施例下载流量设备的应用场景;
[0015]图2为本发明实施例下载流量的识别方法流程图;
[0016]图3为本发明实施例下载流量的识别设备结构图。
【具体实施方式】
[0017]下面结合附图并举实施例,对本发明进行详细描述。
[0018]图1为本发明实施例下载流量识别设备的应用场景。如图1所示,客户端A通过网络流量监控设备B访问远程服务器C。C为下载资源服务器,它不断的监听来自A客户端的请求。一旦连接建立起来,客户端A就会向下载资源服务器C发出下载资源的请求报文,下载资源服务器C接着就返回数据作为响应。最后,连接就被释放。
[0019]网络流控设备B转发并监控客户端A和下载资源服务器C之间交互的信息。通过客户端A向下载资源服务器C发出的请求报文来识别出此条链接为下载资源链接。
[0020]图2为本发明实施例中基于下载资源名称的网络流量识别方法的流程图。该方法包括步骤1-3。此部分以在百度下吧中下载QQ2013为例。
[0021]步骤1:接收请求报文。
[0022]在步骤I中,当用户通过客户端A的浏览器点击百度下吧中QQ2013的下载链接时,客户端A会通过网络流控设备B向百度服务器发送HTTP请求报文。客户端A通过网络流控设备B向下载资源服务器C发送的HTTP请求报文如下:
[0023]GET/ sw-search-sp / gaosu / 2014_03_13_16/bindl / 1 2 3 5 0/QQ2013SP6.2288047051.exe HTTP/1.1
[0024]Host: dlsw.baidu.com
[0025]User-Agent:Mozilla/5.0 (Windows NT 6.1 ; WOff 6 4 ; r v: 2 4.0)Gecko/20100101Firefox/24.0
[0026]Accept:text/html, applicat1n/xhtml+xml, applicat1n/xml ;q = 0.9, */* ;q=0.8
[0027]Accept-Language: zh-cn, zh ;q = 0.8, en_us ;q = 0.5, en ;q = 0.3
[0028]Accept-Encoding:gzip, deflate
[0029]请求方式是以“GET”的方式向下载资源服务器C进行数据请求,服务器地址为“dlsw.baidu.com,,,iVsw-search-sp/gaosu/2014_03_13_16/bindl/12350/,,是一个相对地址,代表存储下载资源的文件夹。“QQ2013SP6.2288047051.exe”就是用户下载的具体资源名称,这是一个QQ的可执行程序文件。
[0030]步骤2:识别所述请求报文中的下载资源链接。
[0031]在步骤2中,网络流控设备B将会对送进来的请求报文进行识别。具体识别时,在网络流控设备B中设置一个特征库,该特征库中包含多个特征。通过特征库中的特征识别所述请求报文中的下载资源链接。特征是用于标识下载资源的信息,通过对不同应用的下载资源请求报文的分析,可以获得相应特征信息。不同应用对应的特征不同。例如QQ、迅雷就采用了不同的特征信息来表示报文属于下载连接请求报文。
[0032]在实际中,在特征码识别的基础上,还可以加入DPI识别,从而实现应用层面的流量识别。DPI识别在本处不做过多陈述。
[0033]以HTTP请求报文为例,例如特征库中有一个如下特征:
[0034]Name: baidu_xiaba:
[0035]Signature-1:BigEndian:4: String: ”.exe,,
[0036]Signature-1:BigEndian:20:String: ”Host:dlsw.baidu.com”
[0037]上述特征中,baidu_xiaba代表特征名称;字段 Signature-1:BigEndian:4:String:”.exe”代表搜索全包(_1)、大字节序(BigEndian)长度为4的字符串exe”;字段Signature-1:BigEndian: 20: String: ” Host: dlsw.baidu.com” 代表搜索全包(-1)、大字节序(BigEndian)长度为 20 的字符串“Host:dlsw.baidu.com”,两个 Signature 之前是“且”的关系。进入到网络流控设备B中的流量符合上述特征的话就会认为识别出了下载资源链接。步骤2中的HTTP请求报文与上述特征进行对比,完全符合识别条件,故此连接会被识别为下载资源链接。
[0038]为了令后端设备能够获知流经流量是否为下载资源链接,在识别出下载资源链接后,还需要在流信息上打上相应标识ID。通过标识ID的标记可以标示是否为下载链接,当为不同特征设置不同的标识ID时,还可以区分不同应用的下载链接。
[0039]步骤2如果识别出了下载资源链接,则会跳至步骤3,否则继续对后续请求报文进行识别。
[0040]步骤3:解析HTTP请求报文,提取下载资源名称,进一步地,还可以提取下载资源类型。
[0041]具体地,当网络流控设备B成功识别HTTP请求报文属于下载资源链接时,提取下载资源元信息,其中提取下载资源元信息包括提取下载资源的名称和下载资源的类型,针对不同的下载请求,会有不同的提取元信息的逻辑,比如迅雷下载会有迅雷对应的元信息提取逻辑,百度下吧会有百度下吧对应的元信息提取逻辑。
[0042]以百度下吧为例,提取元信息的逻辑为:
[0043]对于普通的HTTP下载,提取元信息的方法会稍微简单些。当下载连接在步骤2已经识别的时候,就已经可以获取到了下载资源的类型,因为它匹配特征“Signature-1:BigEndian:4: String: ”.exe””其中“.exe”就是资源的类型。对于普通的HTTP下载,其请求方式之后会伴有下载资源的文件夹和下载资源的文件名称“/sw-search-sp/gaosu/2014_03_13_16/bindl/12350/QQ2013SP6.2288047051.exe” 根据处理逻辑,首先会从后向前找到最后一个“/”,最后一个“/”之后则为文件名“QQ2013SP6.2288047051.exe”。
[0044]本发明通过签名库中签名对请求报文进行解析,签名解析可读性高,易于读者理解,且解析速度快,便于快速提取出需要的资源名称信息。本实施例设计了一套签名基本格式,具体如下:
[0045]: s i gname s i gnature_name
[0046]:mapid ID
[0047]:type:〃filename〃start = 〃*** (对应起始字段)〃end = 〃 (对应结束字段)”
[0048]上述签名中,字段signature_name代表签名的名称。这个名称可以自行定义。字段“:mapid ID”中ID是一个标记值,用于标记某应用的下载资源连接,对应其特征库中的标记值。当下载资源链接被识别为该标记值时,该签名就会对该链接的请求报文进行解析。字段type:〃filename〃start = 〃**** (对应起始字段)〃end = 〃 (对应结束字段)〃中的type:"filename"代表提取下载资源名称;字段start = “****(对应起始字段)〃end = 〃(对应结束字段)"代表以某字段(****)开始,以某字段(***)结束,中间截取的信息为下载资源名称。仍以“/sw-search-sp/gaosu/2014_03_13_16/bindl/12350/QQ2013SP6.2288047051.exe,,为例,type 字段应该写为 type ,filename^start = "/"end = ”.exe/r/n' 其中,/r/η表示回车符号,或者替换为OdOa。
[0049]上述流程完成了下载资源名称的提取。
[0050]从网络流量中提取下载资源名称后,后端设备就可以利用下载资源名称进行网络流量的管理和控制。例如将提取的信息,以日志的形式输出到网络流控设备的界面中,或者以下载资源名称为粒度进行下载统计,或者可以根据提取的下载资源类型和下载资源名称,对链接进行相应的管控措施,例如某些关键字的资源不允许下载,或者某种类型的资源不允许下载等。
[0051]图3为本发明实施例下载资源的识别设备结构图。所图所示,该设备包括接收单元、识别单元和解析单元。
[0052]接收单元,用于接收请求报文。当用户通过客户端点击某个下载链接时,客户端会通过网络流控设备向下载资源服务器发送请求报文,此时,该下载资源识别设备中的接收单元接收请求报文中有关下载资源的链接信息。
[0053]识别单元,用于识别该请求报文中的下载资源链接。
[0054]具体地,识别单元通过特征库中的特征识别由接收单元接收的请求报文的下载资源链接。特征库中每个特征对应一个标识ID,对包含下载资源链接的请求报文标记相应标识ID,用于标示和区别下载链接。
[0055]解析单元,用于解析请求报文,提取下载资源名称,以及进一步提取下载资源类型。
[0056] 具体地,当识别单元成功识别请求报文的下载资源链接时,则由解析单元通过特定的解析逻辑,解析该请求报文,提取下载资源名称和类型。
[0057]识别设备从网络流量中提取下载资源名称后,后端的网络流量管理单元就可以利用下载资源名称进行网络流量的管理和控制。
[0058]综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【权利要求】
1.一种基于下载资源名称的网络流量识别方法,其特征在于:包括以下步骤:接收请求报文;识别所述请求报文中的下载资源链接;如果识别成功,则解析所述请求报文,提取下载资源名称。
2.根据权利要求1所述的方法,其特征在于:所述识别所述请求报文中的下载资源链接的步骤包括:通过特征库中的用于表征下载资源的特征识别所述请求报文中的下载资源链接。
3.根据权利要求2所述的方法,其特征在于:所述特征库中每个特征对应一个标识ID,对下载资源链接进行标识ID的标记,用于标示和区分下载链接。
4.根据权利要求1所述的方法,其特征在于:所述解析所述请求报文,提取下载资源名称的步骤包括:通过签名库中的签名解析所述请求报文,提取下载资源名称。
5.一种基于下载资源名称的网络流量识别设备,其特征在于:包括:接收单元,用于接收请求报文;识别单元,用于识别所述请求报文中的下载资源链接;解析单元,用于解析成功识别出下载资源链接的请求报文,从中提取下载资源名称。
6.根据权利要求5所述的设备,其特征在于:所述识别单元通过特征库中的用于表征下载资源的特征识别所述请求报文中的下载资源链接。
7.根据权利要求6所述的设备,其特征在于:所述特征库中每个特征对应一个标识ID,对包含下载资源链接的请求报文标记相应标识ID,用于标示和区别下载链接。
8.根据权利要求5所述的设备,其特征在于:所述解析单元通过签名库中的签名解析所述请求报文,提取下载资源名称。
9.一种基于下载资源名称的网络流量管控方法,其特征在于:采用权利要求1至4任意一项所述的网络流量识别方法从网络流量中提取下载资源名称,根据提取的下载资源名称进行网络流量的管理和控制。
10.一种基于下载资源名称的网络流量管控设备,其特征在于:包括网络流量识别单元和网络流量管理单元; 网络流量识别单元采用权利要求5至8任意一项所述的网络流量识别设备从网络流量中提取下载资源名称; 网络流量管理单元利用网络流量识别单元提取的下载资源名称进行网络流量的管理和控制。
【文档编号】G06F17/30GK104079493SQ201410257677
【公开日】2014年10月1日 申请日期:2014年6月11日 优先权日:2014年6月11日
【发明者】袁媛, 贾艳会, 李城龙, 齐晓璐, 于贺威, 卫冰洁, 曹首峰, 贺龙涛 申请人:国家计算机网络与信息安全管理中心