专利名称:基于svm的网络代理行为检测系统及检测方法
技术领域:
本发明涉及是ー种应用于对网络代理行为的检測,尤其涉及基于SVM的网络代理行为检测系统及检测方法。
背景技术:
随着科学技术和Internet的发展,网络代理技术作为目前广泛使用的一种有效地缓解IPv4地址资源匮乏、提高网络接入性能的网络接入技术已经得到越来越多的应用。但网络代理的应用,应建立在规范化的网络管理的基础之上,否则网络代理的行为也会对网络安全构成了威胁。从网络管理上来讲,网络代理的使用,屏蔽了上网用户的真实信息,给网络管理増加了很大难度和负担,不仅严重妨碍网络故障的追踪、定位,干扰对网络安全问题的分析、处理,同时使得计费系统也受到很大的挑战。因此,必须在网络代理服务器处设立必要的网管系统,授权进行网络代理服务,否则难以保障网络安全,在某种程度上讲还难以保证网络资源的合理分配和使用。同吋,从网络安全管理的角度讲,网络代理是必须经授权后按规范进行工作的,但实际上网络中存在着大量的未经授权或者不按规范进行工作的网络代理,这些非法的网络代理行为不仅大大消耗了网络资源,而且影响了网络安全,因此必须对网络中的代理服务行为进行有效的监控。目前检测网络代理行为主要有两种手段一是通过端ロ扫描、流量分析、SESSION分析,ニ是通过改进的802. Ix客户端程序检测。但每种方法各有弊端,都不是ー个全局的解决方案。例如,通过端ロ扫描仅仅对于查找使用了标准服务端ロ的代理服务器较为有效。如果把代理服务的端ロ设置为ー个特殊的数值(端ロ取值范围可设在I 65536之间),通过端ロ扫描将是ー个漫长且无效的过程,同时这种方法以严重影响网络正常运行为代价。而802. Ix客户端方式需要解决对旧设备的支持、对不同厂家网络设备混用的统ー支持、对新兴的代理服务程序的监控等技术问题。
发明内容
针对上述技术缺陷,本发明提出基于SVM的网络代理行为检测系统及检测方法。为了解决上述技术问题,本发明的技术方案如下;基于SVM的网络代理行为检测系统,包括网络数据采集模块、数据预处理模块、SVM学习机、网络行为决策系统;所述网络数据采集模块从所监控的目标网络段中收集原始的网络数据,并获取少量可以准确标记的样本,该少量可以准确标记的样本在网络代理行为检测前期,进行行为分析实验得到;所述数据预处理模块从所述网络数据采集模块采集的网络数据进行标记、提取特征信息并将特征信息进行聚类处理,并把特征信息转化为SVM分类器能够处理的维数相同的数字向量,所述特征信息包括网络访问的方式、类型、访问的对象标识、获取结果的类型、数据包附加的特征字所述网络行为决策系统包含SVM分类器,所述SVM分类器将所述数据预处理模块处理后的样本进行检测,并将所述少量可以准确标记的样本和未标记样本组成训练样本集,传输给所述SVM学习机进行训练;根据SVM分类器分类的结果作出是否属于网络代理行为的判断;所述SVM学习机接受所述SVM分类器传输的训练样本集,将训练后的数据再次传输至所述SVM分类器进行检测,反复检测、训练,直到达到未标记样本的最小分类误差。基于SVM的网络代理行为检测方法,包括如下步骤21)在网络代理行为检测前期进行行为分析实验,得到少量可以准确标记的网络数据样本,所述网络数据采集模块从所监控的目标网络段中收集原始的网络数据及少量可以准确标记的网络数据样本;22)所述数据预处理模块在给定的一个时间段内,按照网络代理行为的特征,从原始采集的网络访问数据中针对数据包,分别提取特征信息,该特征信息包括网络访问的方式、类型、访问的对象标识、获取结果的类型、数据包附加的特征字;将该特征信息进行聚类处理,并把特征信息转化为SVM分类器能够处理的维数相同的数字向量;23)对行为分析实验采集到的网络数据样本处理时,将网络代理行为的网络数据样本规定为负样本,标记为“-1”,正常的网络数据样本规定为正样本,标记为“+I” ;而对非行为分析实验采集到的网络数据样本,规定为未标记样本,标记为“O”;经过数据预处理模块处理后的样本就送往SVM分类器进行检测,将少量正样本和负样本,以及ー些未标记样本组成训练样本集,对SVM学习机进行训练;24) SVM学习机根据指定的惩罚因子C和C%利用训练数据中包含的正负标记的网络数据进行归纳式学习,得到一个比较原始的样本分类器;随后,SVM学习机假定训练集中无标记网络数据样本中正负样本的比例为I : I,并指定一个训练集中无标记样本的临时惩罚因子Cftemp ;SVM学习机用得到的比较原始的样本分类器对训练集中的无标记样本进行重新分类,根据该样本分类器对无标记网络数据记录的判别结果,对无标记网络数据作出正负分类判決,并将判决值较大的一半样本标记为正标记,另外一半样本标记为负标记;25)用步骤24)得到的经过重新标记的训练集网络数据对SVM学习机进行重新训练,得到新的样本分类器;然后,按一定的规则交换ー对标记值不同的训练样本的标记符号,即把起初标记为正样本的未标记样本标记为重新负样本,起初标记为负样本的未标记样本标记为重新正样本,计算目标函数的值,使得目标函数的值获得最大下降;反复执行训练样本标记的变换,直到找不出满足交換条件的样本为止;26)当SVM終止学习后,用学习得到的最终样本分类器对测试样本进行分类判別,网络代理行为检测决策系统根据最终样本分类器分类的结果作出是否属于网络代理行为的判断。进ー步的,所述步骤22)具体包括如下步骤31)用长度为At的时间戳窗ロ在采集得到的网络数据集上滑动得到它的各数据包的特征信息序列,得到的时间戳长度为At的数据包的特征信息序列为M —PiF11F12... Flm,P2F21F22…F2m,P3F31F32…F3m,...,PnFnlFnfFnm通过聚类操作将IT划分成K大类,记为,其中,Mf, j = 1,2, ···, k, Pi, i = I, 2, ···, η 为数据包序列,Fij, i = I, 2, ···, n, j = I, 2, .",m 为对应的
特征值信息;采用ー个文本转换方法,将M&t转换为数字结果,该文本转换方法包括如下步骤对于聚类后中符号类型的特征量采用数字编号后线性归一化处理,对于聚类后中数值类型的数据,在处理时采用了将特征值右移10位再开平方的方法,对于聚类后进行数值化以后,聚类结果的方差为
权利要求
1.基于SVM的网络代理行为检测系统,其特征在于,包括网络数据采集模块、数据预处理模块、SVM学习机、网络行为决策系统; 所述网络数据采集模块从所监控的目标网络段中收集原始的网络数据,并获取少量可以准确标记的样本,该少量可以准确标记的样本在网络代理行为检测前期,进行行为分析实验得到; 所述数据预处理模块从所述网络数据采集模块采集的网络数据进行标记、提取特征信息并将特征信息进行聚类处理,并把特征信息转化为SVM分类器能够处理的维数相同的数字向量,所述特征信息包括网络访问的方式、类型、访问的对象标识、获取结果的类型、数据包附加的特征字; 所述网络行为决策系统包含SVM分类器,所述SVM分类器将所述数据预处理模块处理后的样本进行检测,并将所述少量可以准确标记的样本和未标记样本组成训练样本集,传输给所述SVM学习机进行训练;根据SVM分类器分类的结果作出是否属于网络代理行为的判断; 所述SVM学习机接受所述SVM分类器传输的训练样本集,将训练后的数据再次传输至所述SVM分类器进行检测,反复检测、训练,直到达到未标记样本的最小分类误差。
2.一种利用权利要求I所述系统的检测方法,其特征在于,包括如下步骤 .21)在网络代理行为检测前期进行行为分析实验,得到少量可以准确标记的网络数据样本,所述网络数据采集模块从所监控的目标网络段中收集原始的网络数据及少量可以准确标记的网络数据样本; .22)所述数据预处理模块在给定的一个时间段内,按照网络代理行为的特征,从原始采集的网络访问数据中针对数据包,分别提取特征信息,该特征信息包括网络访问的方式、类型、访问的对象标识、获取结果的类型、数据包附加的特征字;将该特征信息进行聚类处理,并把特征信息转化为SVM分类器能够处理的维数相同的数字向量; .23)对行为分析实验采集到的网络数据样本处理时,将网络代理行为的网络数据样本规定为负样本,标记为“-1”,正常的网络数据样本规定为正样本,标记为“+I” ;而对非行为分析实验采集到的网络数据样本,规定为未标记样本,标记为“0”;经过数据预处理模块处理后的样本就送往SVM分类器进行检测,将少量正样本和负样本,以及一些未标记样本组成训练样本集,对SVM学习机进行训练; .24)SVM学习机根据指定的惩罚因子C和Cf,利用训练数据中包含的正负标记的网络数据进行归纳式学习,得到一个比较原始的样本分类器;随后,SVM学习机假定训练集中无标记网络数据样本中正负样本的比例为I : 1,并指定一个训练集中无标记样本的临时惩罚因子Cftraip ;SVM学习机用得到的比较原始的样本分类器对训练集中的无标记样本进行重新分类,根据该样本分类器对无标记网络数据记录的判别结果,对无标记网络数据作出正负分类判决,并将判决值较大的一半样本标记为正标记,另外一半样本标记为负标记; .25)用步骤24)得到的经过重新标记的训练集网络数据对SVM学习机进行重新训练,得到新的样本分类器;然后,按一定的规则交换一对标记值不同的训练样本的标记符号,即把起初标记为正样本的未标记样本标记为重新负样本,起初标记为负样本的未标记样本标记为重新正样本,计算目标函数的值,使得目标函数的值获得最大下降;反复执行训练样本标记的变换,直到找不出满足交换条件的样本为止;26)当SVM终止学习后,用学习得到的最终样本分类器对测试样本进行分类判别,网络代理行为检测决策系统根据最终样本分类器分类的结果作出是否属于网络代理行为的判断。
3.根据权利要求2所述的方法,其特征在于,所述步骤22)具体包括如下步骤 31)用长度为At的时间戳窗口在采集得到的网络数据集上滑动得到它的各数据包的特征信息序列,得到的时间戳长度为At的数据包的特征信息序列为
4.根据权利要求2所述的方法,其特征在于,所述SVM学习机的训练过程包括如下步骤 41)SVM学习机根据指定的惩罚因子C和C%利用训练数据中包含的正负标记的网络数据进行归纳式学习,得到一个比较原始的样本分类器,随后,SVM学习机假定训练集中无标记网络数据样本中正负样本的比例为I : 1,并指定一个训练集中无标记样本的临时惩罚因子; 42)SVM学习机用得到的比较原始的样本分类器对训练集中的无标记样本进行重新分类,根据样本分类器对无标记网络数据记录的判别结果,对无标记数据作出正负分类判决,并将判决值较大的一半样本标记为正标记,另外一半标记为负样本; 43)用得到的经过重新标记的训练集数据对SVM学习机进行重新训练,得到新的样本分类器,然后,按一定的规则交换一对标记值不同的训练样本的标记符号,即把起初标记为正样本的未标记样本中标记为重新负样本,起初标记为负样本的标记为重新正样本,计算目标函数的值,使得目标函数的值获得最大下降,反复执行训练样本标记的变换,直到找不出满足交换条件的样本为止,所述规则为对线性可分的样本集(Xi, Yi), i = 1,2,…,n,Xi G Rd, Yi G U,-I},满足条件
全文摘要
本发明公开了基于SVM的网络代理行为检测系统及检测方法,将SVM主动学习算法应用于网络代理行为的检测,通过SVM的有效学习,将普通数据和网络代理行为数据正确地区分。然后建立以SVM为主动学习机的智能检测机制,对网络访问行为进行有效地检测,从中识别网络代理行为,通过有效地识别网络代理行为,准确及时地定位网络代理行为源,完成对其网络通信量的监控。
文档编号H04L12/26GK102664771SQ20121012393
公开日2012年9月12日 申请日期2012年4月25日 优先权日2012年4月25日
发明者任午令, 姜国新 申请人:浙江工商大学