专利名称:半监督异常入侵检测方法
技术领域:
本发明属于网络安全技术领域,涉及入侵检测方法,具体的说是一种基于模糊聚 类和支撑矢量域描述的半监督异常入侵检测方法,可用于网络环境中对数据的检测。
背景技术:
随着全球信息化技术的飞速发展,网络已广泛应用于社会生活的各个领域,伴随 而来的网络信息安全问题也不断增多。已被广泛应用的传统网络安全技术包括数据加密技 术、认证技术、防火墙技术和入侵检测系统。其中入侵检测系统因具有检测性强、应用范围 广泛、响应及时的特点而成为网络安全领域的研究热点。按检测数据来源不同,入侵检测系统可以分为两类基于主机的入侵检测系统和 基于网络的入侵检测系统。基于主机的入侵检测系统主要以主机的审计记录作为检测数据 来源,来完成对入侵行为的检测。基于网络的入侵检测系统通过分析网络数据包,检测其中 隐藏的入侵行为。按检测方法不同,入侵检测方法又可以分为误用入侵检测方法和异常入 侵检测方法。误用入侵检测方法通过分析各种入侵行为,提取出相应的入侵行为特征库,采 用该检测方法的入侵检测系统的性能优劣完全取决于它是否具备一个及时更新的特征库。 异常入侵检测方法首先为正常行为建立一个的状态模型,异于该状态模型的行为都被怀疑 为攻击行为,采用该检测方法的入侵检测系统对未知入侵行为的发现能力较强,其设计难 点在于如何正确构造正常行为的状态模型。异常入侵检测可看作单值分类问题,即将检测数据中的目标类与离群类分离开 来,其中目标类是检测数据中的正常数据,离群类是检测数据中的各种入侵数据。支撑矢量 域描述SVDD是由支撑矢量机发展而来的一种数据域描述方法,可用于单值分类问题。基于 SVDD的异常入侵检测方法的优点在于1、它是一种无监督学习方法,不需要为训练数据标 记类别;2、适用于仅由正常数据组成的或者包含噪声的训练集,使得模型的实时更新成为 可能;3、通用性强,可用于实现基于网络或主机的异常入侵检测。异常入侵检测的本质是一个模式分类问题,即将检测数据正确地分为正常类和异 常类,其中正常类包含检测数据中的正常数据,异常类包含检测数据中的各种入侵数据,因 此各种模式识别和机器学习技术越来越多的被应用到入侵检测领域中。传统的入侵检测方 法是基于监督学习的,虽然检测率较高,且虚警率较低,但是无法有效地检测到未知入侵行 为。因此,无监督学习方法被应用到入侵检测中,基于聚类的入侵检测方法不用对网络数据 进行标记就可以检测到未知入侵行为,所以该检测方法的检测率较高,但是如果有入侵行 为被错误标记为正常类,将导致该类入侵行为及其变种都被视作正常数据,所以虚警率也 较高。
发明内容
本发明的目的在于克服上述已有技术的不足,针对训练数据中仅包含少量正常数 据的情况,提出一种基于模糊聚类和支撑矢量域描述的半监督异常入侵检测方法,以实现在保证较高检测率的同时,最大程度的降低虚警率。实现本发明目的的技术思路是提取训练数据中的正常数据作为有标记样本集, 通过模糊聚类和基于支撑矢量域描述SVDD的自训练不断标记利用无标记的检测数据样 本,为检测器提供更多有效的样本分布信息,从而提高检测率。其技术方案包括以下步骤(1)在进行入侵检测时,将正常行为对应的检测数据定义为正常数据,将各种入侵 行为对应的检测数据定义为异常数据,提取训练数据中的一部分正常数据作为初始有标记 样本集IxJ,将检测数据作为初始未标记样本集{Xj};(2)对当前有标记和未标记样本实施模糊C均值聚类,得到初始聚类中心M= {m+, m_},其中m+是检测数据中正常类样本的初始聚类中心,m_是检测数据中异常类样本的初始 聚类中心,正常类包含检测数据中的正常数据,异常类包含检测数据中的异常数据;(3)基于初始聚类中心M,对当前有标记和未标记样本再次实施模糊C均值聚类, 得到聚类中心M* = {<,《},其中 < 是正常类样本的聚类中心,屹是异常类样本的聚类中 心,并将当前所有未标记样本到各聚类中心的隶属度集合记作U= IucJj e (1,2,...,u), c e (+,-)},其中Uc;j是第j个未标记样本到标记为c的聚类中心的隶属度,u是当前未标 记样本集的样本数目;(4)依据得到的隶属度集合U,从当前未标记样本集{Xj}中选取聚类标记为正且 对应隶属度最大的H个样本进行标记,即H = pXN+,将当前有标记样本集和未标记样本集 分别聚类更新为和{<},式中N+是当前未标记样本集中聚类标记为正的样本数目,ρ是 从未标记样本中选取出并进行标记的比例;(5)对上述聚类更新后的数据集{<}和{<},进行基于支撑矢量域描述SVDD的自训 练;(6)从聚类更新后的未标记样本集{<}中选取判别函数值最大的H*个样本进行标 记,即矿=pxN,将当前有标记样本集和未标记样本集分别自训练更新为{<}和{<},式 中<是聚类更新后的未标记样本集{<}中预测标记为正的样本数目,P是从未标记样本中 选取出并进行标记的比例;(7)对上述自训练更新后的数据集{χ*}和,进行基于支撑矢量域描述SVDD的 分类;(8)利用上述基于支撑矢量域描述SVDD的检测数据分类结果,统计此次入侵检测 的检测率和虚警率,并计算相应几何均值Gm ;(9)根据获得的几何均值是否达到最优作为终止条件,若满足则停止迭代,返回步 骤(8),输出本次入侵检测的结果,否则返回步骤(2),直到满足终止条件为止。本发明与现有技术相比具有如下优点(1)本发明使用模糊C均值聚类挖掘大量无标记的检测数据中隐含的数据分布信 息,并结合支撑矢量域描述SVDD的优点,在保证较高检测率的同时,最大程度的降低了虚 警率,从而在实际应用中不但可以更准确的检测出威胁,并能够减少误检给用户带来的不 必要的麻烦;(2)本发明综合考虑了实际应用中经常会遇到训练数据较少或很难获取,且仅包 含正常数据的情况,为入侵检测方法引入半监督学习的思想,通过迭代执行模糊C均值聚类和基于支撑矢量域描述SVDD的自训练过程,不断标记利用大量未标记的检测数据样本, 为检测器的训练提供了更多有效的样本分布信息,从而提高了检测率。
图1是本发明的流程图;图2是用本发明对KDD cupl999数据的30组检测数据统计的检测率对比图;图3是用本发明对KDD cupl999数据的30组检测数据统计的虚警率对比图。
具体实施例方式参照图1,本发明的具体实现步骤如下步骤1,选定初始有标记样本集和初始未标记样本集。在进行入侵检测时,将正常行为对应的检测数据定义为正常数据,将各种入侵行 为对应的检测数据定义为异常数据,提取训练数据中的一部分正常数据作为初始有标记样 本集IxJ,将检测数据作为初始未标记样本集{Xj}。步骤2,对所述检测数据的聚类中心进行初始化。对当前有标记和未标记样本实施模糊C均值算法,重复下面的运算步骤,直到有 标记和未标记样本的隶属度值稳定(2a)计算隶属度
权利要求
一种半监督异常入侵检测方法,包括如下步骤(1)在进行入侵检测时,将正常行为对应的检测数据定义为正常数据,将各种入侵行为对应的检测数据定义为异常数据,提取训练数据中的一部分正常数据作为初始有标记样本集{xi},将检测数据作为初始未标记样本集{xj};(2)对当前有标记和未标记样本实施模糊C均值聚类,得到初始聚类中心M={m+,m },其中m+是检测数据中正常类样本的初始聚类中心,m 是检测数据中异常类样本的初始聚类中心,正常类包含检测数据中的正常数据,异常类包含检测数据中的异常数据;(3)基于初始聚类中心M,对当前有标记和未标记样本再次实施模糊C均值聚类,得到聚类中心其中是正常类样本的聚类中心,是异常类样本的聚类中心,并将当前所有未标记样本到各聚类中心的隶属度集合记作U={ucj|j∈(1,2,...,u),c∈(+, )},其中ucj是第j个未标记样本到标记为c的聚类中心的隶属度,u是当前未标记样本集的样本数目;(4)依据得到的隶属度集合U,从当前未标记样本集{xj}中选取聚类标记为正且对应隶属度最大的H个样本进行标记,即H=p×N+,将当前有标记样本集和未标记样本集分别聚类更新为和式中N+是当前未标记样本集中聚类标记为正的样本数目,p是从未标记样本中选取出并进行标记的比例;(5)对上述聚类更新后的数据集和进行基于支撑矢量域描述SVDD的自训练;(6)从聚类更新后的未标记样本集中选取判别函数值最大的H*个样本进行标记,即将当前有标记样本集和未标记样本集分别自训练更新为和式中是聚类更新后的未标记样本集中预测标记为正的样本数目,p是从未标记样本中选取出并进行标记的比例;(7)对上述自训练更新后的数据集和进行基于支撑矢量域描述SVDD的分类;(8)利用上述基于支撑矢量域描述SVDD的检测数据分类结果,统计此次入侵检测的检测率和虚警率,并计算相应几何均值Gm;(9)根据获得的几何均值是否达到最优作为终止条件,若满足则停止迭代,返回步骤(8),输出本次入侵检测的结果,否则返回步骤(2),直到满足终止条件为止。FDA0000030756970000011.tif,FDA0000030756970000012.tif,FDA0000030756970000013.tif,FDA0000030756970000014.tif,FDA0000030756970000015.tif,FDA0000030756970000016.tif,FDA0000030756970000017.tif,FDA0000030756970000018.tif,FDA0000030756970000019.tif,FDA00000307569700000110.tif,FDA00000307569700000111.tif,FDA00000307569700000112.tif,FDA00000307569700000113.tif,FDA00000307569700000114.tif,FDA00000307569700000115.tif
2.根据权利要求1的半监督异常入侵检测方法,其中步骤(5)所述的对聚类更新后的 数据集{<}和{<},进行基于支撑矢量域描述SVDD的自训练,按如下步骤进行(5a)使用支撑矢量域描述SVDD方法对聚类更新后的有标记样本集{<}进行训练;(5b)利用支撑矢量域描述SVDD方法的判别函数/(χ;) = sgn(i 2-||0(x;)-a||2),得到聚 类更新后的未标记样本集{<}中各样本的预测标记,其中a为利用支撑矢量域描述SVDD方 法训练得到的超球中心,R为对应超球半径,Φ 0是非线性映射函数,sgnO是符号函数,< 是用于预测的未标记样本。
3.根据权利要求1的半监督异常入侵检测方法,其中步骤(7)所述的对自训练更新后 的数据集和,进行基于支撑矢量域描述SVDD的分类,按如下步骤进行(7a)使用支撑矢量域描述SVDD方法对自训练更新后的有标记样本集进行训练; (7b)利用支撑矢量域描述SVDD方法的判别函数f (Xj) = sgn (R2-I | Φ (Xj)-a I |2),得到 初始未标记样本集{xj中各样本的预测标记,其中a为利用支撑矢量域描述SVDD方法训 练得到的超球中心,R为对应超球半径,Φ0是非线性映射函数,sgn()是符号函数,Xj是 用于预测的未标记样本。
4.根据权利要求1的半监督异常入侵检测方法,其中步骤(8)所述的利用基于支撑矢 量域描述SVDD的检测数据分类结果,统计本发明对此次入侵检测的检测率和虚警率,并计 算相应几何均值Gm,按如下步骤进行 (8a)分别计算本发明对此次入侵检测的检测率
全文摘要
本发明公开了一种基于模糊聚类和支撑适量域描述的半监督异常入侵检测方法,主要用于解决现有技术对入侵检测数据检测率低且虚警率高的问题。其实现步骤为(1)初始有标记样本集和未标记样本集;(2)初始聚类中心;(3)实施模糊C均值聚类;(4)依据聚类结果更新有标记样本集和未标记样本集;(5)实施基于支撑矢量域描述SVDD的自训练;(6)依据自训练结果更新有标记样本集和未标记样本集;(7)实施基于支撑矢量域描述SVDD的分类;(8)评估入侵检测结果并输出。本发明在提高检测率的同时,降低了虚警率,可用于训练数据仅包含极少正常数据的实时入侵检测系统。
文档编号H04L29/06GK101980480SQ20101053089
公开日2011年2月23日 申请日期2010年11月4日 优先权日2010年11月4日
发明者侯彪, 冯吭雨, 张青, 焦李成, 王爽, 缑水平, 钟桦, 马文萍 申请人:西安电子科技大学