一种未知协议特征的提取方法
【技术领域】
[0001] 本发明涉及一种未知协议特征的提取方法。
【背景技术】
[0002] 随着网络的发展日趋复杂,保障信息网络的安全已成为国家信息化战略的核心内 容;在特定的网络环境下,通过特殊手段进行窃密的威胁日趋严峻,此类窃密途径通常是通 过无线通信的方式发送涉密信息,且这种通信采用的协议均为非常规的专用未知协议,而 现有的防范措施基本只针对已知协议,大多采用基于端口映射或静态特征匹配等方法,无 法对该类窃密渠道机型监测和检测。
[0003] 为了保证网络的安全运行以及对攻击与危害行为的预警,决策者迫切需要在当前 结构复杂网络环境下准确找到待识别协议的特征,因此我们需要找到一种可行的协议特征 的提取方法,帮助决策者高效地对未知协议进行识别。
【发明内容】
[0004] 本发明的目的在于克服现有技术的不足,提供一种未知协议特征的提取方法,帮 助决策者高效地对未知协议进行识别。
[0005] 本发明的目的是通过以下技术方案来实现的:一种未知协议特征的提取方法,它 包括以下步骤:
[0006] SI.将数据集中每一种协议的数据帧随机分为两部分,对每一部分按字节进行切 分,并分别统计每一字节出现的次数和频率,得到频繁字节;
[0007] S2.使用Jaccard参数来对频繁字节进行筛选,选择出每一种协议对应的频繁字 -K- T ;
[0008] S3.将一种协议对应的连续出现的频繁字节进行拼接,得到特征长串即频繁串,并 筛选出字节出现数量大于帧总字节数量50%的特征长串,得到此协议的两个特征候选集, 取其交集作为此协议的特征候选集,分别对每一种协议对应的频繁字节进行上述处理得到 每一种协议的特征候选集;
[0009] S4.根据得到每一种协议的特征候选集将该协议的数据帧表征为向量,使每一帧 数据变成特征候选集的向量标识;
[0010] S5.对所得到的每一种协议的特征候选集使用相关性特征选择CFS算法进行特征 选择,并将悬着出的特征进行记录;
[0011] S6.利用KNN算法进行分类,统计分类的准确率和识别率,作为特征选择结果的评 价指标。
[0012] 所述的步骤S2包括以下子步骤:
[0013] S21.通过改变一种协议的阈值来计算不同的Jaccard值;
[0014] S22.当Jaccard值第一次达到最高点时,记录所对应的该协议的阈值;
[0015] S23.根据该协议对应的阈值选择出该协议对应的频繁字节;
[0016] S24.分别对每一种协议进行上述操作得到每一种协议对应的频繁字节。
[0017] 所述的步骤S3包括以下子步骤:
[0018] S31.对一种协议中的每一帧数据,如果筛选出来的频繁字节是连续出现的,就把 它们拼接在一起作为特征长串挑选出来;
[0019] S32.筛选出其中字节出现数量大于帧总字节数量50%的特征长串,得到此协议 的两个特征候选集;
[0020] S33.取两个特征候选集的交集作为此协议的特征候选集;
[0021] S34.分别对每一种协议对应的频繁字节进行上述处理,得到每一种协议的特征候 选集。
[0022] 所述的Jaccard参数的定义为:
[0023]
【主权项】
1. 一种未知协议特征的提取方法,其特征在于;它包括w下步骤:
51. 将数据集中每一种协议的数据帖随机分为两部分,对每一部分按字节进行切分,并 分别统计每一字节出现的次数和频率,得到频繁字节;
52. 使用化ccard参数来对频繁字节进行筛选,选择出每一种协议对应的频繁字节;
53. 将一种协议对应的连续出现的频繁字节进行拼接,得到特征长串即频繁串,并筛选 出字节出现数量大于帖总字节数量50%的特征长串,得到此协议的两个特征候选集,取其 交集作为此协议的特征候选集,分别对每一种协议对应的频繁字节进行上述处理得到每一 种协议的特征候选集;
54. 根据得到每一种协议的特征候选集将该协议的数据帖表征为向量,使每一帖数据 变成特征候选集的向量标识;
55. 对所得到的每一种协议的特征候选集使用相关性特征选择WS算法进行特征选 择,并将悬着出的特征进行记录;
56. 利用脚W算法进行分类。
2. 根据权利要求1所述的一种未知协议特征的提取方法,其特征在于:所述的步骤S2 包括W下子步骤:
521. 通过改变一种协议的阔值来计算不同的化ccard值;
522. 当化ccard值第一次达到最高点时,记录所对应的该协议的阔值;
523. 根据该协议对应的阔值选择出该协议对应的频繁字节;
524. 分别对每一种协议进行上述操作得到每一种协议对应的频繁字节。
3. 根据权利要求1所述的一种未知协议特征的提取方法,其特征在于:所述的步骤S3 包括W下子步骤:
531. 对一种协议中的每一帖数据,如果筛选出来的频繁字节是连续出现的,就把它们 拼接在一起作为特征长串挑选出来;
532. 筛选出其中字节出现数量大于帖总字节数量50%的特征长串,得到此协议的两 个特征候选集;
533. 取两个特征候选集的交集作为此协议的特征候选集;
534. 分别对每一种协议对应的频繁字节进行上述处理,得到每一种协议的特征候选 集。
4. 根据权利要求2所述的一种未知协议特征的提取方法,其特征在于:所述的化ccard 参数的定义为:
式中,化和T2i分别表示A和B中的第i个特征。
【专利摘要】本发明公开了一种未知协议特征的提取方法,它将每一种协议的数据帧随机分为两部分,对每一部分按字节进行切分,并统计每一字节出现的次数和频率,得到频繁字节;对频繁字节进行筛选,得到每一种协议对应的频繁字节;将一种协议对应的连续出现的频繁字节进行拼接,得到特征长串即频繁串,并筛选得到每一种协议的特征候选集;根据特征候选集将该协议的数据帧表征为向量;对特征候选集使用相关性特征选择CFS算法进行特征选择,将所选出的特征进行记录;利用KNN算法进行分类,并统计分类的准确率和识别率。本发明提供了一种未知协议特征的提取方法,帮助决策者高效地对未知协议进行识别。
【IPC分类】H04L12-26, H04L29-06
【公开号】CN104796407
【申请号】CN201510127979
【发明人】张凤荔, 周洪川, 张春瑞, 王勇, 张俊娇
【申请人】电子科技大学
【公开日】2015年7月22日
【申请日】2015年3月23日