一种快速自动识别加密网络行为的方法_2

文档序号:9238155阅读:来源:国知局
r>[0041] 经过分析大量不同版本的加密网络行为数据,Twitter发推时的方式可归纳为两 种情况:音频/消息、视频/图片。因此,需要建立两个参考样本。
[0042] 参考样本I,如表1所不,其包的大小分布为X。
[0043] 表1参考样本I的数据包的大小分布表
[0044]
[0045]
[0046]
[0047] 带有下划线的数字表示对于同一个抓包环境,不同发推时其值不确定。考虑到样 本的普适性,选取最后9个变量作为参考样本,即:
[0048]
[0049] 参考样本II,如表2所示,其包的大小分布为X2。
[0050] 表2参考样本II的数据包的大小分布表
[0051]
[0052]
[0053] 带有下划线的数字表示对于同一个抓包环境,不同发推时其值不确定。
[0054] Step2 :实时采集网络交互数据
[0055] 参照图3,采用滑动窗口方式采集与参考样本相同长度的测量数据集。
[0056] Twitter发消息时新采集的数据如表3所示,其包的大小分布为Y。
[0057] 表3Twitter发消息时新采集的数据
[0058]
[0059]
[0060] 带有下划线的数字表示对于同一个抓包环境,不同发推时其值不确定。
[0061] Step3 :计算实时采集网络交互数据与模型库中不同参考样本的相关系数
[0062] 根据下列公式计算相关系数:
[0063]
[0064] 计算结果:参考样本&与测试数据Y的相关系数为0.8881,参考样本X2与测试数 据Y的相关系数分别为-0. 4409、-0. 1159、-0. 5945、-0. 3657。相关系数的绝对值越大,表 示相关程度越高,值为正表示正相关,值为负表示负相关。
[0065] 对于音频类,与发消息一样,直接计算参考样本与测试数据的正相关系数。
[0066] 对于视频和图片类,因为参考样本和采集数据集其中一个为常量数组,并且参考 样本和测量数据不完全一样,例如:Y= [1414, 1400,…,1410],X= [1414, 1414,…,1414], 所以此时是不能依据相关系数进行直接判断的。为此,需要对数据进行预处理,预处理的方 式是针对特定位置使数据的值微小波动,从而使采集数据值与参考样本完全一样,例如:改 变上述变量的第二个数值和最后一个数值,得到如下形式:义,=[丨414,丨400,…,丨4丨0]〇经 数据实验证明,上述微小波动不影响判别结果。采集的数据经过预处理后,再计算预处理后 的数据与模型库的相关系数。
[0067]Step4:依据计算相关系数结合预设阈值进行网络行为自动分类识别
[0068]Twitter的行为分析主要包括登陆、聊天、音频、图片以及视频等。图4为Twitter 行为分析的程序实现流程图。
[0069]目前,依据相关系数值的大小决定分类,相关系数值大小根据经验值测定,在本发 明中,相关系数参考值取〇. 8,大于0. 8则判为发推。由Step2相关系数的计算可知,&与 Y相关性较强,而&与Y相关程度较弱,结论:超过相关系数参考值的强相关为符合该种行 为模式的加密的网络行为。
[0070] 同理,当样本库中有图片或视频的参考样本,根据相关系数值的大小决定该时动 作属于哪一类。
[0071]总结:
[0072] 本实施例以Twitter为例,对它的登陆、聊天、音频、图片以及视频等加密行为进 行研宄分析,提出了基于相关系数的加密网络行为识别模型,同时经过实验验证,该方法高 效、适用、可靠,并在实际的项目中得到应用,且其行为识别的准确率在96%以上。
[0073] 同时还以Twitter发消息为例,模板数据维数为40,数据包大小877M,参与预算数 据包大小686M,相关系数运算1957885次,其中输出相关记录1957次,总耗时6秒,其效率 完全可以满足实时在线识别的要求。
[0074] 由此可见,本发明的识别方法不仅实现了快速识别加密网络行为,而且有效解决 了因加密协议频繁升级带来的研发工作量加大的问题。
[0075] 需要说明的是,上述实施例不以任何形式限制本发明,凡采用等同替换或等效变 换的方式所获得的技术方案,均落在本发明的保护范围内。
【主权项】
1. 一种快速自动识别加密网络行为的方法,其特征在于,包括以下步骤: Stepl :构建具体的加密网络行为模型库; Step2 :实时采集网络交互数据; Step3 :计算实时采集网络交互数据与模型库中不同参考样本的相关系数; Step4 :依据计算相关系数结合预设阈值进行网络行为自动分类识别。2. 根据权利要求1所述的快速自动识别加密网络行为的方法,其特征在于,在Stepl 中,构建加密网络行为模型库的方法为: (1) 分析大量不同版本的加密网络行为数据; (2) 在前一步的分析基础上,提取出能够表征该加密网络行为的特征; (3) 根据相关系数原理和前一步提取出来的特征,构建该加密网络行为的模型库及参 考样本。3. 根据权利要求1所述的快速自动识别加密网络行为的方法,其特征在于,在Step2 中,实时采集网络交互数据的方法为:采用滑动窗口方式采集与参考样本相同长度的测量 数据集。4. 根据权利要求3所述的快速自动识别加密网络行为的方法,其特征在于,在Step3 中,枏据下列公式计筧卖时梁集网络夺互数据与掉型库的相关系数:其中4=[11,12,"%1」表示样本数据,¥=[71,7 2,"%7」表示新采集数据,相关系数 P>〇表示正相关,P〈〇表示负相关,P =0表示无关。5. 根据权利要求4所述的快速自动识别加密网络行为的方法,其特征在于,在Step3 中, (1) 对于音频和消息类,直接计算实时采集网络交互数据与模型库的相关系数; (2) 对于视频和图片类,先对采集到的数据进行预处理,预处理的方式是针对特定位置 使数据的值发生微小波动,从而使采集数据值与参考样本完全一样,然后计算预处理后的 数据与模型库的相关系数。
【专利摘要】本发明针对海量的加密网络行为难以识别的问题,提出了一种快速自动识别加密网络行为的方法,该方法首先构建具体的加密网络行为模型库,然后进行实时采集网络交互数据,同时计算实时采集网络交互数据与模型库的相关系数,并依据计算的相关系数结合预设阈值进行自动分类识别。本发明的有益之处在于:本发明的识别方法能够及时、快速、高效地实现对加密数据的加密流量的在线判断,进而有效解决因加密协议频繁升级而带来的研发工作量加大的问题。
【IPC分类】H04L29/06
【公开号】CN104954365
【申请号】CN201510279195
【发明人】朱贺军
【申请人】北京亿赛通网络安全技术有限公司
【公开日】2015年9月30日
【申请日】2015年5月27日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1