面对样本分布不平衡的恶意加密流量检测方法

文档序号：34313929发布日期：2023-05-31 23:01阅读：64来源：国知局

本发明属于信息系统安全，具体涉及一种适用于加密流量的恶意流量检测方法。

背景技术：

1、恶意流量检测是对网络进行有效安全防护的重要前提，一直是网络安全领域的热点问题。常见的恶意流量检测技术包括网络端口识别方法，深度包识别方法和基于机器学习的流量识别方法。但是随着流量加密技术的使用，当前90％的网络系统传输加密流量，这给恶意流量检测带来新的挑战。在cisco stealthwatch发现的所有威胁事件中，有63％是在加密流量中发现的。在加密流量中，恶意流量检测面临一些新的挑战：网络流量加密技术隐藏了网络流量中的负载信息，使之前的明文内容变为密文，从而用来保护用户信息的隐私性和安全性，例如安全套接字(ssl/tls)、虚拟专用网络(vpn)等。但其在保护网络通信安全隐私的同时，也隐藏了传统恶意流量检测中使用的关键负载信息，加大了网络流量中恶意流量检测的难度。主要包括以下三点：由于网络流量经过加密后，外部可见的负载内容发生了较大的变化，负载内容不可见，有效载荷的特征也发生了变化(如随机性或熵)，且流量加密后流统计特性发生改变，如报文长度，报文到达时间间隔和包数，大部分非加密流量识别方法很难适用于加密流量，如常见的基于http载荷的恶意攻击检测domount和decanter；通常，攻击者在使用加密协议对流量进行加密的同时，会使用流量伪装技术对流量进行混淆或模仿正常流量通信模式，从而规避检测；不同的网络加密协议可以选择使用不同的加密算法以及封装方式，这种没有统一标准的情况往往会给检测任务带来巨大的困难。以上特点造成了传统的恶意流量检测方法的准确度下降，甚至无法通过传统的检测方法去检测恶意流量。因此，在这样的背景下，应对加密流量中的恶意流量检测方法，成为当下的重点研究内容。

技术实现思路

1、针对当前背景下加密流量的特点、恶意流量与正常流量所表现出来的不同特征，以及恶意流量检测场景自身的特点，本发明提出一种面向分布不平衡的恶意加密流量检测方法。

2、一种面向样本分布不平衡的恶意加密流量检测方法，其特征如下：

3、该方法首先将网络中的流量进行抓取，对原始流量数据按照五元组进行会话流的划分，将流量数据按照会话流的粒度进行分组，之后对生成的会话流片段进行清洗，删除空的会话数据包以及重复的数据。之后将会话流数据固定为统一的长度，长度不够的进行补0，超出长度限制的进行截取。然后对会话流数据进行特征提取，用深度学习中的1d-cnn和lstm构造特征提取模型，分别提取会话流数据的空间特征和时间特征，形成会话流的内部特征。然后基于恶意加密流量的特点，提取会话流长度和会话持续时间两个特征，作为扩展特征与会话流内部特征融合形成会话流的全局时空特征。最后，利用softmax函数对样本进行预测分类，并针对样本分布不平衡的情况，基于数据集的分布，生成成本矩阵，并利用成本敏感的损失函数和成本矩阵，计算错误分类的代价，即损失值，不断的朝着损失值降低的方向更新特征提取模型的参数，最终训练得到加密流量分类模型。

4、所述的恶意加密流量检测方法包括数据预处理模块、特征提取模块、恶意流量检测模块以及各模块之间的数据交互实现，其步骤如下：

5、步骤1：流量与处理模块对网络中的流量进行捕获采集，生成训练使用的数据集，将捕获的流量按照五元组进行分类，所述五元组包括源ip、源端口、目标ip、目标端口和传输级别协议，五元组相同的，作为一个完整的会话流，之后对这部分数据进行数据清洗，将空的包和相同的重复流量数据进行删除，然后截取会话流的前748个字节，对于不足748个字节的会话，进行补0操作，生成吗，恶意加密流量检测模型训练使用的数据集，将数据集交由步骤2特征提取模块进行处理。

6、步骤2：特征提取模块将提取加密流量数据的特征集合，将步骤1中输出的会话流数据处理为方法模型的输入，因为流量样本是一维数据，因此在这里使用适合一维数据的1d-cnn对空间特征进行提取，将数据放入cnn网络中，通过设置的卷积步长和卷积核进行卷积运算，生成会话流空间特征，将空间特征再输入lstm中，通过lstm提取会话流数据的时间特征，形成会话流内部时空特征，在会话流外部，提取会话流的长度以及会话持续时间作为会话流的全局特征，因为在流量数据预处理阶段，由于补0和截取操作，抹去了这部分的特征，因此在这里，将这些特征作为补充的特征，和时空特征进行融合，得到扩展以后的全局时空特征，将全局时空特征作为步骤3的输入。

7、步骤3：恶意加密流量识别模块利用步骤2中提取的特征集合，对加密流量进行分类，识别加密流量中的恶意流量。

8、步骤3.1：根据数据集中流量样本的分布情况，生成成本矩阵，为每个样本的分类错误设置一个成本，作为步骤3.1的输入。

9、步骤3.2：将步骤2中提取出的特征集合，作为分类的依据，通过softmax函数输出属于每种分类的概率，将概率值作为步骤3.1的输入。

10、步骤3.3：将3.1和3.2的输出，作为成本敏感损失函数的输入，计算每组样本错误分类产生的损失值，根据损失值，通过反向传播更新流量分类的模型的参数，使模型拟合。

11、步骤3.4：在训练的过程中，输出流量分类模型的精确率，召回率，准备率，将以上指标高的模型进行保存，利用此模型对后续捕获的流量进行分类识别，识别出加密流量中的恶意流量。

12、与现有技术相比，本发明具有以下优点：

13、当前恶意加密流量检测的主要研究内容是如何对流量数据进行表达，并且进行特征提取和描述，很多方法使用单一的深度学习模型，将视觉领域的算法引入到流量分类检测这个领域，学习流量的某一方面的特征，例如cnn，使用计算机视觉领域的思维，忽略了流量自身流数据的特点以及恶意加密流量相对于正常加密流量所体现出的独有的特征。同时，恶意的加密流量在系统中的数据规模和正常流量的差距是非常大的，因此很多方法在对流量特征进行提取时，很容易忽略一些样本数量比较少的样本特征，从而造成对于这类恶意流量的检测率很低，容易造成很大的安全风险。因此，本发明提出一种面向样本分布不平衡的恶意加密流量检测方法，根据加密流量特点，通过考虑时间和空间维度的特征，并根据恶意加密流量特有的特征，考虑会话流数据长度以及会话流持续时间，构建多维度特征融合的方法模型。另外引入代价敏感学习方法，优化分类器，提升对少量样本的关注度，解决模型训练中忽略小样本的问题。相对于其他方法而言，本方法满足了恶意加密流量检测的要求，有效提高了对于小样本的关注度。

技术特征：

1.面向样本分布不平衡的恶意加密流量检测方法，其特征在于，该方法基于由流量预处理模块、特征提取模块、恶意加密流量检测模块三个模块，以及各模块之间的数据交互实现；其步骤如下：

技术总结
本发明公开了面对样本分布不平衡的恶意加密流量检测方法，该方法属于信息安全技术领域。由于目前流量加密技术的使用，基于深度包检测等传统的恶意流量检测方法已经无法满足安全需求，同时应对加密流量中恶意加密流量样本少的特点，公开了一种基于成本敏感的面向样本分布不平衡的恶意加密流量检测方法。该方法利用深度学习算法，提取流量数据在会话级别的时空特征，并引入成本矩阵和成本敏感损失函数，增强少量样本在模型中的特征表达，以提高整体分类和检测任务中效果。

技术研发人员：林莉,吕沛霖,王万祥,吕旭辉
受保护的技术使用者：北京工业大学
技术研发日：
技术公布日：2024/1/12

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：林莉吕沛霖王万祥吕旭辉
技术所有人：北京工业大学
我是此专利的发明人

上一篇：非接触式GIS绝缘子表面电荷实时动态观测装置和方法与流程
上一篇：一种发酵组合物及其制备方法与应用与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。