1.一种基于集成学习的僵尸网络恶意流量分类方法,其特征在于,包括以下步骤:
步骤a:将已标注类别的恶意流量数据转换为带类别标签的idx图像数据,建立恶意流量训练集r;
步骤b:构造包含三个深度残差卷积神经网络的初级分类器,构造softmax逻辑回归模型作为次级分类器;
步骤c:将训练集r分为r0和r1两部分,使用r0训练初级分类器,提取恶意流量特征向量,并将提取的特征向量添加到r0中,以增强该部分训练集;
步骤d:将增强后的训练集与r1合并,用其训练次级分类器;
步骤e:将待判定类别的恶意流量数据转换为idx图像格式,输入到训练好的次级分类器,输出判定结果。
2.根据权利要求1所述的基于集成学习的僵尸网络恶意流量分类方法,其特征在于,所述步骤a具体包括以下步骤:
步骤a1:从已标注类别的恶意流量数据中清除没有应用层数据的数据报文;
步骤a2:对步骤a1处理后的恶意流量数据进行划分,将属于同一tcp会话的恶意流量数据划分为一组,将恶意流量数据中的网络层、传输层、应用层报文信息保存到一个二进制文件中;
步骤a3:将步骤a2得到的二进制文件截断或补0x00到固定长度m个字节,以保留tcp会话中能够反映流量类别特征的网络层首部、传输层首部、应用层首部信息以及部分应用层数据,去除不能反映流量类别特征的其他应用层数据;以字节为单位,将每个字节转换为灰度值,输出大小为m×m的灰度图像文件,m=m2;
步骤a4:将步骤a3得到的灰度图像文件转换为idx图像文件;
步骤a5:遍历已标注类别的恶意流量数据,得到训练集r;
其中r={(xi,yi)|i=1,2,...,n},n为训练集r中的恶意流量样本数,xi为一个idx图像文件,yi为对应的恶意流量类别标签;yi∈c={1,2,...,k},c表示恶意流量类别标签集合,yi=c,1≤c≤k,表示xi为第c种恶意流量类别。
3.根据权利要求2所述的基于集成学习的僵尸网络恶意流量分类方法,其特征在于,所述恶意流量类别为包括cridex、geodo、htbot、miuref、neris、nsisay、shifu、virut和zeus的僵尸网络恶意流量。
4.根据权利要求1所述的基于集成学习的僵尸网络恶意流量分类方法,其特征在于,所述步骤b中,所述三个深度残差卷积神经网络分别为resnet1、resnet2和resnet3;每个深度残差卷积神经网络包括五个残差单元和两个全连接层;其中,每个残差单元按照输入样本的数据流向依次包括1个卷积层、1个批量正则化层、1个线性激活层和2个卷积层。
5.根据权利要求4所述的基于集成学习的僵尸网络恶意流量分类方法,其特征在于,所述步骤c具体包括以下步骤:
步骤c1:将数据集r随机分为r0和r1两个训练子集,再将r0随机拆分成三个训练子集
步骤c2:分别使用
步骤c3:利用步骤c2训练好的三个深度残差卷积神经网络resnet1、resnet2和resnet3分别对r0中的每个idx图像样本进行恶意流量特征向量提取,然后对resnet1、resnet2和resnet3获得的特征向量求平均,输出与各idx图像样本对应的特征向量,并将各特征向量覆盖到对应的idx图像样本的二进制文件末尾,保持文件字节数不变;遍历r0中的每个idx图像样本后,得到特征增强后的训练子集
6.根据权利要求5所述的基于集成学习的僵尸网络恶意流量分类方法,其特征在于,所述步骤c2中,使用训练子集
7.根据权利要求5所述的基于集成学习的僵尸网络恶意流量分类方法,其特征在于,所述步骤d具体包括以下步骤:
步骤d1:合并训练子集r1和步骤c3得到的训练子集
步骤d2:使用r+训练次分类器的softmax逻辑回归模型,用交叉熵作为损失函数计算损失值,通过均方根随机梯度下降优化方法rmsprop计算所有的梯度的平方的平均值,利用反向传播迭代更新模型参数,以最小化损失函数来训练模型,得到训练好的softmax逻辑回归模型。
8.根据权利要求2所述的基于集成学习的僵尸网络恶意流量分类方法,其特征在于,所述步骤e具体包括以下步骤:
步骤e1:按照步骤a1-a4,将待判定类别的僵尸网络恶意流量数据转换为idx图像格式,表示为m×m的二维向量矩阵x,计算矩阵x的协方差矩阵cov;
步骤e2:计算协方差矩阵cov的特征值与特征向量,根据特征值大小对特征向量排序,保留前k个特征向量,对前k个特征向量进行平均,得到特征向量
步骤e3:将
9.一种采用如权利要求1-8任一项所述方法的基于集成学习的僵尸网络恶意流量分类系统,其特征在于,包括:
数据收集模块,用于根据tcp连接作为标准划分网络流量,以产生流量的僵尸网络种类作为恶意流量种类,收集恶意流量数据并标注类别;
数据预处理模块,用于将已标注类别的恶意流量数据转换为带类别标签的idx图像数据,构建恶意流量训练集r,并将其分为r0和r1两个训练子集,对其中的r0进行数据增强;
数据增强模块,用于构造包含三个深度残差卷积神经网络的初级分类器和构造softmax逻辑回归模型作为次级分类器,然后使用r0训练初级分类器,提取恶意流量特征向量,并用提取的特征向量增强训练子集r0;
次级分类器训练模块,用于将增强后的训练子集r0和训练子集r1合并,并用合并后的训练集训练次级分类器;以及
恶意流量种类预测模块,用于利用训练好的次级分类器对输入的待判定类别的恶意流量数据进行预测,输出其所属的类别。