一种基于改进蜜獾算法的物联网设备识别特征提取与选择方法

文档序号:33108250发布日期:2023-02-01 01:45阅读:31来源:国知局
一种基于改进蜜獾算法的物联网设备识别特征提取与选择方法

1.本发明涉及一种基于改进蜜獾算法的物联网设备识别特征提取与选择方法,属于物联网设备识别领域。


背景技术:

2.随着物联网规模的飞速增长,各种网络安全问题也变得复杂多样化,攻击者们能够利用一种设备型号的漏洞危害成千上万个相同类型设备。除此之外,由于物联网设备通常配置更低的计算资源,所以比一般的计算机更加脆弱,更容易遭受大规模的网络攻击。而设备识别是检测与预防这些安全问题的一个重要手段。近年来,有关物联网设备识别系统的研究不断被提出,它们通常基于机器学习的方法从网络流量中提取特征并选择一部分特征进行分类工作,然而在这个过程中,特征提取和特征选择往往是许多研究的短板和难点,又因为网络流量特征的高维度特点,因此,开发一种用于设备识别的特征提取和特征选择方法,可以有效克服上述技术中的缺陷,更有利于物联网设备识别研究的发展。


技术实现要素:

3.本发明设计开发了一种基于改进蜜獾算法的物联网设备识别特征提取与选择方法,能够从真实物联网流量环境中提取出特征进行选择分类,能够有效降低特征子集的维数,提高物联网设备分类效率,减少分类器的计算开销,减少运行时间。
4.本发明提供的技术方案为:
5.一种基于改进蜜獾算法的物联网设备识别特征提取与选择方法,包括:
6.步骤一、从物联网环境网关中捕获流量数据,提取物联网流量特征数据;
7.步骤二、对提取到的特征数据进行标准化预处理;
8.步骤三、构建多目标联合特征选择的目标函数,利用目标函数评价特征子集;
9.步骤四、通过改进的蜜獾算法求解特征子集,输出最优特征子集。
10.优选的是,所述步骤二中,所述特征数据进行标准化公式为:
[0011][0012]
其中,y
i,j
为第i条数据的第j个特征值,y
max
为第j个特征的最大值,y
min
为第j个特征的最小值。
[0013]
优选的是,所述步骤三中目标函数的公式为:
[0014][0015][0016]
其中,fitness为适应度,acc为当前模型在测试集上表现的准确率,num_feat为当
前搜索个体选择的特征数,max_feat为特征总数,tp为被分类器预测为正样本的样本数目,tn为被分类器预测为负样本事实上为负样本的样本数目,fn为被分类器预测为负样本事实上为正样本的样本数目。
[0017]
优选的是,所述步骤四包括:
[0018]
步骤1、通过sine混沌映射和种群过滤机制进行种群初始化;
[0019]
步骤2、引入一种子种群机制,将当前种群划为两个子种群,并分别选出每个子种群的最优解,分别定义为当前算法的最优解和次优解,以最优解和次优解分别引导两个种群进行位置更新;
[0020]
步骤3、对种群内个体的离散解空间的位置向量进行二进制映射;
[0021]
步骤4、合并子种群,输出最优特征组合;
[0022]
当迭代次数不满足终止条件时,则重复步骤2-4。
[0023]
优选的是,所述步骤1包括:
[0024]
使用sine混沌映射生成2倍个体数量的初始种群x
origin
,sine混沌映射公式包括:
[0025]hi+1
=μ
×
sin(π
×hi
);
[0026]
xi=lbi+hi×
(ubi+lbi);
[0027]
式中,hi为生成的第i个混沌数,μ为常数,为0.99,lbi为第i个解的下限,ubi为第i个解的上限,xi为生成第i个初始解;
[0028]
通过目标函数计算种群中个体的适应度并排序;
[0029]
取x
origin
的前一半个体组成种群x。
[0030]
优选的是,所述步骤2包括:
[0031]
更新气味强度因子i
[0032][0033]
s=(x
m-x
m+1
)2;
[0034]dm
=x
best-xm;
[0035]
式中,im为猎物对第m个蜜獾个体的气味强度,s为集中强度,dm为猎物与第m个蜜獾的距离;
[0036]
进行位置更新,
[0037][0038]
式中,x
new
为位置更新后的解,x
best
为目前为止该种群的最优解,f为方向向量,取-1或1,β为蜜獾获取食物的能力,数值为6,i为气味强度因子,di为猎物与第i个蜜獾个体的距离,α为平衡因子,r3、r4、r5分别是[0,1]上的随机数,levy(λ)为l
é
vy分布生成的随机步长,xa、xb分别为当前种群中两个随机的解。
[0039]
优选的是,所述生成服从l
é
vy分布的随机步长的方法包括:
[0040][0041]
式中,s为生成的随机步长,u~n(0,σ2),v~n(0,1),u为服从数学期望为0,方差为
σ2的正态分布,v为服从数学期望μ=0,方差σ=1的标准正态分布,η为常数,取1.5;
[0042][0043]
式中,γ()为伽玛函数,η为常数,取1.5。
[0044]
优选的是,所述步骤3包括:
[0045]
对种群内个体的离散解空间的位置向量进行二进制映射,映射函数为:
[0046][0047]
式中,x
binary
为二进制化后的解,x为连续空间上的解,thres为阈值,取0.5。
[0048]
本发明所述的有益效果:
[0049]
本发明提出的一种物联网设备识别的特征提取和特征分类方法,能够从真实物联网流量环境中提取出特征进行选择分类,不必依靠过去现有的数据集,提取出的数据集能达到95%的分类准确率。所述的用于物联网设备识别特征选择的改进蜜獾算法性能超过原算法,并且优于其他同类算法,准确率及适应度值均有所提高,能够有效降低特征子集的维数,减少分类器的计算开销,减少运行时间,在物联网设备识别领域有着广泛的应用前景。
附图说明
[0050]
图1为本发明所述的基于改进蜜獾算法的物联网设备识别特征提取与选择方法流程图。
[0051]
图2为本发明所述的改进二进制蜜獾算法求解最优特征子集的流程图。
具体实施方式
[0052]
下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
[0053]
如图1-2所示,本发明提供一种基于改进蜜獾算法的物联网设备识别特征提取与选择方法,包括:
[0054]
步骤一、从物联网环境网关中捕获流量数据,提取物联网流量特征数据;
[0055]
使用网络封包工具wireshark从物联网环境的网关中捕获pcap或pcapng数据文件;
[0056]
用python语言的scapy模块解析每个数据包的协议报头、数据包等信息,所包含的协议包括ethernet、llc、eapol、ip、icmp、tcp、udp、bootp、dns、ntp、tls、ssl,除此之外还包括packet_size、payload_bytes、protocols流量特征,总共得到111维特征数据;
[0057]
步骤二、对提取到的特征数据进行标准化预处理;
[0058]
将得到的数据进行数值化、去重、缺失值填充的数据规范化操作,并进行数据标准化预处理,所用到的数据标准化公式如下:
[0059][0060]
其中,y
i,j
为第i条数据的第j个特征值,y
max
为第j个特征的最大值,y
min
为第j个特征的最小值;
[0061]
步骤三、构建多目标联合特征选择的目标函数,利用目标函数评价特征子集;
[0062]
目标函数的公式为:
[0063][0064][0065]
其中,fitness为适应度,acc为当前模型在测试集上表现的准确率,num_feat为当前搜索个体选择的特征数,max_feat为特征总数,tp为被分类器预测为正样本的样本数目,tn为被分类器预测为负样本事实上为负样本的样本数目,fn为被分类器预测为负样本事实上为正样本的样本数目。
[0066]
步骤四、通过改进的蜜獾算法求解特征子集,输出最优特征子集,包括:
[0067]
步骤1、使用sine混沌映射初始化种群,并使用种群过滤机制得到前一半较优的解,sine混沌映射及种群过滤机制包括:
[0068]
使用sine混沌映射生成2倍个体数量的初始种群x
origin
,sine混沌映射公式包括:
[0069]hi+1
=μ
×
sin(π
×hi
);
[0070]
xi=lbi+hi×
(ubi+lbi);
[0071]
式中,hi为生成的第i个混沌数,μ为常数,为0.99,lbi为第i个解的下限,,ubi为第i个解的上限,xi为生成第i个初始解;
[0072]
通过目标函数计算种群中个体的适应度并排序;
[0073]
取x
origin
的前一半个体组成种群x。
[0074]
更新平衡因子α,公式如下:
[0075][0076]
式中,t
max
为最大迭代次数,t为当前迭代次数;
[0077]
步骤2、引入一种子种群机制,将当前种群划为两个子种群,并分别选出每个子种群的最优解,分别定义为当前算法的最优解和次优解,以最优解和次优解分别引导两个种群进行位置更新,具体过程包括:
[0078]
利用目标函数计算种群中个体的适应度值并排序;
[0079]
将排序后的种群按照奇、偶索引划分为两个子种群;
[0080]
每个子种群中适应值最好的值分别为对应算法的最优解、次优解;
[0081]
更新气味强度因子i
[0082][0083]
s=(x
m-x
m+1
)2;
[0084]dm
=x
best-xm;
[0085]
式中,im为猎物对第m个蜜獾个体的气味强度,s为集中强度,dm为猎物与第m个蜜獾的距离;
[0086]
对两个种群使用下式分别进行位置更新,
[0087][0088]
式中,x
new
为位置更新后的解,x
best
为目前为止该种群的最优解,f为方向向量,取-1或1,β为蜜獾获取食物的能力,数值为6,i为气味强度因子,di为猎物与第i个蜜獾个体的距离,α为平衡因子,r3、r4、r5分别是[0,1]上的随机数,levy(λ)为l
é
vy分布生成的随机步长,xa、xb分别为当前种群中两个随机的解。
[0089]
在公式x
new
=x
best
+levy(λ)
×
α
×
(levy(λ)
×
x
a-xb)中引入l
é
vy飞行,增强局部寻优能力,生成服从l
é
vy分布的随机步长的方法,包括:
[0090][0091]
式中,s为生成的随机步长,u~n(0,σ2),v~n(0,1),u为服从数学期望为0,方差为σ2的正态分布,v为服从数学期望μ=0,方差σ=1的标准正态分布,η为常数,取1.5;
[0092][0093]
式中,γ()为伽玛函数,η为常数,取1.5。
[0094]
步骤3、对种群内个体的离散空间的位置向量进行二进制映射,映射函数如下:
[0095][0096]
式中,x
binary
为二进制化后的解,x为连续空间上的解,thres为阈值,取0.5。
[0097]
步骤4、合并当前两个子种群为一个种群,并得到当前算法的最优解
[0098]
判断是否满足迭代终止条件,当不满足时,重复步骤2-4;
[0099]
输出最优特征子集。
[0100]
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1