一种基于物联网的高精度异常检测方法与流程

文档序号:23723563发布日期:2021-01-26 14:13阅读:178来源:国知局
一种基于物联网的高精度异常检测方法与流程

[0001]
本发明属于物联网异常检测技术领域,具体涉及一种基于卷积神经网络的基于物联网的高精度异常检测方法。


背景技术:

[0002]
目前物联网主要用于工业领域,同时也作为其他行业的新型动力,如智慧城市、智慧家庭等,为海量的信息资源、服务资源、应用资源提供开放共享化平台。通过物联网平台,所有用户都可以和权限范围以内的设备进行互动,物联网资源得到广泛利用。全球物联网的规模不断扩大,从2008年的500亿美元上升至2018年的近1510亿美元。物联网技术在各行业渗透速率不断加速,在生成新的技术的同时也在促进者新的业务变革,尤其针对企业数字化转型的作用越来越明显,例如在物联网赋能下,共享经济催生了共享单车、共享充电宝、共享按摩椅等中低价值资产领域。
[0003]
物联网作为网络信息时代的典型代表,被中国企业越来越广泛地应用,在实现“智慧地球”中起着重要作用,促进智能控制快速进入发展阶段。但在物联网推动行业发展方便民众生活的同时,平台的安全测评方面尚不成熟,物联网攻击已成为今年三大热点安全话题之一。cncert检测发现利用僵尸网络发起的ddos攻击在2018年初呈增长趋势,且大部分肉鸡来源于境外,主要针对目标是我国的金融、教育、文化体育等行业。2016年10月21日,美国twitter、netflix、纽约时报和paypal等公司的服务服务器遭到大规模分布式拒绝服务攻击。服务器的弱密码、端口漏洞、后门植入等同样对整个物联网平台存在着安全威胁。2018年8月,ibm研究团队发现,libelium、echelon和battelle三种智慧城市主要系统中存在多达17个安全漏洞,包括默认密码、可绕过身份验证、数据隐码等等,攻击者利用这些漏洞能够控制报警系统、篡改传感器数据,轻而易举控制整个城市交通。
[0004]
随着物联网系统分布式和应用程序的复杂程度不断提高,相应的会受到更多漏洞的攻击,因此异常检测变得更具挑战性。简单的模式匹配依据特征匹配,鉴定方式缺乏灵活性,遇到相似日志即判定为异常,增加了系统健康状态的误报率。攻击方式层出不穷,仅依靠现有的模板库只能检测到现有的攻击,对于新型攻击则无法识别,导致异常被归为正常事件而出现错判。异常检测系统使平台处于动态保护中,以提升物联网平台的安全性。其中,海量日志分析是异常检测与研判的主要手段。其异常分析数据主要来源于主机以及应用程序,用于记录平台状态和各个关键点的重要事件,帮助调试性能问题和失败原因,是理解系统状态的宝贵资源。日志记录主动运行过程当中发生的值得注意的事件,因此他们是在线监控和异常检测极佳信息来源。但是物联网日志海量非结构化,直接从原始日志分析事件无疑有很大难度。


技术实现要素:

[0005]
本发明的目的在于提供克服现有系统中,出具处理时间过长,无法有效对海量数据进行异常检测,数据提取后分析失真率较高等问题的一种基于物联网的高精度异常检测
方法。
[0006]
本发明的目的是这样实现的,一种基于物联网的高精度异常检测方法包括如下步骤:
[0007]
(1)输入待检测的物联网数据,将数据分成测试数据集和训练数据集;
[0008]
(2)利用独热编码数字化处理待检测的物联网中的特征;
[0009]
(3)对待检测的物联网数据进行标准化处理;
[0010]
(4)建立卷积神经网络模型;
[0011]
(5)通过嵌入层将经过独热编码数字化处理的稀疏向量压缩为密集向量;
[0012]
(6)将训练数据集输入到卷积神经网络模型中进行训练;
[0013]
(7)将测试数据集输入到判定合格的卷积神经网络模型中,得到检测数据结果。
[0014]
所述的对待检测的物联网数据进行标准化处理包括:由于检测的物联网数据中的特征值存在明显区别,通过卷积神经网络模型选取高于阈值ω的特征,删除低于阈值ω的数字指标,对物联网数据进行离差标准化线性变换,使离差标准化线性变换后的物联网数据落入[0,1]区间内,物联网数据的线性关系不变,其公式如下:
[0015][0016]
其中,是离差标准化线性前的向量;是离差标准化线性变换后的向量。
[0017]
建立卷积神经网络模型包括:所述的卷积神经网络模型包含1个嵌入层、5个全连接层和3个1维卷积层,其中嵌入层是物联网前馈型神经网络,对于嵌入层的每个神经单元有一个信号向量集合t,嵌入层中节点i权重和偏移为α
i
和β
i
,第i个神经元的输出p
i
如下:
[0018][0019]
其中,act为激活函数;所述的嵌入层为:是转换之后的向量,输入节点的数量是ni,输出节点的数量mi,则存在一个mi
×
ni维的矩阵和一个mi维向量满足以下公式:
[0020][0021]
所述的独热编码数字化模型如下:
[0022][0023]
其中,代表第r层卷积核函数;表示卷积运算;为卷积神经网络的第r层输入向量;是第r层的偏差向量;act为激活函数。
[0024]
所述的将训练数据集输入到卷积神经网络模型中进行训练包括:将物联网数据分为:tp,tn,fp和fn,其中t代表分类结果正确、f代表分类结果错误,p代表模型预测结果中的
正例和n代表模型预测结果中的负例;
[0025]
采用错误报警率fa、准确率a和检测率d评估卷积神经网络模型;
[0026]
a为正确的分类编号在分类结果中占总样本的比例;
[0027][0028]
d表示网络正确探测异常的概率;
[0029][0030]
fa代表卷积神经网络模型将正常数据判定为异常的概率;
[0031][0032]
持续训练指导当a≥96%,d≥97%,fa≤0.5%时,判定卷积神经网络模型合格,停止训练。
[0033]
所述的步骤(7)包括:对于测试数据集中每一项数据经过卷积神经网络模型计算后,得到长度为5的向量,从1到5位分别为正常记载的可能性、拒绝数据异常化的可能性、篡改数据的可能性、来自远程节点的非法访问的可能性、普通节点对超级节点特权的非法访问的可能性。
[0034]
本发明的有益效果在于:
[0035]
本发明设计了一种卷积神经网络的基于物联网的高精度异常检测方法,采用独热编码数字化以及离差标准化线性变换的方式,将物联网的数据特征进行预处理,使得卷积神经网络模型可以更有效的标识物联网数据集的特征,从而减少物联网数据的失真率;通过嵌入层将独热编码数字化矢量压缩为密集矢量,减少每次卷积神经网络模型的训练时间;通过离差标准化线性变换对原始的物联网数据进行线性变换,使物联网数据在处理过程中仍然保持原始数据的线性关系特性,从而提高卷积神经网络模型在检测异常过程中的精度。本发明的异常检测准确率更高,对于模型训练的时间更短,预测精度更高,可以广泛应用于物联网异常检测等方面。
附图说明
[0036]
图1是一种基于物联网的高精度异常检测方法的流程图。
具体实施方式
[0037]
下面结合附图对本发明做进一步描述。
[0038]
本发明设计了一种基于卷积神经网络的基于物联网的高精度异常检测方法,其主要原理是利用嵌入式神经网络模型去压缩稀疏特征,最终通过卷积神经网络把数据拟合。其主要用途是在大规模数据的情况下,利用一个嵌入深度学习模型的系统去改善物联网异常检测的成功率,神经网络模型的学习训练时间,最终得到一个长度为5的向量,由此判断数据是否异常。该发明的主要结构有一个嵌入层用来进行压缩稀疏特征,5个全连接层对提纯后的特征进行整合,3个一维卷积层进行卷积运算,,获取物联网数据特征具有的代表含
义,最终进行数据分类。本发明的异常检测准确率更高,神经网络模型训练时间更短,预测精度更高,可以更广泛应用于物联网的网络异常检测等方面。
[0039]
本发明涉及了物联网异常检测领域,通过使用基于深度学习的卷积神经网络模型来对异常进行检测,利用独热编码数字化压缩稀疏特征,提高检测精度。本发明主要思路包括如下几点:
[0040]
(1)数据预处理:特征数字化与数据标准化。
[0041]
(2)建立模型:模型主要包含一个嵌入层,4个1维卷积层和4个全连接层。
[0042]
(3)训练模型,把学习率设定为0.01,0.001和0.0001,通过卷积运算,分别对模型进行训练。
[0043]
(4)将模型训练结果与其余对比模型结果进行比较。
[0044]
(5)将本系统用于nsl-kdd数据集,得出其中异常数据的结果。该发明主要包括以下步骤:
[0045]
(1)输入待检测的物联网数据,将数据分成测试数据集和训练数据集;
[0046]
(2)利用独热编码数字化处理待检测的物联网中的特征;
[0047]
(3)对待检测的物联网数据进行标准化处理;
[0048]
由于检测的物联网数据中的特征值存在明显区别,通过卷积神经网络模型选取高于阈值ω的特征,删除低于阈值ω的数字指标,对物联网数据进行离差标准化线性变换,使离差标准化线性变换后的物联网数据落入[0,1]区间内,物联网数据的线性关系不变,其公式如下:
[0049][0050]
其中,是离差标准化线性前的向量;是离差标准化线性变换后的向量;
[0051]
(4)建立卷积神经网络模型;
[0052]
所述的卷积神经网络模型包含1个嵌入层、5个全连接层和3个1维卷积层,其中嵌入层是物联网前馈型神经网络,对于嵌入层的每个神经单元有一个信号向量集合t,嵌入层中节点i权重和偏移为α
i
和β
i
,第i个神经元的输出p
i
如下:
[0053][0054]
其中,act为激活函数;所述的嵌入层为:是转换之后的向量,输入节点的数量是ni,输出节点的数量mi,则存在一个mi
×
ni维的矩阵和一个mi维向量满足以下公式:
[0055][0056]
(5)通过嵌入层将经过独热编码数字化处理的稀疏向量压缩为密集向量;卷积神经网络模型如下:
[0057][0058]
其中,代表第r层卷积核函数;表示卷积运算;为卷积神经网络的第r层输入向量;是第r层的偏差向量;act为激活函数;
[0059]
步骤6:将训练数据集输入到卷积神经网络模型中进行训练;
[0060]
将物联网数据分为:tp,tn,fp和fn,其中t代表分类结果正确、f代表分类结果错误,p代表模型预测结果中的正例和n代表模型预测结果中的负例;
[0061]
采用错误报警率far、准确率ac和检测率dr评估卷积神经网络模型;
[0062]
a为正确的分类编号在分类结果中占总样本的比例;
[0063][0064]
d表示网络正确探测异常的概率;
[0065][0066]
fa代表卷积神经网络模型将正常数据判定为异常的概率;
[0067][0068]
持续训练指导当a≥96%,d≥97%,fa≤0.5%时,判定卷积神经网络模型合格,停止训练;
[0069]
(7)将测试数据集输入到判定合格的卷积神经网络模型中,得到检测数据结果;对于测试数据集中每一项数据经过卷积神经网络模型计算后,得到长度为5的向量,从1到5位分别为正常记载的可能性、拒绝数据异常化的可能性、篡改数据的可能性、来自远程节点的非法访问的可能性、普通节点对超级节点特权的非法访问的可能性。
[0070]
本发明优点包括:
[0071]
1.减少数据失真率:采用独热编码以及离差标准化的技术,将数据特征进行预处理,使得深度学习模型可以更有效的识别数据集的特征,从而减少数据的失真率。
[0072]
2.减少模型的训练时间:本发明通过嵌入层将独热编码的稀疏矢量压缩为密集矢量,减少每次模型的训练时间。
[0073]
3.在数据规模较大的情况下提高异常检测精度:通过离差标准化来对原始数据进行线性变换,使得数据在变幻之后仍然保持原有的线性关系,这样可以提高模型在异常检测之中的精度。
[0074]
例如,最终结果为(0.8,0.04,0.06,0.02,0.08),由此结果我们可以判定,此条数据有80%的可能是正常记载的可能性,有4%可能是拒绝数据异常化的可能性,6%可能是篡改数据的可能性。2%可能是来自远程节点的非法访问的可能性,8%可能是普通节点对超级节点特权的非法访问的可能性。由此,我们可以判定该条数据是正常数据。
[0075]
最后我们再通过在训练过程中不断调整模型参数,使系统的性能更好。在实验过程中,我们利用混淆矩阵来评估系统在异常检测中的性能,数据集中的所有数据必须分为
以下四类:
[0076]
tp,tn,fp和fn,其中t代表分类结果正确、f代表分类结果错误,p代表模型预测结果中的正例和n代表模型预测结果中的负例;
[0077]
,例如,tp表示异常数据在实际条件下发生,并且被模型检测到,此外,以下三个指标用于评估系统中的模型的功能:准确率(a),检测率(d)和错误报警率(fa)。其计算公式如下:
[0078]
(1)a代表正确的分类编号在分类结果中占总样本的比例。
[0079][0080]
(2)d表示模型在异常出现时正确探测的概率
[0081][0082]
(3)fa代表模型将正常数据判断为异常的概率
[0083][0084]
具体实验环境如下:
[0085]
intel(r)core(tm)i7-7700hq 2.80ghz
[0086]
gpu:nvidia geforce gtx1060
[0087]
ram:16gb
[0088]
为了评估系统的识别异常数据的能力,选择nsl-kdd数据集来训练和测试我们的系统,这个数据集包含136084个记录,对于每条记录,都有44个特征和1个标签:其中8个是符号特征,而37个是连续特征。当学习率为0.0001时,该系统在训练过程中准确率波动较大,当学习率为0.001时,该系统更加稳定,当我们将学习率设置为0.01时,该系统表现最好,因为,我们认为学习率的最佳值为0.01。
[0089]
系统在准确定和误报率方面比传统基于机器学习的系统表现更好,由结果表明,传统基于机器学习的系统在数据量较大时,难以保证识别的准确性,但基于深度学习的系统则具有良好的性能,基于cnn-ids的系统使用数据降维来显著降低数据预处理中的误报率,但检测率略微逊于本发明的方法,此外,基于gan和cnn-ids的系统会造成一定程度的数据失真,因此其准确定和检测率比我们的系统稍差。基于lstm-rnn的方法具有比本系统更高的检测率,但是在误报率方面表现要优于上述系统。综上所述,本发明的系统在检测数据异常的准确率上,要优于其他检测系统,可以达到98.03%的准确率,而检测系统在检测数据异常时的误报率也要低于其他系统,该误报率只有0.54%。所以,本发明的系统在异常检测方面要优于其他系统。
[0090]
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1