一种通用工业协议异常报文检测方法、系统、设备及介质与流程

文档序号:33732374发布日期:2023-04-06 04:33阅读:66来源:国知局
一种通用工业协议异常报文检测方法、系统、设备及介质与流程

本发明涉及信息安全,尤其涉及一种通用工业协议异常报文检测方法、系统、设备及介质。


背景技术:

1、大数据工业化时代使得工业控制设备暴露出越来越多的信息安全问题。固有的工业控制系统使用的工业通信协议由于设计时主要考虑时效性,不乏网络攻击者利用工业协议漏洞攻击工业控制设备,使工业控制系统存在巨大信息安全隐患。目前对于工业控制系统的安全防护相对缺乏,现有的工业控制系统(ics)中的工业协议报文的异常检测基本都依赖于各种工控协议的深度解析特征。目前电力工控系统协议众多,常见工控协议modbustcp、iec-60870-5-104、siemens-s7、opc-ua、ge-rstp由于不同报文类型的数据项、语义、指令的差异巨大,应用层报文数据解析难度较大。


技术实现思路

1、为了解决上述问题,本发明提出一种通用工业协议异常报文检测方法、系统、设备及介质,通过选用原始的报文数据进行训练,生成lightgbm模型,用于实时检测通过数据预处理的原始报文数据,从而判断该工控协议数据报文是否异常。

2、本发明采用的技术方案如下:

3、一种通用工业协议异常报文检测方法,包括:

4、数据预处理:对工控协议的原始流量数据报文进行处理并获得数字化的报文表征形式;

5、训练算法构建:基于多分类的识别方式对不同标签的报文正样本进行多分类模型训练,生成基于lightgbm的可更新的检测模型;

6、异常报文检测:利用top-k准则设置阈值,判断工控协议报文是否异常。

7、进一步地,所述数据预处理包括以下步骤:选取工控环境中的原始流量报文数据,将mac地址和ip地址匿名化,清洗去掉易混淆训练分类的部分字节,再转换成数字化的报文表征形式,最后归一化得到相同长度大小的特征向量。

8、进一步地,所述训练算法构建包括直方图构建、直方图优化和参数调节三个步骤,其中直方图构建包括:通过分箱的思想构建直方图,将连续的浮点特征向量值离散化成n个整数,并构造出一个宽度为n的直方图,然后将离散化后的值作为索引在直方图中遍历并累积统计量,一次遍历后就能够根据直方图的离散值寻找最优分割点。

9、进一步地,所述直方图优化包括:利用直方图做差加速,将父亲节点直方图减去兄弟节点直方图以得到叶子直方图。

10、进一步地,所述参数调节的内容包括:树的最大深度、提取特征的比率、每次迭代时用的数据比例、迭代次数和学习率。

11、进一步地,所述利用top-k准则设置阈值包括:将训练数据输入训练好的检测模型,得到输出的概率值,并利用top-k准则进行预测,计算出所有可能是正样本报文的前k个类型,如果报文向量满足rec=argmax(pr(p1,p2,…pn))[0:k],则判定该报文为正样本;式中rec是可接受的数据包正样本报文类型集合,argmax表示求各正样本报文类型概率排名前k的数据包类型,pr为数据包类型概率分布,p1,p2,…pn表示正样本报文的概率值序列。

12、进一步地,所述训练算法构建之后还包括在模型在线更新:选择已训练完成并保存好的检测模型,在线添加最新的工控协议报文数据,设置参数为当前加载的已训练好的检测模型进行继续训练。

13、一种通用工业协议异常报文检测系统,包括:

14、数据预处理模块,用于对工控协议的原始流量数据报文进行处理并获得数字化的报文表征形式;

15、训练算法构建模块,用于基于多分类的识别方式对不同标签的报文正样本进行多分类模型训练,生成基于lightgbm的可更新的检测模型;

16、异常报文检测模块,用于利用top-k准则设置阈值,判断工控协议报文是否异常。

17、一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述通用工业协议异常报文检测方法。

18、一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述通用工业协议异常报文检测方法。

19、本发明的有益效果在于:

20、(1)本发明摆脱了基于人工分析提取特征的依赖,直接采用原始流量样本数据,充分利用字节报文的表征信息,通过lightgbm的并行训练,高效快速得到检测模型,可有效检测出异常报文,此方案适用于所有工控协议的异常报文检测。

21、(2)本发明不依赖于工控协议深度解析以及人工分析各种类型工控协议的报文特征,而只基于原始流量报文数据进行异常检测,可以有效降低工控安全产品对深度协议解析的依赖,这适用于所有工控协议。

22、(3)本发明借助原始流量不同标签的正常报文样本训练生成的可在线更新的lightgbm模型,用多分类和top-k准则实现了异常工控协议报文的自动化检测,避免了工控环境中畸形报文的出现。

23、(4)本发明基于原始报文数据进行分析处理,避免了对深度协议解析的依赖以及受限于复杂的人工特征提取。

24、(5)本发明基于多分类的lightgbm算法进行训练和top-k准则筛选阈值范围从而发现异常报文。

25、(6)本发明通过多分类和top-k准则检测方式实现工控报文异常检测,具有计算速度快和内存占用低、可在线更新模型、可并行处理的优势(支持有特征并行和数据并行训练)。



技术特征:

1.一种通用工业协议异常报文检测方法,其特征在于,包括:

2.根据权利要求1所述的通用工业协议异常报文检测方法,其特征在于,所述数据预处理包括以下步骤:选取工控环境中的原始流量报文数据,将mac地址和ip地址匿名化,清洗去掉易混淆训练分类的部分字节,再转换成数字化的报文表征形式,最后归一化得到相同长度大小的特征向量。

3.根据权利要求1所述的通用工业协议异常报文检测方法,其特征在于,所述训练算法构建包括直方图构建、直方图优化和参数调节三个步骤,其中直方图构建包括:通过分箱的思想构建直方图,将连续的浮点特征向量值离散化成n个整数,并构造出一个宽度为n的直方图,然后将离散化后的值作为索引在直方图中遍历并累积统计量,一次遍历后就能够根据直方图的离散值寻找最优分割点。

4.根据权利要求3所述的通用工业协议异常报文检测方法,其特征在于,所述直方图优化包括:利用直方图做差加速,将父亲节点直方图减去兄弟节点直方图以得到叶子直方图。

5.根据权利要求3所述的通用工业协议异常报文检测方法,其特征在于,所述参数调节的内容包括:树的最大深度、提取特征的比率、每次迭代时用的数据比例、迭代次数和学习率。

6.根据权利要求1所述的通用工业协议异常报文检测方法,其特征在于,所述利用top-k准则设置阈值包括:将训练数据输入训练好的检测模型,得到输出的概率值,并利用top-k准则进行预测,计算出所有可能是正样本报文的前k个类型,如果报文向量满足rec=argmax(pr(p1,2,…pn))[0:k],则判定该报文为正样本;式中rec是可接受的数据包正样本报文类型集合,argmax表示求各正样本报文类型概率排名前k的数据包类型,pr为数据包类型概率分布,p1,p2,…pn表示正样本报文的概率值序列。

7.根据权利要求1所述的通用工业协议异常报文检测方法,其特征在于,所述训练算法构建之后还包括模型在线更新:选择已训练完成并保存好的检测模型,在线添加最新的工控协议报文数据,设置参数为当前加载的已训练好的检测模型进行继续训练。

8.一种通用工业协议异常报文检测系统,其特征在于,包括:

9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一项所述的方法。


技术总结
本发明公开了一种通用工业协议异常报文检测方法、系统、设备及介质,其中方法包括:数据预处理:对工控协议的原始流量数据报文进行处理并获得数字化的报文表征形式;训练算法构建:基于多分类的识别方式对不同标签的报文正样本进行多分类模型训练,生成基于LightGBM的可更新的检测模型;异常报文检测:利用Top‑K准则设置阈值,判断工控协议报文是否异常。本发明摆脱了基于人工分析提取特征的依赖,直接采用原始流量样本数据,充分利用字节报文的表征信息,通过lightgbm的并行训练,高效快速得到检测模型,可有效检测出异常报文,此方案适用于所有工控协议的异常报文检测。

技术研发人员:许珑于,徐砚,李立
受保护的技术使用者:中国电子科技网络信息安全有限公司
技术研发日:
技术公布日:2024/1/12
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1