本发明属计算机网络安全,具体涉及一种基于机器学习的安全数据处理方法、介质及设备。
背景技术:
1、随着云计算、大数据、物联网等技术迅猛发展,数以亿计的联网设备以及网络应用产生的海量数据给网络空间的安全带来了巨大的挑战,网络威胁变得更加棘手、难以应付。面对挑战,传统的解决方案已经显得效率低下。
2、网络攻击手段层出不穷,攻击者为了达到目的使用各种网络攻击手段,常见的有跨站脚本(xss)、sql注入、模糊测试、零日攻击、目录遍历、ddos、中间人攻击、暴力破解、webshell、dns隧道攻击、网络钓鱼等等。然而不同的安全场景在系统中留下的记录也不断,例如在webshell检测安全场景中,其中webshell的恶意文件内容就是最关键的记录;在恶意软件检测安全场景中,恶意软件的api就是最关键的记录;在sql注入检测安全场景中,请求数据中的sql语句就是最关键的记录;在xss检测安全场景中,源码中的url就是最关键的记录。在现有技术中,每种安全场景都有各自相应的技术来检测对应的网络攻击,这表明每个安全场景问题是相互孤立的,同时构建各独立的检测技术需要巨大的成本。
3、随着机器学习的出现,每个安全场景问题互相孤立的问题得到了缓解,其强大的计算能力和自适应性使得其成为处理安全场景的有效方法。
技术实现思路
1、为了克服上述技术缺陷,本发明提供了一种基于机器学习的安全数据处理方法,针对不同安全场景的安全数据提供了一种通用的处理方案,使得处理后的安全数据形成统一的范式输入到算法模式中进行计算。
2、为了解决上述问题,本发明按以下技术方案予以实现的:
3、一种基于机器学习的安全数据处理方法,包括以下步骤:
4、描述各个安全场景的问题;
5、获取各个安全场景对应的安全数据;
6、对安全数据进行数据处理;
7、调用各个安全场景下的算法模型,将处理后的数据作为算法模型的输入;
8、输出算法结果,即为各个安全场景下的输出结果。
9、进一步的,步骤对安全数据进行数据处理,包括如下步骤:
10、初步清洗安全数据;
11、对安全数据文本进行分词;
12、安全数据特征化和向量化。
13、进一步的,步骤初步清洗安全数据,包括如下步骤:
14、处理安全数据缺失值:删除缺失率大于92%的变量,对空值进行定制填充,数据存在倾斜分布时采用中位数进行填补;
15、处理安全数据离群点:基于绝对离差中位数(mad)和3σ原则判断异常点的数量和影响;
16、处理安全数据噪声:对安全数据进行等频分箱,用每个箱的平均数替代箱中的所有数。
17、进一步的,步骤对安全数据文本进行分词,包括如下步骤:
18、根据安全数据对应的安全场景,采用单词粒度分词方法或字符粒度分词方法对安全数据文本进行分词。
19、进一步的,步骤安全数据特征化和向量化,包括如下步骤:
20、将分词后的安全数据转换为词序列,得到词序列索引;
21、获得word2vec预训练的矩阵;
22、使用全量数据建立任意大小的字典;
23、根据词序列索引和word2vec预训练的矩阵,获得深度学习模型,对安全数据文本进行词嵌入向量的映射。
24、进一步的,步骤获得word2vec预训练的矩阵,包括如下步骤:
25、输入层输入多个上下文单词的one-hot;
26、设最终获得的词向量的维度为n,输入层与隐藏层之间的权重矩阵w,维度为v*n;
27、上下文单词的one-hot(cv)与网络的输入权重矩阵w(vn)相乘,得到c个1*n的向量;
28、将c个1*n的向量进行求和,并求平均,得到隐藏层向量h,维度为1*n;
29、设隐藏层与输出层之间的权重矩阵w′,维度为n*v;
30、隐藏层向量h(1*n)与权重矩阵w′(n*v)相乘,得到1*v的向量u;
31、采用softmax函数对向量u进行处理,获得向量softmax(u);
32、将1*v的向量u与groud truth中的one-hot进行对比,获得最大化实际中心词出现的概率;
33、根据最大化实际中心词出现的概率,定义损失函数;
34、通过最小化损失函数,采用梯度下降算法更新w与w′;
35、迭代梯度下降算法直至收敛,完成训练,获得词向量w。
36、与现有技术相比,本发明具有以下有益效果:
37、本发明公开了一种基于机器学习的安全数据处理方法,可用于处理不同安全场景的安全数据,使得各种安全数据能够形成统一的范式输入到算法模型中,减少为每种安全场景开发独立数据处理技术的成本。
38、本发明还公开了一种计算机可读存储介质,其为计算机可读的存储介质,其上存储有计算机程序,所述计算机程序被执行时实现上述的方法。
39、本发明还公开了一种计算机设备,包括:
40、处理器;
41、用于存储所述处理器可执行指令的存储器;
42、其中,所述处理器被配置为执行所述指令,以实现上述的方法。
1.一种基于机器学习的安全数据处理方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的方法,其特征在于,步骤对安全数据进行数据处理,包括如下步骤:
3.根据权利要求2所述的方法,其特征在于,步骤初步清洗安全数据,包括如下步骤:
4.根据权利要求2所述的方法,其特征在于,步骤对安全数据文本进行分词,包括如下步骤:
5.根据权利要求2所述的方法,其特征在于,步骤安全数据特征化和向量化,包括如下步骤:
6.根据权利要求5所述的方法,其特征在于,步骤获得word2vec预训练的矩阵,包括如下步骤:
7.一种计算机可读存储介质,其特征在于,其为计算机可读的存储介质,其上存储有计算机程序,所述计算机程序被执行时实现如权利要求1-6中任一项所述的方法。
8.一种计算机设备,其特征在于,包括: