本技术属于计算机,具体涉及一种扫描检测方法、装置、电子设备及可读存储介质。
背景技术:
1、当出现web扫描时,通常会出现大量的404、403等异常状态码,相关的技术中一般是通过异常状态码来确定是否出现了web扫描。但由于只统计了异常状态码来确定是否出现web扫描,因此检测的样本的状态码特征并不是特别完整,因此可能会对判断是否为web扫描存在一定的负面影响。
技术实现思路
1、鉴于上述问题,本技术提出一种扫描检测方法、装置、电子设备及存储介质,以实现改善上述问题。
2、第一方面,本技术实施例提供了一种扫描检测的方法,所述方法包括:获取待识别行为对应的日志数据,所述日志数据包括状态码字段数据;将所述日志数据输入到预先训练好的状态码识别模型中的第一特征提取模块,获取所述第一特征提取模块输出的所述日志数据对应的状态码特征向量,其中,所述状态码特征向量基于对所述状态码字段数据进行分组得到;将所述状态码特征向量输入到所述状态码识别模型的第一分类模块中,获取所述第一分类模块输出的所述待识别行为对应的第一分类概率;基于所述第一分类概率,确定所述待识别行为的扫描类别。
3、进一步的,所述将所述日志数据输入到预先训练好的状态码识别模型中的特征提取模块,获取所述第一特征提取模块输出的所述日志数据对应的状态码特征向量,包括:将所述状态码字段数据输入到所述第一特征提取模块,基于状态码类别,通过所述第一特征提取模块对所述状态码字段数据进行分组,以得到多个状态码组;通过所述第一特征提取模块确定所述多个状态码组各自对应的比例,获取所述第一特征提取模块基于所述多个状态码组各自对应的比例输出的所述日志数据对应的状态码特征向量;获取所述第一特征提取模块基于所述状态码组比例输出的所述状态码特征向量。通过上述方法,根据状态码类别对状态码字段数据进行分组,得到多个状态码组,并根据多个状态码组各自对应的比例确定状态码特征向量,从而考虑到了日志数据中所有的状态码包括的信息,使得模型对待识别行为的检测更加准确。
4、进一步的,所述获取所述第一特征提取模块基于所述状态码组比例输出的所述状态码特征向量,包括:基于所述多个状态码组各自对应的比例,通过所述第一特征提取模块确定第一维度信息和第二维度信息;获取所述第一特征提取模块基于所述状态码比例、所述第一维度信息以及所述第二维度信息输出的所述状态码特征向量。通过上述方法,在确定状态码特征向量时,除了根据状态码组各自对应的比例确定,同时添加了第一维度信息以及第二维度信息,从而使得状态码特征向量中的信息更加丰富,提高了待识别行为的识别准确性。
5、进一步的,所述基于所述第一分类概率,确定所述待识别行为的扫描类别,包括:若所述第一分类概率大于预设概率阈值,确定所述待识别行为的扫描类别为web扫描;或者,若所述第一分类概率小于或等于所述预设概率阈值,确定所述待识别行为的扫描类别为非web扫描。
6、进一步的,所述日志数据还包括文本字段数据;所述方法还包括:将所述文本字段数据输入到预先训练好的文本识别模型中的第二特征提取模块,获取所述第二特征提取模块输出的所述文本字段数据对应的文本特征向量;将所述文本特征向量输入到所述文本识别模型的第二分类模块中,获取所述第二分类模块输出的所述待识别行为对应的第二分类概率;基于所述第二分类概率,确定所述待识别行为的扫描类别。
7、进一步的,所述将所述文本字段数据输入到预先训练好的文本识别模型中的第二特征提取模块,获取所述第二特征提取模块输出的所述文本字段数据对应的文本特征向量,包括:将所述文本字段数据输入到所述第二特征提取模块中,通过所述第二特征提取模块对所述文本字段数据进行切分,以得到多个词;基于预设词典,通过所述第二特征提取模块确定所述多个词各自对应的频次,获取所述第二特征提取模块基于所述多个词各自对应的频次输出的所述文本字段数据对应的文本特征向量。通过上述方法,文本识别模型通过对文本字段数据切分得到的多个词与预设词典进行比较,从而得到待识别行为对应的分类概率,根据分类概率确定待识别行为的扫描类别,从而提高待识别行为的识别准确性。
8、进一步的,所述日志数据还包括时间戳字段数据;所述方法还包括:将所述时间戳字段数据输入到预先训练好的时间戳识别模型中的第三特征提取模块,获取所述第三特征提取模块输出的所述时间戳字段数据对应的频率特征向量;将所述频率特征向量输入到所述时间戳识别模型的第三分类模块中,获取所述第三分类模块输出的所述待识别行为对应的第三分类概率;基于所述第三分类概率,确定所述待识别行为对应的扫描类别。
9、进一步的,所述将所述时间戳字段数据输入到预先训练好的时间戳识别模型中的第三特征提取模块,获取所述第三特征提取模块输出的所述时间戳字段数据对应的频率特征向量,包括:将所述时间戳字段数据输入到所述第三特征提取模块中,通过所述第三特征提取模块确定所述时间戳字段数据对应的多个访问事件以及所述多个访问事件各自对应的发生次数;获取所述第三特征提取模块基于所述多个访问事件以及所述多个访问事件各自对应的发生次数输出的所述时间戳字段数据对应的频率特征向量。通过上述方法,根据时间戳字段数据确定多个访问事件以及多个访问事件各自对应的发生次数,时间戳识别模型根据多个访问事件以及多个访问事件各自对应的发生次数确定待识别行为对应的分类概率,从而根据分类概率确定待识别行为的扫描类别,从而提高了待识别行为的识别准确性。
10、进一步的,所述获取待识别行为对应的日志数据,包括:获取待识别行为对应的日志数据,所述日志数据包括状态码字段数据、文本字段数据以及时间戳字段数据;所述将所述状态码特征向量输入到所述状态码识别模型的第一分类模块中,获取所述第一分类模块输出的所述待识别行为对应的第一分类概率之后还包括:将所述文本字段数据输入到文本识别模型中的第二特征提取模块,获取所述第二特征提取模块输出的文本特征向量;将所述时间戳字段数据输入到时间戳识别模型中的第三特征提取模块,获取所述第三特征提取模块输出的频率特征向量;将所述文本特征向量输入到所述文本识别模型中的第二分类模块,获取所述第二分类模块输出的所述待识别行为对应的第二分类概率;将所述频率特征向量输入到所述时间戳识别模型中的第三分类模块,获取所述第三分类模块输出的所述待识别行为对应的第三分类概率;所述基于所述第一分类概率,确定所述待识别行为的扫描类别,包括:基于所述第一分类概率、所述第二分类概率以及所述第三分类概率,确定所述待识别行为的扫描类别。通过上述方法,通过对第一分类概率、第二分类概率以及第三分类概率综合考虑,从而确定目标分类概率,提高了待识别行为的识别准确性。
11、进一步的,所述获取待识别行为对应的日志数据,所述日志数据包括状态码字段数据之前还包括:获取训练数据集,所述训练数据集包括正样本状态码以及负样本状态码,所述正样本状态码为目标对象进行web扫描时产生的状态码,所述负样本状态码为目标对象进行非web扫描时产生的状态码;将所述正样本状态码输入到待训练模型中,得到所述正样本状态码对应的预测概率;将所述负样本状态码输入到待训练模型中,得到所述负样本状态码对应的预测概率;基于预设损失函数、所述正样本状态码对应的预测概率,以及所述负样本状态码对应的预测概率,得到损失函数值;根据所述损失函数值对所述待训练模型进行迭代训练,直至满足训练结束条件,得到所述状态码模型。
12、第二方面,本技术实施例提供了一种扫描检测装置,所述装置包括:日志数据获取单元、状态码特征向量获取单元、第一分类概率获取单元以及扫描类别确定单元。日志数据获取单元,用于获取待识别行为对应的日志数据,所述日志数据包括状态码字段数据;状态码特征向量获取单元,用于将所述日志数据输入到预先训练好的状态码识别模型中的第一特征提取模块,获取所述第一特征提取模块输出的所述日志数据对应的状态码特征向量,其中,所述状态码特征向量基于对所述状态码字段数据进行分组得到;第一分类概率获取单元,用于将所述状态码特征向量输入到所述状态码识别模型的第一分类模块中,获取所述第一分类模块输出的所述待识别行为对应的第一分类概率;扫描类别确定单元,用于基于所述第一分类概率,确定所述待识别行为的扫描类别。
13、第三方面,本技术实施例提供了一种电子设备,包括一个或多个处理器以及存储器;一个或多个程序,其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行上述的方法。
14、第四方面,本技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有程序代码,其中,在所述程序代码运行时执行上述的方法。
15、本技术实施例提供了一种扫描检测方法、装置、电子设备及存储介质。将日志数据中状态码字段数据输入状态码识别模型,由第一特征提取模块根据对状态码字段数据进行分组,并对分组后的状态码字段数据进行处理输出得到状态码特征向量,并将状态码特征向量输入到第一分类模块中,由第一分类模块输出得到对应的第一分类概率,从而确定待识别行为的扫描类别,提高了检测的准确率。