本技术涉及数据处理,具体而言,本技术涉及一种异常日志检测方法、装置、电子设备和可读存储介质。
背景技术:
1、现代网络系统在运行过程中会产生海量的日志数据,日志数据记录着系统运行期间的详细事件信息。日志文件在监控网络情况、检查硬件故障、保护软件安全等方面起着重要作用,被用作系统异常检测的主要数据源。
2、异常日志关键信息指仅在异常日志中出现的词或短语,对判断日志是否异常起着重要的作用。现有的异常日志关键信息提取的主流方法有tf-idf(term frequency-inverse document frequency,词频-逆文本频率指数)和专家经验构建关键词库两类。这两类方法均存在关键词错标漏标的问题,影响异常日志检测准确性。因此,亟需提供一种提高异常日志检测准确率的异常日志检测方案。
技术实现思路
1、本技术的目的旨在至少能解决上述的技术缺陷之一,本技术实施例所提供的技术方案如下:
2、第一方面,本技术实施例提供了一种异常日志检测方法,包括:
3、将待检测日志集中的待检测日志与第一正常日志集中的正常日志进行匹配,得到异常候选日志集和第二正常日志集;其中,异常候选日志集包括待检测日志集中匹配失败的日志,第二正常日志集包括第一正常日志集中的正常日志和待检测日志集中匹配成功的日志;
4、对异常候选日志集中每一异常候选日志进行分词处理得到对应的异常候选日志词集,对第二正常日志集中的每一正常日志进行分词处理得到对应的正常日志词集,并根据异常候选日志词集和正常日志词集的差集,确定关键词集;
5、将异常候选日志集中的异常候选日志与关键词集中的关键词进行匹配,确定异常日志。
6、在本技术的一种可选实施例中,根据异常候选日志词集和正常日志词集的差集,确定关键词集,具体包括:
7、过滤异常候选日志词集和正常日志词集的差集中的非目标语言词,确定目标语言差集;
8、获取目标语言差集中各词的词向量,并根据各词向量的空间分布密度对各词进行聚类处理,得到至少一个词聚类簇;
9、删除各词聚类簇中特定词对应的词聚类簇,根据剩余的词聚类簇获取关键词集。
10、在本技术的一种可选实施例中,将待检测日志集中的待检测日志与第一正常日志集中的正常日志进行匹配,具体包括:
11、分别对第一正常日志集中的日志和待检测日志集中的日志进行模板提取,得到对应的正常日志模板库和待检测日志模板库;
12、对于待检测日志模板库中每一待检测日志模板,将待检测日志模板与正常日志模板库比对,若正常日志模板库存在正常日志模板与待检测日志模板匹配,则待检测日志模板对应的日志匹配成功,若正常日志模板库不存在正常日志模板与待检测日志模板匹配,则待检测日志模板对应的日志匹配失败。
13、在本技术的一种可选实施例中,分别对第一正常日志集中的日志和待检测日志集中的日志进行模板提取,得到对应的正常日志模板库和待检测日志模板库,具体包括:
14、对于第一正常日志集和待检测日志集中的任一日志集,根据任一日志集的每一日志文本中各词的词频,对日志文本中各词进行预处理,预处理包括过滤处理和/或替换处理;
15、根据各预处理后的日志文本构建任一日志集对应的初始日志模板库,并对初始日志模板迭代执行以下操作,直至初始日志模板库中各日志文本对对应的相似度都小于对应的预设阈值,得到任一日志集对应的日志模板集:
16、获取初始日志模板库中各日志文本对对应的相似度;
17、将各日志文本对中对应的相似度不小于预设阈值的日志文本对进行合并,得到合并日志文本,并利用合并日志文本替换初始日志模板库中合并日志文本对应的文本对;
18、其中,不同日志文本对所包含的日志文本不同。
19、在本技术的一种可选实施例中,根据任一日志集的每一日志文本中各词的词频,对日志文本中各词进行预处理,具体包括:
20、删除日志文本中词频小于第一预设词频的词,并将日志文本中词频不小于第一预设词频且小于第二预设词频的词替换为预设字符;
21、其中,第一预设词频阈值小于第二词频阈值。
22、在本技术的一种可选实施例中,将异常候选日志集中的异常候选日志与关键词集中的关键词进行匹配,确定异常日志,具体包括:
23、对于异常候选日志集中每一异常候选日志,将异常候选日志与关键词集中的各关键词进行匹配,若异常候选日志中包含有关键词集中的任一词,则确定异常候选日志为异常日志。
24、在本技术的一种可选实施例中,在将异常候选日志集中的异常候选日志与关键词集中的关键词进行匹配,确定异常日志的步骤之后,还包括:
25、每间隔预设时间周期统计异常日志出现的频次;
26、将出现频次大于预设频次阈值且并未被运维人员处理的异常日志,划归为目标正常日志;
27、将目标正常日志对应的模板数据由异常日志模板库移至正常日志模板库中,并将目标正常日志在关键词集中对应的关键词移除;其中,异常日志模板库根据异常日志对应的模板建立。
28、第二方面,本技术实施例提供了一种异常日志检测装置,包括:
29、日志匹配分类模块,用于将待检测日志集中的待检测日志与第一正常日志集中的正常日志进行匹配,得到异常候选日志集和第二正常日志集;其中,异常候选日志集包括待检测日志集中匹配失败的日志,第二正常日志集包括第一正常日志集中的正常日志和待检测日志集中匹配成功的日志;
30、关键词集确定模块,用于对异常候选日志集中每一异常候选日志进行分词处理得到对应的异常候选日志词集,对第二正常日志集中的每一正常日志进行分词处理得到对应的正常日志词集,并根据异常候选日志词集和正常日志词集的差集,确定关键词集;
31、异常日志检测模块,用于将异常候选日志集中的异常候选日志与关键词集中的关键词进行匹配,确定异常日志。
32、在本技术的一种可选实施例中,关键词集确定模块具体用于:
33、过滤异常候选日志词集和正常日志词集的差集中的非目标语言词,确定目标语言差集;
34、获取目标语言差集中各词的词向量,并根据各词向量的空间分布密度对各词进行聚类处理,得到至少一个词聚类簇;
35、删除各词聚类簇中特定词对应的词聚类簇,根据剩余的词聚类簇获取关键词集。
36、在本技术的一种可选实施例中,日志匹配分类模块具体用于:
37、分别对第一正常日志集中的日志和待检测日志集中的日志进行模板提取,得到对应的正常日志模板库和待检测日志模板库;
38、对于待检测日志模板库中每一待检测日志模板,将待检测日志模板与正常日志模板库比对,若正常日志模板库存在正常日志模板与待检测日志模板匹配,则待检测日志模板对应的日志匹配成功,若正常日志模板库不存在正常日志模板与待检测日志模板匹配,则待检测日志模板对应的日志匹配失败。
39、在本技术的一种可选实施例中,日志匹配分类模块具体用于:
40、对于第一正常日志集和待检测日志集中的任一日志集,根据任一日志集的每一日志文本中各词的词频,对日志文本中各词进行预处理,预处理包括过滤处理和/或替换处理;
41、根据各预处理后的日志文本构建任一日志集对应的初始日志模板库,并对初始日志模板迭代执行以下操作,直至初始日志模板库中各日志文本对对应的相似度都小于对应的预设阈值,得到任一日志集对应的日志模板集:
42、获取初始日志模板库中各日志文本对对应的相似度;
43、将各日志文本对中对应的相似度不小于预设阈值的日志文本对进行合并,得到合并日志文本,并利用合并日志文本替换初始日志模板库中合并日志文本对应的文本对;
44、其中,不同日志文本对所包含的日志文本不同。
45、在本技术的一种可选实施例中,日志匹配分类模块具体用于:
46、删除日志文本中词频小于第一预设词频的词,并将日志文本中词频不小于第一预设词频且小于第二预设词频的词替换为预设字符;
47、其中,第一预设词频阈值小于第二词频阈值。
48、在本技术的一种可选实施例中,异常日志检测模块具体用于:
49、对于异常候选日志集中每一异常候选日志,将异常候选日志与关键词集中的各关键词进行匹配,若异常候选日志中包含有关键词集中的任一词,则确定异常候选日志为异常日志。
50、在本技术的一种可选实施例中,异常日志检测装置还包括数据迭代更新模块;数据迭代更新模块具体用于:
51、每间隔预设时间周期统计异常日志出现的频次;
52、将出现频次大于预设频次阈值且并未被运维人员处理的异常日志,划归为目标正常日志;
53、将目标正常日志对应的模板数据由异常日志模板库移至正常日志模板库中,并将目标正常日志在关键词集中对应的关键词移除;其中,异常日志模板库根据异常日志对应的模板建立。
54、第三方面,本技术实施例提供了一种电子设备,该电子设备包括存储器、处理器及存储在存储器上的计算机程序,处理器执行计算机程序以实现上述任一实施例所提供的异常日志检测方法的步骤。
55、第四方面,本技术实施例提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一实施例所提供的异常日志检测方法。
56、本技术实施例提供的技术方案带来的有益效果是:
57、通过对待检测日志集和正常日志集的比对,对异常候选日志和正常日志进行初步区分,进而降低后续异常日志检测时所需处理的数据复杂程度,有效提高检测的效率,并提高检测准确性。对异常候选日志和正常日志进行分词,分别确定异常候选日志词集和正常日志词集,并考虑关键信息在异常日志中的唯一性,计算异常候选日志词集和正常日志词集的差集,确定候选关键词集,解决现有技术关键词错标漏标的问题。根据异常候选日志和关键词集是否能够匹配,确定目标异常日志,能够有效提高异常日志检测的准确性。