本申请涉及数据挖掘,具体涉及一种日志解析方法、装置、电子设备及计算机程序产品。
背景技术:
1、虚拟化的网络和应用,会生成来自不同产品供应商的海量日志,这些日志包含了系统运作状态的重要信息。但由于日志数量的巨大和日志格式的多样化,给日志分析带来很大的困难。日志分析的首要任务是对海量的日志进行解析,准确高效的日志解析可以为后续的日志分析提供可靠的数据。
2、现有的日志解析技术主要包括基于规则的日志解析和基于启发法的日志解析。其中,基于规则的日志解析需要人工的规则定义,难以满足对海量日志的监控,从而难以保证海量日志的解析效率和准确度;基于启发法的日志解析技术在准确性和解析效率上有较大的提高,但是该技术的应用需要满足一定的假设,而通常不能保证每一个日志模板都会满足该假设,故该技术在应用上存在一定的局限性。
3、因此,如何提高日志解析的准确性,且同时能够实现日志解析的通用化,成为业界亟需解决的问题。
技术实现思路
1、针对现有技术存在的问题,本申请实施例提供一种日志解析方法、装置、电子设备及计算机程序产品。
2、第一方面,本申请实施例提供一种日志解析方法,包括:
3、对待解析日志进行聚类,并基于所述聚类的结果获取第一日志组集合;
4、确定所述待解析日志对应的反义词词义库,并基于所述反义词词义库,对所述第一日志组集合中的每一个日志组分别进行再次分组,获取第二日志组集合;
5、确定所述第二日志组集合中的每一个日志组分别对应的日志模板。
6、在一个实施例中,在所述对待解析日志进行聚类之前,所述方法还包括:
7、对所述待解析日志的动态内容字段进行清洗;
8、其中,所述动态内容字段包括以下任意一项或多项:
9、消息体、日志属性信息、动态参数、http地址、id信息、路径信息和数字信息。
10、在一个实施例中,所述对所述待解析日志的动态内容字段进行清洗,包括:
11、基于正则表达式,对所述待解析日志的动态内容字段进行清洗。
12、在一个实施例中,所述对待解析日志进行聚类,包括:
13、删除所述待解析日志中的重复内容,获取去重后的待解析日志;
14、对所述去重后的待解析日志进行聚类。
15、在一个实施例中,所述删除所述待解析日志中的重复内容,获取去重后的待解析日志,包括:
16、确定所述待解析日志中包括的相同的静态内容字段;
17、删除所述相同的静态内容字段中重复的静态内容字段,获取所述去重后的待解析日志。
18、在一个实施例中,所述对待解析日志进行聚类,包括:
19、基于层次聚类算法,对所述待解析日志进行聚类。
20、在一个实施例中,所述基于层次聚类算法,对所述待解析日志进行聚类,包括:
21、确定距离阈值,所述距离阈值用于表征日志相似度;
22、基于所述层次聚类算法、所述距离阈值和编辑距离算法,对所述待解析日志进行聚类。
23、第二方面,本申请实施例提供一种日志解析装置,包括:
24、第一获取模块,用于对待解析日志进行聚类,并基于所述聚类的结果获取第一日志组集合;
25、第二获取模块,用于确定所述待解析日志对应的反义词词义库,并基于所述反义词词义库,对所述第一日志组集合中的每一个日志组分别进行再次分组,获取第二日志组集合;
26、确定模块,用于确定所述第二日志组集合中的每一个日志组分别对应的日志模板。
27、第三方面,本申请实施例提供一种电子设备,包括处理器和存储有计算机程序的存储器,所述处理器执行所述程序时实现第一方面所述的日志解析方法。
28、第四方面,本申请实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现第一方面所述的日志解析方法。
29、本申请实施例提供的日志解析方法、装置、电子设备及计算机程序产品,通过对待解析日志进行聚类,把相似度高的日志聚合为同一个日志组,然后基于反义词词义库分别对每一个日志组再进行进一步的分组,不仅可以提高日志解析的准确性,而且可以广泛适用于各类云化电信网络系统日志,实现日志解析的通用化。
1.一种日志解析方法,其特征在于,包括:
2.根据权利要求1所述的日志解析方法,其特征在于,在所述对待解析日志进行聚类之前,所述方法还包括:
3.根据权利要求2所述的日志解析方法,其特征在于,所述对所述待解析日志的动态内容字段进行清洗,包括:
4.根据权利要求1-3任一项所述的日志解析方法,其特征在于,所述对待解析日志进行聚类,包括:
5.根据权利要求4所述的日志解析方法,其特征在于,所述删除所述待解析日志中的重复内容,获取去重后的待解析日志,包括:
6.根据权利要求1-3任一项或5所述的日志解析方法,其特征在于,所述对待解析日志进行聚类,包括:
7.根据权利要求6所述的日志解析方法,其特征在于,所述基于层次聚类算法,对所述待解析日志进行聚类,包括:
8.一种日志解析装置,其特征在于,包括:
9.一种电子设备,包括处理器和存储有计算机程序的存储器,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的日志解析方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述的日志解析方法。