本申请涉及大数据,尤其涉及一种基于半监督的自修正中心kmeans异常日志检索方法。
背景技术:
1、日志是计算机领域术语,应用平台在运作时都会产生日志;每行日志都记载着日期、时间、使用者及动作等相关操作的描述。应用平台在正常运行时产生的都是常规日志,当应用平台出现问题时,容易产生异常日志。这些异常日志对于预防分析应用平台潜在产生的问题有着重要的作用,便于发现新的问题类别,有利于形成针对此类问题的规避措施,利于应用平台的维护与治理。
2、现有技术中,异常日志的检索主要依靠聚类算法,使用文本聚类对日志进行聚类,找出不属于任何簇的日志样本作为异常日志。
3、但是,现有的这种聚类方式,不好精细的挑选出不属于任何簇的样本,而且也很难较准确的发现异常点,聚类效果差,导致异常日志检索准确性低。
技术实现思路
1、本申请提供一种基于半监督的自修正中心kmeans异常日志检索方法和装置,用以解决现有聚类算法进行异常日志检索准确性低的问题。
2、第一方面,本申请提供一种基于半监督的自修正中心kmeans异常日志检索方法,包括:
3、从日志样本集中选取出k个不同类别的日志样本,作为初始化指定的k个质心,k为正整数;
4、根据初始化指定的k个质心,将日志样本集中的日志样本划分为k个簇;
5、对每个簇的质心进行修正,得到每个簇的修正质心;
6、获取每个簇中每个日志样本与该簇的修正质心的余弦距离;
7、根据所述余弦距离,确定出每个簇中存在异常的日志样本。
8、第二方面,本申请提供一种基于半监督的自修正中心kmeans异常日志检索装置,包括:
9、质心指定模块,用于从日志样本集中选取出k个不同类别的日志样本,作为初始化指定的k个质心;
10、簇划分模块,用于根据初始化指定的k个质心,将日志样本集中的日志样本划分为k个簇;
11、质心修正模块,用于对每个簇的质心进行修正,得到每个簇的修正质心;
12、距离获取模块,用于获取每个簇中每个日志样本与该簇的修正质心的余弦距离;
13、异常样本确定模块,用于根据所述余弦距离,确定出每个簇中存在异常的日志样本。
14、第三方面,本申请提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;所述存储器存储计算机执行指令;所述处理器执行所述存储器存储的计算机执行指令,以实现如上述的方法。
15、第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上述的方法。
16、第五方面,本申请提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述的方法。
17、本申请提供的基于半监督的自修正中心kmeans异常日志检索方法和装置,通过预先选定k个不同类别的日志样本作为初始化指定的k个质心,通过对初始化指定的k个质心进行修正之后,通过余弦距离来度量日志样本与修正后的质心的远近,从而找到距离质心较远的日志样本,作为异常的日志样本,如此可以提高异常日志的检索准确性。
1.一种基于半监督的自修正中心kmeans异常日志检索方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述根据初始化指定的k个质心,将日志样本集中的日志样本划分为k个簇,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据每个日志样本与每个质心的余弦距离,将日志样本集中每个日志样本划分至不同的簇中,得到k个簇,包括:
4.根据权利要求1所述的方法,其特征在于,所述对每个簇的质心进行修正,得到每个簇的修正质心,包括:
5.根据权利要求4所述的方法,其特征在于,所述针对每个簇,确定该簇的质心的近邻样本集合,包括:
6.根据权利要求5所述的方法,其特征在于,所述在该簇中确定出每个目标日志样本的邻居样本集合,包括:
7.根据权利要求4或5所述的方法,其特征在于,所述根据该簇的质心的近邻样本集合,对该簇的质心进行修正,得到该簇的修正质心,包括:
8.根据权利要求1所述的方法,其特征在于,所述根据所述余弦距离,确定出每个簇中存在异常的日志样本,包括:
9.根据权利要求1所述的方法,其特征在于,所述从日志样本集中选取出k个不同类别的日志样本,包括:
10.一种基于半监督的自修正中心kmeans异常日志检索装置,其特征在于,包括:
11.一种电子设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至9任一项所述的方法。
13.一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现权利要求1-9中任一项所述的方法。