本技术实施例涉及计算机,尤其涉及一种异常数据的检测方法及相关设备。
背景技术:
1、随着互联网技术的快速发展,网络数据的数据量持续爆发。如何在海量数据中快速找到异常数据点,对许多业务场景具有重要意义。例如,操作日志中的异常记录、异常的监控数据点检测、数据质量评估以及备份数据的有效性检测等场景。快速且精准的查找异常数据已经成为多个业务场景下数据检测的基本要求。
2、海量数据一般业务维度复杂并且数据记录数量大,对存算成本要求较高。现有的检测机制需要先将待检测数据和全量数据以某种维度切分,然后将待检测数据与全量数据逐一进行比对,根据对比结果发现异常数据。在该方案中,比对过程产生的中间数据需要全量缓存,同时逐条全量比对也严重浪费浪费存算资源。因此,如何在数据检测过程中节省存算资源,并且更快速有效的检测到异常数据成为亟需解决的问题。
技术实现思路
1、本技术实施例提供了一种异常数据的检测方法及相关设备,对预设时间内业务服务对应的采样数据进行压缩,以及对该业务服务对应的全量数据进行压缩,然后将压缩后的两项数据进行对比,以得到采样数据中的异常数据。
2、本技术实施例第一方面提供了一种异常数据的检测方法,包括:
3、服务器首先获取预设时间内某业务服务对应的采样数据,得到采样数据集。其中,该采样数据即为待进行异常检测的数据。然后服务器为了节约存算资源,就对该采样数据集整体进行压缩,得到第一压缩数据。对第一压缩数据进行异常检测从而得到原采样数据集中的异常数据。同时,服务器需要获取业务服务对应的全量数据,全量数据是指业务服务对应的正常数据所形成的正常数据集合。然后服务器对全量数据以同样的压缩方法进行压缩,得到第二压缩数据。最后,服务器将第一压缩数据和第二压缩数据进行对比,根据对比结果来找出采样数据集中的异常数据,完成数据检测。
4、上述实施例中,服务器对待检测的采样数据以及用于对比的全量数据均进行了压缩处理,这样就可以节约异常数据检测过程中的存算资源。同时,压缩后的数据数据量将会大大减小,这样将提高数据比对速度,从而能够快速有效的检测出异常数据,以提高数据检测的数据以及效率。
5、在一个可选的实施方式中,服务器获取预设时间内的采样数据的方法有多种。例如服务器可以在预设时间内周期性的采集业务服务对应的待检测数据,从而得到采样数据。又比如服务器可以在预设时间内监测业务服务的运行状态,一旦产生待检测数据,就将其作为采样数据。又比如服务器可以获取业务服务的运行记录,从而查询预设时间内的采样数据等,具体不做限定。这样,服务器能够灵活的获取采样数据,以完成异常数据检测过程。
6、在一个可选的实施方式中,服务器可以采用多种压缩方式对采样数据和全量数据进行压缩。示例性的,服务器在获取到采样数据集后,对采样数据集进行二值化数据编码操作,将其转化为一个二值化序列。同时,服务器对全量数据也进行二值化数据编码,得到第二个二值化序列。其中,二值化序列指的是由0和1组成的数据序列。然后服务器对两个二值化序列进行差异比对。根据比对结果找出两个序列中不同的数据位。可以理解的,该不同数据位所对应的采样数据,就是异常数据。
7、在上述实施例中,对采样数据和全量数据进行二值化数据编码操作,可以大大节省存算资源,得到的二值化序列也更加的简洁有效。通过对比二值化序列得到异常数据,可以大大降低对比难度,并且提高对比速度,从而提高异常数据检测的效率。
8、在一个可选的实施方式中,对两个二值化序列进行差异对比时,可以将两个二值化序列按位进行异或运算或者同或运算。然后根据异或运算的结果或者同或运算的结果找出异常数据位。示例性的,可以将采样数据集对应的第一二值化序列和全量数据对应的第二二值化序列对齐,然后按位进行异或运算,如果某数据位上两个值不相同,则异或结果为1,如果某数据位上两个值相同,则异或结果为0。这样在得到最后的异或结果(序列)后,找到该异或结果中为1的数据位,然后确定该数据位对应的采样数据,该采样数据即为异常数据。同理,还可以将采样数据集对应的第一二值化序列和全量数据对应的第二二值化序列对齐,然后按位进行同或运算,如果某数据位上两个值不相同,则同或结果为0,如果某数据位上两个值相同,则同或结果为1。这样在得到最后的同或结果(序列)后,找到该同或结果中为0的数据位,然后确定该数据位对应的采样数据。最后确定该采样数据为异常数据。
9、在一个可选的实施方式中,服务器再对采样数据集进行二值化数据编码时,需要建立采样数据集和第一二值化序列之间的数据编码映射关系。这样,在最后找到异常数据位后,就可以利用该数据编码映射关系对该异常数据位上的值对进行还原,从而得到还原后的异常数据。
10、在一个可选的实施方式中,服务器在获取到异常数据后,还需要对异常数据进行数据聚合,形成多个数据视图。这样可以更直观清晰的对外进行异常数据的展示。
11、本技术实施例第二方面提供了一种异常数据的检测装置,该检测装置包括:
12、获取单元,用于获取预设时间内业务服务对应的采样数据,得到采样数据集。
13、处理单元,用于对采样数据集进行压缩,得到第一压缩数据。
14、获取单元,还用于获取业务服务对应的全量数据,全量数据为业务服务对应的历史正常数据集。
15、处理单元,还用于对全量数据进行压缩,得到第二压缩数据。
16、确定单元,用于对比第一压缩数据和第二压缩数据,根据对比结果确定采样数据中的异常数据。
17、在一个可选的实施方式中,获取单元,具体用于在预设时间内周期性的获取采样数据。或者获取预设时间内业务服务对应的所有监测数据,根据监测数据得到采样数据。
18、在一个可选的实施方式中,处理单元,具体用于对采样数据集进行二值化数据编码,得到第一二值化序列。对全量数据进行二值化数据编码,得到第二二值化序列。
19、确定单元,具体用于对第一二值化序列和第二二值化序列进行差异比对。
20、在一个可选的实施方式中,确定单元,具体用于对第一二值化序列和第二二值化序列按位进行异或运算。或对第一二值化序列和第二二值化序列按位进行同或运算。根据异或运算的运算结果或同或运算的运算结果确定第一二值化序列中的异常数据位。
21、在一个可选的实施方式中,处理单元,还用于建立采样数据集和第一二值化序列之间的数据编码映射关系。
22、确定单元,还用于根据数据编码映射关系,对第一二值化序列中的异常数据位进行解码,获得述采样数据中的异常数据。
23、在一个可选的实施方式中,处理单元,还用于对异常数据进行数据聚合,获得数据视图。
24、本技术实施例第三方面还提供了一种服务器,包括:
25、处理器和存储器,处理器与存储器耦合。
26、存储器,用于存储程序。
27、处理器,用于执行存储器中的程序,使得服务器执行如上述第一方面任一种实施方式所述异常数据的检测方法。
28、本技术实施例第四方面还提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,当程序在计算机上运行时,使得计算机执行上述第一方面任一种实施方式所述异常数据的检测方法。
29、在本技术实施例中,服务器对待检测的采样数据以及用于对比的全量数据均进行了压缩处理,这样就可以节约异常数据检测过程中的存算资源。同时,压缩后的数据数据量将会大大减小,这样将提高数据比对速度,从而能够快速有效的检测出异常数据,以提高数据检测的数据以及效率。