本公开涉及数据处理,尤其涉及一种数据排重方法、装置、设备及介质。
背景技术:
1、在当今信息爆炸的时代,对海量数据进行收集和存储成为一项重要任务。然而,由于海量数据中常常包含大量的重复数据,在对海量数据进行收集和存储过程中,不仅浪费存储空间,而且增加了数据处理和分析的复杂性,因此,进行海量数据排重对于提高海量数据的存储和处理效率是至关重要的。
2、现有的对海量数据进行排重的方法主要是通过哈希算法对海量数据的唯一标识进行哈希计算,得到海量数据对应的哈希值,进而基于哈希值通过布隆过滤器技术对海量数据进行排重处理。
3、但是,现有的海量数据排重方法中基于哈希算法处理海量数据的时候本身面临哈希冲突的问题,同时由于布隆过滤器技术本身存在一定的误识别率,进而导致海量数据排重的效率和准确率低的技术问题。
技术实现思路
1、为了解决上述技术问题,本公开提供了一种数据排重方法、装置、设备及介质。
2、本公开实施例的第一方面提供了一种数据排重方法,包括:
3、获取待排重数据以及待排重数据对应的标识信息,标识信息包括待排重数据对应的第一指纹键;
4、基于标识信息确定待排重数据对应的目标存储区域,目标存储区域对应有预设实例,预设实例用于对目标存储区域执行数据写入操作和/或数据读取操作;
5、基于预设实例执行数据读取操作,得到目标存储区域中的目标存储数据,基于目标存储数据确定待排重数据是否存在。
6、本公开实施例的第二方面提供了一种数据排重装置,包括:
7、数据获取模块,用于获取待排重数据以及待排重数据对应的标识信息,标识信息包括待排重数据对应的第一指纹键;
8、区域确定模块,用于基于标识信息确定待排重数据对应的目标存储区域,目标存储区域对应有预设实例,预设实例用于对目标存储区域执行数据写入操作和/或数据读取操作;
9、排重判断模块,用于基于预设实例执行数据读取操作,得到目标存储区域中的目标存储数据,基于目标存储数据确定待排重数据是否存在。
10、本公开实施例的第三方面提供了一种电子设备,包括:
11、处理器;
12、存储器,用于存储可执行指令;
13、其中,处理器用于从存储器中读取可执行指令,并执行可执行指令以实现上述第一方面提供的数据排重方法。
14、本公开实施例的第四方面提供了一种计算机可读存储介质,该存储介质存储有计算机程序,当计算机程序被处理器执行时,使得处理器实现上述第一方面提供的数据排重方法。
15、本公开实施例提供的技术方案与现有技术相比具有如下优点:
16、本公开实施例提供的数据排重方法、装置、设备及介质,能够获取待排重数据以及待排重数据对应的标识信息,其中,标识信息包括待排重数据对应的第一指纹键,基于标识信息确定待排重数据对应的目标存储区域,目标存储区域对应有预设实例,预设实例用于对目标存储区域执行数据写入操作和/或数据读取操作,进而基于预设实例执行数据读取操作,得到目标存储区域中的目标存储数据,基于目标存储数据确定待排重数据是否存在,由此,能够通过待排重数据的标识信息确定待排重数据对应的目标存储区域,进而根据目标存储区域中的目标存储数据确定待排重数据是否存在,提高了数据排重的效率和准确率。
1.一种数据排重方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述标识信息确定所述待排重数据对应的目标存储区域,包括:
3.根据权利要求1所述的方法,其特征在于,所述标识信息还包括所述待排重数据对应的时间信息;
4.根据权利要求1所述的方法,其特征在于,所述基于所述目标存储数据确定所述待排重数据是否存在,包括:
5.根据权利要求1所述的方法,其特征在于,在所述基于所述目标存储数据确定所述待排重数据是否存在之后,所述方法还包括:
6.根据权利要求5所述的方法,其特征在于,所述预设实例包括所述目标存储区域对应的磁盘存储目录,所述将所述待排重数据写入至所述目标存储区域,包括:
7.根据权利要求1所述的方法,其特征在于,所述目标存储区域中包括多个预设数据结构的目标文件,每个目标文件中包含有多个索引块,每个索引块具有与所述索引块对应的索引范围。
8.一种数据排重装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括:
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,当所述计算机程序被处理器执行时,使得处理器实现上述权利要求1-7中任一项所述的数据排重方法。